资讯
- 警惕大数据成了互联网的“PX项目”
新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光,也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑,以及互联网公司如何使用这些数据,可以说是一个很好数据安全的科普。 - 李飞飞发文发布谷歌云AutoML Vision平台,订制化的企业级机器学习模型不再是难题
一直以来机器学习或深度学习都存在这比较高的入门门槛,比如要有一定的算法功底,数学水平也不能太差,至少能看清楚 loss function 的意义等等。AutoML Vision 平台的推出让普通人也能够通过在页面上点击几下就能创建自己的模型并调参训练成为了可能。这样,对深度学习不怎么了解的普通企业也可以构建自己的人工智能系统了。这对于普及人工智能技术来说意义重大。 - 微软和阿里开发的人工智能在阅读测试中首次击败人类
关于人工智能系统击败人类已经不是什么新鲜事了。这次是“阅读理解”,即让机器和人阅读一些文章,并根据自己对文章的理解回答一些问题。最终的结果是微软和阿里巴巴的系统各自以几个百分点的优势击败人类。
技术
- 基于Kubernetes构建现代大数据管道
大数据生态从早期的 hadoop、hive、spark 等传统批处理场景逐步过渡到与 kafka、flink 等流式处理场景和 tensorflow 等机器学习场景相融合的阶段,从而实现数据从采集到存储到分析到挖掘的一站式处理过程。越来越多的生态组件和越来越多的应用场景对如何整合这些组件形成一个完整的数据管道提出了很大的挑战。本文介绍了利用容器技术来实现一个数据管道的思路,即完全借助于云上服务,并利用 kubernetes 提供统一的编排。在这种解决方案中,hadoop、spark、tensorflow 等都被容器化,数据流在这些容器之间流动,整个数据流由 kubernetes 控制。这是一种无服务器框架(关于无服务器技术,可参考这篇文章)。该文章还提到了另外一种无服务器框架 nuclio。这里是 Eliran Bivas 在 kubecon 2017 的报告链接。 - 从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例
这是一篇纯技术文章,介绍了推荐系统的原理与实现。一般地说,推荐系统与搜索引擎、广告系统类似,都是一个相关性排序问题。相关性排序问题,核心是如何定义相关性,这就引出了种种的相似度度量算法。当用户搜索并点击了一个词条时,把除此之外的最相关的东西呈现在用户面前,就完成了一次最简单的推荐。这个过程说简单也简单,说复杂也复杂。文章系统的分析了在具体做相似度计算时应当仔细考量的因素,诸如长尾效应(马太效应)、计算矩阵过大、多因子权重调整等等。文章之后对个性化推荐、协同过滤两种经典场景(或者技术)给出了spark代码实现,可以作为学习推荐系统的新手来练手。文章的可贵之处是除了算法和技术,还讨论了产品形态和技术架构,这个往往是普通技术人员所欠缺的,如果读者想成为一个素质全面的综合性人才,这部分内容更要多看看。 - Apache Ranger调研
这是关于 apache ranger 的系列文章,上边的链接是其第一篇。在该系列文章中,作者从调研选型、测试到原理都进行了深入的剖析,可以说是读者入门 ranger 的一个不错的介绍文章。另外,如果读者对 hadoop 安全选型方面有需求,可以参考一下这篇英文文章。 - Spark Security面面观
本文是关于 spark 安全的介绍文章,主要从认证、授权、数据/链路加密、与其他系统安全交互几个方面进行了讲解。认证方面介绍了 spnego(以 kerberos 为基础的 http 认证机制)、LDAP,以及 SASL 认证体系(在数据链路加密一节中进行了介绍)。授权方面介绍了 spark acl 的使用。文章的重点是介绍 spark 系统中需要对哪些数据,以及哪些数据链路进行加密。文章最后介绍了和其他系统如何做安全的交互。
欢迎入群技术交流!
版权声明:信息都是来自互联网,如果侵权,请联系我们,我们负责删除。
阿里云E-Mapreduce团队出品