开源大数据周刊-第79期-阿里云开发者社区

开源大数据周刊-第79期

2018-01-19 2181

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 资讯警惕大数据成了互联网的“PX项目” 新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光，也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑，以及互联网公司如何使用这些数据，可以说是一个很好数据安全的科普。

资讯

警惕大数据成了互联网的“PX项目”
新年伊始 BAT 三家关于数据安全的新闻就成功的吸引了公众的目光，也引发了公众对于大公司收集并使用用户数据的担忧。这篇文章比较客观的分析了公众的忧虑，以及互联网公司如何使用这些数据，可以说是一个很好数据安全的科普。
李飞飞发文发布谷歌云AutoML Vision平台，订制化的企业级机器学习模型不再是难题
一直以来机器学习或深度学习都存在这比较高的入门门槛，比如要有一定的算法功底，数学水平也不能太差，至少能看清楚 loss function 的意义等等。AutoML Vision 平台的推出让普通人也能够通过在页面上点击几下就能创建自己的模型并调参训练成为了可能。这样，对深度学习不怎么了解的普通企业也可以构建自己的人工智能系统了。这对于普及人工智能技术来说意义重大。
微软和阿里开发的人工智能在阅读测试中首次击败人类
关于人工智能系统击败人类已经不是什么新鲜事了。这次是“阅读理解”，即让机器和人阅读一些文章，并根据自己对文章的理解回答一些问题。最终的结果是微软和阿里巴巴的系统各自以几个百分点的优势击败人类。

技术

基于Kubernetes构建现代大数据管道
大数据生态从早期的 hadoop、hive、spark 等传统批处理场景逐步过渡到与 kafka、flink 等流式处理场景和 tensorflow 等机器学习场景相融合的阶段，从而实现数据从采集到存储到分析到挖掘的一站式处理过程。越来越多的生态组件和越来越多的应用场景对如何整合这些组件形成一个完整的数据管道提出了很大的挑战。本文介绍了利用容器技术来实现一个数据管道的思路，即完全借助于云上服务，并利用 kubernetes 提供统一的编排。在这种解决方案中，hadoop、spark、tensorflow 等都被容器化，数据流在这些容器之间流动，整个数据流由 kubernetes 控制。这是一种无服务器框架（关于无服务器技术，可参考这篇文章）。该文章还提到了另外一种无服务器框架 nuclio。这里是 Eliran Bivas 在 kubecon 2017 的报告链接。
从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例
这是一篇纯技术文章，介绍了推荐系统的原理与实现。一般地说，推荐系统与搜索引擎、广告系统类似，都是一个相关性排序问题。相关性排序问题，核心是如何定义相关性，这就引出了种种的相似度度量算法。当用户搜索并点击了一个词条时，把除此之外的最相关的东西呈现在用户面前，就完成了一次最简单的推荐。这个过程说简单也简单，说复杂也复杂。文章系统的分析了在具体做相似度计算时应当仔细考量的因素，诸如长尾效应（马太效应）、计算矩阵过大、多因子权重调整等等。文章之后对个性化推荐、协同过滤两种经典场景（或者技术）给出了spark代码实现，可以作为学习推荐系统的新手来练手。文章的可贵之处是除了算法和技术，还讨论了产品形态和技术架构，这个往往是普通技术人员所欠缺的，如果读者想成为一个素质全面的综合性人才，这部分内容更要多看看。
Apache Ranger调研
这是关于 apache ranger 的系列文章，上边的链接是其第一篇。在该系列文章中，作者从调研选型、测试到原理都进行了深入的剖析，可以说是读者入门 ranger 的一个不错的介绍文章。另外，如果读者对 hadoop 安全选型方面有需求，可以参考一下这篇英文文章。
Spark Security面面观
本文是关于 spark 安全的介绍文章，主要从认证、授权、数据/链路加密、与其他系统安全交互几个方面进行了讲解。认证方面介绍了 spnego（以 kerberos 为基础的 http 认证机制）、LDAP，以及 SASL 认证体系（在数据链路加密一节中进行了介绍）。授权方面介绍了 spark acl 的使用。文章的重点是介绍 spark 系统中需要对哪些数据，以及哪些数据链路进行加密。文章最后介绍了和其他系统如何做安全的交互。

欢迎入群技术交流！

EMR_dingding

阿里云E-Mapreduce团队出品

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

开源大数据周刊-第79期

资讯

技术

欢迎入群技术交流！

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景