开源大数据周刊-第106期-阿里云开发者社区

开源大数据周刊-第106期

2018-11-09 1703

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Kylin社区于日前宣布：Apache Kylin v2.5.1 正式发布！Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop 之上的 SQL 查询接口及多维分析（OLAP）能力，支持对超大规模数据进行亚秒级查询。

资讯

Apache Kylin v2.5.1 正式发布
Apache Kylin社区于日前宣布：Apache Kylin v2.5.1 正式发布！Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop 之上的 SQL 查询接口及多维分析（OLAP）能力，支持对超大规模数据进行亚秒级查询。Apache Kylin v2.5.1 是继 v2.5.0 版本后的一次修复 bug 的更新，共修复了超过30 个 issues，包括缺陷修复和改进等。
VMware 收购 Heptio：它由 Kubernetes 两位联合创始人创办
在近期于欧洲召开大型客户会议期间，Vmware公司同时宣布了另一项收购决策，旨在帮助企业客户建立并运行基于Kubernetes的容器化架构。而本轮收购的对象，正是位于西雅图的初创企业Heptio。Heptio公司由Joe Beda与Craig McLuckie两位曾在2014年帮助谷歌联合建立Kubernetes项目的主力（当时的项目负责人共有三名）共同建立。
Databricks CTO Matei Zaharia专访：分布式是机器学习的未来！
本文是在今年的 Spark 和人工智能欧洲峰会期间对 Matei Zaharia 的专访，他是 Spark 的商业支持公司 Databricks 的 CTO 。采访中，Zaharia 介绍了公司的整合分析目标，以及 Spark 和 MLFlow 框架的用例、编程语言、采纳模式，提出分布式是机器学习的未来发展方向。
Apache Spark 2.4正式发布以及新特性介绍
美国当地时间2018年11月2日，Apache Spark完成了2.x的第五次发布：2.4.0版本。本文中详细介绍了Apache Spark 2.4.0版本的新特性，包括Barrier Execution Mode、Scala 2.12支持、Pandas UDF增强、Image Data Source支持以及k8s集成增强等。

技术

Adaptive Execution如何让Spark SQL更高效更好用？
本文所述内容均基于 2018 年 9 月 17 日 Spark 最新 Spark Release 2.3.1 版本，以及截止到 2018 年 10 月 21 日 Adaptive Execution 最新开发代码。自动设置 Shuffle Partition 个数已进入 Spark Release 2.3.1 版本，动态调整执行计划与处理数据倾斜尚未进入 Spark Release 2.3.1。
揭解读微软开源MMLSpark：统一的大规模机器学习生态系统
目前，有很多深度学习框架支持与 Spark 集成，如 Tensorflow on Spark 等。然而，微软开源的 MMLSpark 不仅集成了机器学习框架（CNTK 深度学习计算框架、LightGBM 机器学习框架），还可以将这些计算资源作为一种服务，以 HTTP 服务的形式对外提供给用户。近日，微软 MMLSpark 团队发表了一篇论文对 MMLSpark 的架构进行详细解读，我们将基于这篇论文，就 MMLSpark 的相关组件的特性和一个利用 MMLSpark 进行物体识别的案例展开介绍。
Apache Pulsar在智联招聘的实践 -- 从消息队列到基于Apache Pulsar的事件中心
本文介绍了以前的消息中间件在智联招聘的应用和场景；以及对消息中间件选型的诉求；详细描述了选型过程中的细致思考。接着介绍了为什么会选择Pulsar，以及Pulsar中和智联的场景匹配的特性。最后提供了详细的Pulsar落地实践。
Dynamic Query Re-Planning Using QOOP
本文来自osdi'18大会录取论文。现代数据处理集群是高度动态的，无论是在并发运行的作业数量还是资源使用方面。为了提高性能，业界最近的工作重点都是优化集群调度程序和作业的查询计划程序，即选择正确的查询执行计划（QEP）。但是，由于现有解决方案在整个执行过程中使用固定的QEP，因此无法根据资源变化调整QEP，这通常会导致性能低下。本文主张动态查询重新规划，其中我们在执行期间重新评估和重新规划作业的QEP。论文中提出在三个组件(the query planner, the execution engine and the cluster scheduler)之间重新分配责任以简化其设计，而不是将更多复杂性推向调度程序或查询计划程序。在这中设计方案下，论文分析表明，即使在对抗性资源变化的情况下，用于重新规划和执行的贪婪算法以及简单的最大最小公平调度程序也可以提供可证明的竞争行为。最后在Apache Hive和Tez上编写了算法原型，通过大量实验表明，与最先进的替代方案相比，本文的设计可以提供1.47倍的中值性能提升。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

开源大数据周刊-第106期

资讯

技术

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景