开源大数据周刊-第106期

9天前 239

资讯

  • Apache Kylin v2.5.1 正式发布
    Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。Apache Kylin v2.5.1 是继 v2.5.0 版本后的一次修复 bug 的更新,共修复了超过30 个 issues,包括缺陷修复和改进等。
  • VMware 收购 Heptio:它由 Kubernetes 两位联合创始人创办
    在近期于欧洲召开大型客户会议期间,Vmware公司同时宣布了另一项收购决策,旨在帮助企业客户建立并运行基于Kubernetes的容器化架构。而本轮收购的对象,正是位于西雅图的初创企业Heptio。Heptio公司由Joe Beda与Craig McLuckie两位曾在2014年帮助谷歌联合建立Kubernetes项目的主力(当时的项目负责人共有三名)共同建立。
  • Databricks CTO Matei Zaharia专访:分布式是机器学习的未来!
    本文是在今年的 Spark 和人工智能欧洲峰会期间对 Matei Zaharia 的专访,他是 Spark 的商业支持公司 Databricks 的 CTO 。采访中,Zaharia 介绍了公司的整合分析目标,以及 Spark 和 MLFlow 框架的用例、编程语言、采纳模式,提出分布式是机器学习的未来发展方向。
  • Apache Spark 2.4正式发布以及新特性介绍
    美国当地时间2018年11月2日,Apache Spark完成了2.x的第五次发布:2.4.0版本。本文中详细介绍了Apache Spark 2.4.0版本的新特性,包括Barrier Execution Mode、Scala 2.12支持、Pandas UDF增强、Image Data Source支持以及k8s集成增强等。

技术

  • Adaptive Execution如何让Spark SQL更高效更好用?
    本文所述内容均基于 2018 年 9 月 17 日 Spark 最新 Spark Release 2.3.1 版本,以及截止到 2018 年 10 月 21 日 Adaptive Execution 最新开发代码。自动设置 Shuffle Partition 个数已进入 Spark Release 2.3.1 版本,动态调整执行计划与处理数据倾斜尚未进入 Spark Release 2.3.1。
  • 揭解读微软开源MMLSpark:统一的大规模机器学习生态系统
    目前,有很多深度学习框架支持与 Spark 集成,如 Tensorflow on Spark 等。然而,微软开源的 MMLSpark 不仅集成了机器学习框架(CNTK 深度学习计算框架、LightGBM 机器学习框架),还可以将这些计算资源作为一种服务,以 HTTP 服务的形式对外提供给用户。近日,微软 MMLSpark 团队发表了一篇论文对 MMLSpark 的架构进行详细解读,我们将基于这篇论文,就 MMLSpark 的相关组件的特性和一个利用 MMLSpark 进行物体识别的案例展开介绍。
  • Apache Pulsar在智联招聘的实践 -- 从消息队列到基于Apache Pulsar的事件中心
    本文介绍了以前的消息中间件在智联招聘的应用和场景;以及对消息中间件选型的诉求;详细描述了选型过程中的细致思考。接着介绍了为什么会选择Pulsar,以及Pulsar中和智联的场景匹配的特性。最后提供了详细的Pulsar落地实践。
  • Dynamic Query Re-Planning Using QOOP
    本文来自osdi'18大会录取论文。现代数据处理集群是高度动态的,无论是在并发运行的作业数量还是资源使用方面。为了提高性能,业界最近的工作重点都是优化集群调度程序和作业的查询计划程序,即选择正确的查询执行计划(QEP)。但是,由于现有解决方案在整个执行过程中使用固定的QEP,因此无法根据资源变化调整QEP,这通常会导致性能低下。本文主张动态查询重新规划,其中我们在执行期间重新评估和重新规划作业的QEP。论文中提出在三个组件(the query planner, the execution engine and the cluster scheduler)之间重新分配责任以简化其设计,而不是将更多复杂性推向调度程序或查询计划程序。在这中设计方案下,论文分析表明,即使在对抗性资源变化的情况下,用于重新规划和执行的贪婪算法以及简单的最大最小公平调度程序也可以提供可证明的竞争行为。最后在Apache Hive和Tez上编写了算法原型,通过大量实验表明,与最先进的替代方案相比,本文的设计可以提供1.47倍的中值性能提升。

云栖社区 深度学习 分布式 架构 算法 hadoop 性能 Apache spark 开源大数据 kylin big data Pulsar MMLSpark

作者

开源大数据
TA的文章

相关文章