SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布

就在本周六、日

SPARK + AI SUMMIT 2020 中文精华版线上峰会,在北美结束第一时间“闪电般快速”为诸位奉上一场技术盛筵。本次活动由阿里云开发者社区牵头,联合十四位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。

除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外,还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生态的最新落地。

点击详细议程


7月4日上午议题:

李潇.jpg
范振.jpg
李元健.jpg
周康.jpg


Apache Spark 3.0简介:回顾过去的十年,并展望未来

李潇
Databricks Spark 研发部主管,领导 Spark,Koalas,Databricks runtime,OEM的研发团队。Apache Spark Committer、PMC成员。2011年从佛罗里达大学获得获得了博士学位。曾就职于IBM,获发明大师称号(Master Inventor),是异步数据库复制和一致性验证的领域专家,发表专利十余篇。(Github: gatorsmile)

我们将分享Apache Spark创建者Matei Zaharia的主题演讲,重点介绍Apache Spark 3.0 更易用、更快、更兼容的特点。Apache Spark 3.0 延续了项目初心,在SQL和Python API上取得了重大改进;自适应动态优化,使数据处理更易于访问,从而最大限度地减少手动配置。今年也是Spark首次开源发布的10周年纪念日,我们将回顾该项目及其用户群是如何增长的,以及Spark周围的生态系统(如Koalas, Delta Lake 和可视化工具)是如何发展的,共同探讨处理大规模数据的更简单、更有效的方案。


在Kubernetes上运行Apache Spark:最佳实践和陷阱

范振
花名辰繁,阿里云智能 EMR 团队高级技术专家。曾在搜狐京东工作,分别参与了 linux 内核、CDN、分布式计算和存储的研发工作。目前专注于大数据云原生化工作。

随着spark2.3引入spark on kubernetes以来,越来越多的公司开始关注这一特性。主要的原因一方面是在kubernetes上可以更好地隔离计算资源,另一方面是可以为公司提供一个统一的、云原生的基础架构技术栈。但是,如何能够稳定的、高性能的、省成本的以及安全的使用spark on kubernetes是一个很大的挑战。这次talk,我们主要谈一下在建立Data Mechanics平台(一种serverless形式的spark on kubernetes平台)的过程中积累的经验教训。


Structured Streaming生产化实践及调优

李元健
Databricks软件工程师。曾于2011年加入百度基础架构部,先后参与百度自研流式计算、分布式Tracing及批量计算系统的研发工作,2017年转岗项目经理,负责百度分布式计算平台研发工作。2019年加入Databricks Spark团队,参与开源软件及Databricks产品研发。

流式计算作业从研发完成到正式上线的过程中,往往需要做充分的预上线准备。本次分享旨在从如下四个方向入手,以现场demo的形式探讨Structured Streaming生产化实践及调优:

  1. 数据源相关参数:不合理的参数会增大流式作业计算负载,导致性能降低。
  2. 计算状态参数:不合理的设置导致无止尽的状态计算及内存耗尽。
  3. 数据输出相关参数:常见的小文件问题及应对建议。
  4. 线上作业的修改:针对已有checkpoint的线上作业修改思路及方案。

Apache Spark 3.0对Prometheus监控的原生支持

周康
花名榆舟,阿里云EMR技术专家。开源爱好者,是 Apache Spark/Hadoop/Parquet 等项目的贡献者。关注大规模分布式计算、调度、存储等系统,先后从事过 Spark、OLAP、Hadoop Yarn 等相关工作的落地。目前主要专注在 EMR 大数据上云的相关工作。

Apache Spark实现了一个支持可配置的metrics system,用户在生产环境中可以将Spark提供的metrics数据(包括driver、executor等)推送到多种Sink。Prometheus是一个开源的分布式监控系统,尤其在云原生时代被广泛使用。
Apache Spark也支持以Prometheus作为Sink,将metrics数据推送到Prometheus中来进行监控和报警。目前常见的实现方式有下面几种:

  1. 使用jmx exporter和Spark的JMXSink结合的方式;
  2. 使用第三方库;
  3. 实现Sink插件来支持更复杂的metrics;
    本次分享会为大家介绍在Apache Spark 3.0中对Prometheus监控的原生支持,包括如何使用Prometheus特性、目前已经实现的metrics、以及如何对structured streaming 作业进行监控等。

钉钉群同步直播,欢迎钉钉扫码加入Apache Spark中国技术交流社区!
二维码.JPG

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。
image.png

Apache Spark技术交流社区公众号,微信扫一扫关注
image.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
打赏
0
0
0
0
1336
分享
相关文章
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
AI Forward: Alibaba Cloud Developer Summit 2025 开放注册中
AI Forward: Alibaba Cloud Developer Summit 2025 开放注册中
倒计时1天!这里查收AI Forward: Alibaba Cloud Developer Summit 2025大会议程
倒计时1天!这里查收AI Forward: Alibaba Cloud Developer Summit 2025大会议程
阿里云研发副总裁蔡德忠受邀参加乌镇峰会,畅谈AI与下一代互联网
2024年乌镇峰会“下一代互联网论坛”近日举办,主题为“创新驱动,安全赋能,共筑开放与安全的下一代互联网”。阿里云智能集团研发副总裁,基础设施网络研发负责人蔡德忠受邀参与圆桌讨论,并就人工智能(AI)与下一代互联网的融合发展分享了前瞻性见解。
2024 OCP全球峰会:阿里云为代表的中国企业,引领全球AI网络合作和技术创新
今年的OCP(Open Compute Project)峰会于2024年10月14日至17日在美国加州圣何塞举行,在这场全球瞩目的盛会上,以阿里云为代表的中国企业,展示了他们在AI网络架构、液冷技术、SRv6和广域网等前沿领域的强大创新能力,持续引领全球合作与技术创新。
携手UALink,阿里云磐久AI Infra 2.0服务器亮相2024 OCP全球峰会
阿里云服务器研发受邀和UALink联盟一起,在OCP全球峰会上重点阐述AI服务器Scale UP互连技术领域发展趋势
AI 编程如何颠覆生产力 | 参与体验免费领取 ArchSummit 架构师峰会专属门票
AI 编程如何颠覆生产力 | 参与体验免费领取 ArchSummit 架构师峰会专属门票
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
169 29
破茧成蝶:传统J2EE应用无缝升级AI原生
本文探讨了技术挑战和解决方案,还提供了具体的实施步骤,旨在帮助企业顺利实现从传统应用到智能应用的过渡。
破茧成蝶:传统J2EE应用无缝升级AI原生