首次加入云栖大会的Flink专场,究竟都讲了啥?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 9月19日,云栖大会的Flink分论坛,在杭州正式开幕。今天是云栖大会的第一天,据悉,这也是云栖大会首次加入Flink的论坛,足见阿里对于Flink前景的看好与重视。本次Flink分论坛,除了阿里巴巴的嘉宾外,论坛也邀请了Data Artisans的联合创始人,Flink的开创者和发扬者同台,共话Flink的前世今生。

     导读:9月19日,云栖大会的Flink分论坛,在杭州正式开幕。今天是云栖大会的第一天,据悉,这也是云栖大会首次加入Flink的论坛,足见阿里对于Flink前景的看好与重视。本次Flink分论坛,除了阿里巴巴的嘉宾外,论坛也邀请了Data Artisans的联合创始人,Flink的开创者和发扬者同台,共话Flink的前世今生。

  做大数据绝对躲不过的一个热门话题就是实时流计算,而提到实时流计算,就不得不提 Spark 和 Flink。作为一款为分布式、高性能、高可用、高精确的数据流应用而生的开源流式处理框架—— Flink ,2016 年左右开始进入大众的视野并逐渐广为人知。

  Flink 凭借更优的流处理引擎,同时也支持各种处理场景,成为现如今如今正流行的的 Spark 最有力的挑战者。而今天演讲的会场上,多位嘉宾直接以‘下一代大数据计算引擎’的表达来宣传Flink,究竟看重了Flink哪些过人之处呢?

蒋晓伟:下一代大数据引擎展望

1809201559472007479520.png
                                                                                            蒋晓伟(量仔)   阿里巴巴 研究员
    蒋晓伟认为Flink新的发展方向有两个。第一个是在传统数据处理领域:包括批流统一、机器学习、以及如何把AI workload融合进来;第二个是Flink和微服务的技术融合创新,从而为在线服务领域带来新的变革。这使得Flink在生态上,也会拥有大的想象空间。

  对比Flink, Spark也有流批统一的概念,但做法与之大有不同。Spark是基于批处理做流处理,并且Spark在架构上先天不足,导致其在性能上的提升举步维艰。同时,天然批处理为主的架构为Spark进一步提高吞吐量带来巨大障碍。而Flink的批流统一,从另外一个方向去看,是将流作为一切计算的基础。这个方案与Spark相比,最本质的区别在于:第一, Flink是天然的流处理引擎,允许其在流上做到极致;第二,在流上做批,架构上允许把批处理也做到极致。

  

Aljoscha Krettek :Apache Flink的前世今生

      

Aljoscha Krettek     PMC of Apache Flink/ Co-Founder at data Artisans

  对Flink熟悉的人应该都知道,Data Artisans 是由Apache Flink创始者们成立的商业公司,他们领导并见证了Apache Flink的发展。在会上,Data Artisans的联合创始人,Apache Flink的PMCAljoscha Krettek以‘The Past, Present, and Future of Apache Flink’为题,对Flink的前世今生作了系统的阐述。

  ‘流处理仍在不断发展和变化,这使得很难跟上发展的步伐。 处于流处理技术的最前沿,Apache Flink的发展反映了许多这些发展,并且仍在继续这样做。’‘这就是我们用Flink 1.5(2018年5月)解决的问题,其中包括对Flink分布式架构的完整修改。新的分布式架构充分发挥资源弹性并动态改变应用程序并行性。此外,它大大改善了Flink的集装箱集成。

  在部署方面还发生了什么?随着ProcessFunction的引入,我们允许在Flink之上开发数据驱动的应用程序。但是,在执行它们时,它不像是启动一个简单的应用程序,因为需要操作Flink集群。我们希望通过使应用程序成为Flink的一等公民来改变这种状况。

王绍翾:批流统一的SQL计算引擎

  

  王绍翾(大沙)  阿里巴巴 资深技术专家

  Flink在创建之初,就凭借其可以优雅支持多种计算模式的架构,被业界认为具备先天优势,这也是几年前阿里巴巴选择Flink引擎的一个重要原因。如今阿里凭借其领先的技术水平,持续优化Flink在批计算处理方面的性能,使批与流之间的界限日渐消弭,真正实现批流统一。

  

  三年前,在内部启动Flink时,因其开源产品的特性,很难满足阿里大体量的特定场景需求,为了将Flink在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,并命名Flink在阿里巴巴内部的版本为Blink。Blink在迭代优化的过程中,也在不断向社区捐赠代码,真正做到“取之开源,用之开源”。

  目前,阿里巴巴的实时业务场景,从搜索到广告、数据平台、安全等等。所有大的场景都是基于阿里巴巴内部版本Blink展开,同时通过Stream Compute产品在阿里提供公共云服务。在Flink Forward上,阿里为Flink提出的批流融合新突破,这也是架构上的一个新方向,并已经得到了初步的成果和验证。

  此外,王绍翾也透露:Flink Forward过去只在德国柏林、美国旧金山举办。今年将由阿里巴巴作为独家承办方将这一盛会引入中国,于今年12月20日在北京落地,共建生态。

  李晓昱:Flink在阿里巴巴电商业务中的应用

  

  李晓昱(言柏)  阿里巴巴 高级技术专家

  言柏从指标计算、数据同步、监控报警、场景复现四个典型场景介绍了Flink在阿里巴巴电商业务中的应用,同时通过表、数据、代码让大家对流计算&实时大数据开发有更直观的感受。另外言柏表示为了让集团外部用户尽快享受到阿里内部的技术经验,目前数加团队和Flink团队正在进行更深入的合作,预计下半年在阿里云DataWorks产品中将发布StreamStudio,为阿里云用户带来可视化&代码化的Flink编程环境,让实时大数据开发变得更简单更有趣。

  景丽宁: Flink在云端,如何快速应用实时计算服务

  

  景丽宁(砚田)  阿里巴巴 高级开发工程师

  景丽宁着重介绍了流计算在云端的便利,主要围绕展开:

  自建集群的痛点:硬件维护成本高,软件选型困难。

  云端: 提供一站式的流计算服务,从开发到运维,提高开发,运维效率,降低维护成本。

  未来云端: 提供自动扩缩容,进一步降低用户成本。开放 open sdk, 用户可以基于流计算搭建自己的平台。

  

  当你选择自己动手搭建服务的时候,你就需要从这种图中选出你需要的组件。因为大部分公司都是业务驱动,而业务上往往要求快速实现,这样就很难有足够的时间留给开发人员在技术选型上可以精挑细选。常见的做法是,大家通过混迹于各个社区、论坛,通过别人的介绍和项目的活跃程度等指标,匆匆对比之后就做出选择。先把业务搞上去,其他的慢慢再说,船到桥头自然直,遇山开山,遇水涉水。但是一旦真的遇到棘手的系统性问题,迫于人力有限,为了解决问题,采取一些 比较trick的操作,比如,要是系统越跑越慢,那就定时重启一下。但是这种解决办法,都是治标不治本。系统问题甚至会让你的业务系统变得异常复杂,难易维护。导致维护的成本异常高,比如常见的 bi 系统,因为无法实现 sql 化,是指需要给bi 分析师专门配备开发人员将 sql 翻译成代码。

  陈守元:阿里对于下一代大数据计算引擎的思考

  

  陈守元(巴真)  阿里巴巴 高级产品专家

  我们认为,第一代大数据计算引擎以Hdadoop为代表,当然也包括了Storm,第二代是Spark,下一代大数据计算引擎是Flink,我们希望能够用Flink统一解决Spark之前没有解决的问题:

  1.Spark期望一套软件覆盖主要计算模型,但实际覆盖不完整

  2.稳定性/调优/排错 仍未解决

  3.中文资料/社区严重缺乏,未能形成有效组织

  

  尽管在当初选择大数据计算引擎时,Spark无论是从热度还是生态角度也许都比Flink更胜一筹。但从长远考虑,阿里看到其在架构上存在几乎难以逾越的鸿沟,虽然Flink现在没有Spark生态那么火热,但是Flink的先天架构优势,加之诸如阿里这些大厂的支持,相信Flink会开辟出一片新的天空,且走的更远。

  现场花絮

  

  

  现场观众

  

  

  200人的会场,里里外外挤满了听众,基本上属于出来很难再进来的状态。

  

  会场嘉宾合影

  

  专场附近的数据指挥中心,展示了各个论坛的实时状况

  

  顶着大太阳在看着主会场直播画面的人群

   

TB1HzWqB7CWBuNjy0FaXXXUlXXa-157-150.png

实时计算 Flink 钉钉群


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
SQL 关系型数据库 MySQL
Flink CDC产品常见问题之CDC首次启动跑数据后再次启动就报错如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
SQL 机器学习/深度学习 分布式计算
会议总结 | 首次 Flink Batch 社区开发者会议
2023 年 2 月 8 日 Flink Batch 社区开发者会议会议总结。
会议总结 | 首次 Flink Batch 社区开发者会议
|
存储 SQL 监控
Hologres+Flink流批一体首次落地4982亿背后的营销分析大屏
本篇将重点介绍Hologres在阿里巴巴淘宝营销活动分析场景的最佳实践,揭秘Flink+Hologres流批一体首次落地阿里双11营销分析大屏背后的技术考验。
14468 0
Hologres+Flink流批一体首次落地4982亿背后的营销分析大屏
|
SQL 机器学习/深度学习 分布式计算
40亿条/秒!Flink流批一体在阿里双11首次落地的背后
今年的双11,实时计算处理的流量洪峰创纪录地达到了每秒40亿条的记录,数据体量也达到了惊人的每秒7TB,基于Flink的流批一体数据应用开始在阿里巴巴最核心的数据业务场景崭露头角,并在稳定性、性能和效率方面都经受住了严苛的生产考验。本文深度解析“流批一体”在阿里核心数据场景首次落地的实践经验,回顾“流批一体”大数据处理技术的发展历程。
40亿条/秒!Flink流批一体在阿里双11首次落地的背后
|
流计算 API SQL
Apache Flink 1.9重磅发布!首次合并阿里内部版本Blink重要功能
8月22日,Apache Flink 1.9.0 版本正式发布,本文对此次发版中重要功能特性进行说明,包括批处理作业的批式恢复,以及 Table API 和 SQL 的基于 Blink 的新查询引擎(预览版)State Processor API等等众多社区迫切关注的新特性。
Apache Flink 1.9重磅发布!首次合并阿里内部版本Blink重要功能
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
482 5
|
1月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1339 1
官宣|Apache Flink 1.19 发布公告
|
1月前
|
SQL Apache 流计算
Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
【2月更文挑战第25天】Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
142 3
|
1月前
|
XML Java Apache
Apache Flink自定义 logback xml配置
Apache Flink自定义 logback xml配置
151 0

相关产品

  • 实时计算 Flink版