专访阿里云高级技术专家吴威:Kafka、Spark和Flink类支持流式计算的软件会越来越流行

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 大数据领域一定会朝着更加实时、更加智能、数据更加多样化的方向前进。Kafka、Spark和Flink之类的支持流式计算的软件会越来越流行,同时各类机器学习平台和工具也会越来越成熟。
813e770cef1b5663fc7fe49c26f4980dcc255ee3

杭州·云栖大会将于2016年10月13-16日在云栖小镇举办,在这场标签为互联网、创新、创业的云计算盛宴上,众多行业精英都将在这几天里分享超过450个演讲主题。

为了帮助大家进一步了解这场全球前言技术共振盛会的内容,云栖社区采访了各个论坛的大咖,以飨读者。

以下为正文:

32967afc36b9618da5a130c99c183c14aa5bf200

吴威,阿里云高级技术专家。E-MapReduce产品是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务,他在其中参与产品设计讨论、平台性能调优等工作,并为用户提供技术支持。


吴威表示,对于开源大数据产品的尝试和实践分很多阶段,从刚开始利用开源产品解决问题,到每天日常使用成为工作流程的一部分。过程中可能会遇到Hadoop集群的各种问题,包括硬件故障、集群容量不足、新版本升级和使用、运维自动化策略等等。

一般把Hadoop或Spark等开源技术用的比较好的公司都需要配备一支强有力的运维团队,“阿里的经验是由一支专业的队伍负责底层Hadoop平台的建设,包括数据存储、资源调度和通用数据工具开发,在平台上面可以长出各种类型的数据业务,数据开发人员和分析师无需关注大数据平台底层的实现细节,两方面分工协作,让数据创造真正的价值。阿里云对外开放的E-MapReduce服务也秉承同样的理念,为外部用户提供稳定好用的大数据服务。”

在本次云栖大会上,吴威将给大家分享开源Hadoop平台10年来的发展历程以及他的一些看法。他说:“阿里是开源技术的重度使用者和参与者,从2008年就开始使用Hadoop技术,并在内部搭建了上千台规模的集群,在过程中遇到并解决了很多问题,我会简单回顾一下。最后,阿里云希望能把我们在Hadoop和Spark等开源大数据平台上的积累通过服务的方式提供给公众,我也会分享一下我们是怎么考虑的。”

之所以分享这个话题,吴威称,初衷是为了和外部的大数据用户做一些交流,互通有无,也希望让大家感受到阿里对开源大数据社区的诚意。

对于这个领域的未来,吴威指出大数据领域一定会朝着更加实时、更加智能、数据更加多样化的方向前进。Kafka、Spark和Flink之类的支持流式计算的软件会越来越流行,同时各类机器学习平台和工具也会越来越成熟。
目录
相关文章
|
14天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
2月前
|
监控 Oracle 关系型数据库
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
36 8
|
28天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110796 99
阿里云实时计算Flink的产品化思考与实践【下】
|
7天前
|
分布式计算 大数据 数据处理
【Flink】Flink跟Spark Streaming的区别?
【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别?
|
1月前
|
分布式计算 关系型数据库 OLAP
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
78 0
|
2月前
|
SQL 并行计算 大数据
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
关于Flink服务的搭建与部署,由于其涉及诸多实战操作而理论部分相对较少,小编打算采用一个独立的版本和环境来进行详尽的实战讲解。考虑到文字描述可能无法充分展现操作的细节和流程,我们决定以视频的形式进行分析和介绍。因此,在本文中,我们将暂时不涉及具体的搭建和部署步骤。
496 3
【大数据技术攻关专题】「Apache-Flink零基础入门」手把手+零基础带你玩转大数据流式处理引擎Flink(基础加强+运行原理)
|
3月前
|
存储 NoSQL MongoDB
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
本文整理自阿里云 Flink 团队归源老师关于阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference 的研究。
46940 2
阿里云 Flink 原理分析与应用:深入探索 MongoDB Schema Inference
|
3月前
|
存储 测试技术 数据处理
阿里云实时计算企业级状态存储引擎 Gemini 技术解读
阿里云实时计算企业级状态存储引擎 Gemini 技术解读
118 0
|
3月前
|
消息中间件 分布式计算 Kafka
Spark与Kafka的集成与流数据处理
Spark与Kafka的集成与流数据处理
|
3月前
|
消息中间件 分布式计算 Kafka
使用Kafka与Spark Streaming进行流数据集成
使用Kafka与Spark Streaming进行流数据集成

热门文章

最新文章