解析SparkStreaming和Kafka集成的两种方式

开源大数据EMR 2020-02-21

大数据 线程 Image spark 开源大数据 磁盘

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。

针对不同的spark、kafka版本,集成处理数据的方式分为两种:Receiver based Approach和Direct Approach,不同集成版本处理方式的支持,可参考下图:
image.png

Receiver based Approach

基于receiver的方式是使用kafka消费者高阶API实现的。
对于所有的receiver,它通过kafka接收的数据会被存储于spark的executors上,底层是写入BlockManager中,默认200ms生成一个block(通过配置参



登录 后评论
下一篇
云栖号资讯小编
1138人浏览
2020-03-31
相关推荐
大数据全体系年终总结
1035人浏览
2016-12-11 15:54:00
SparkStreaming+Kafka
885人浏览
2018-09-06 22:15:04
Flink在饿了么的应用与实践
1060人浏览
2019-04-25 11:25:08
大数据实时流处理零数据丢失
1302人浏览
2018-08-10 17:49:05
sparkStreaming与Kafka整合
647人浏览
2015-11-28 21:41:00
DataSimba系列之流式计算
803人浏览
2019-06-18 19:06:29
0
0
0
534