Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

开源大数据EMR 2019-05-19

算法 日志 数据仓库 Image spark kafka 实时计算 Streaming

Airbnb 日志事件获取

日志事件从客户端(例如移动应用程序和 Web 浏览器)和在线服务发出,其中包含行为或操作的关键信息。每个事件都有一个特定的信息。例如,当客人在 Airbnb.com 上搜索马里布的海滨别墅时,将生成包含位置,登记和结账日期等的搜索事件。

在 Airbnb,事件记录对于我们理解客人和房东,然后为他们提供更好的体验至关重要。它为业务决策提供信息,并推动工程功能(如搜索,实验,付款等)中的产品开发。例如,日志事件是训练机器学习模型以进行列表搜索排名的主要来源。

日志事件近实时地摄取到数据仓库中,并作为许多 ETL 和分析作业的数据来源。事件从客户和服务商发布到 Kafka。Spark streaming 作业(建立在 Airstream 之上,Airbnb 的流处理框架)不断从 Kafka 读取并将事件写入 HBa

登录 后评论
下一篇
我是小助手
28790人浏览
2019-07-31
相关推荐
Spark Streaming 的玫瑰与刺
1114人浏览
2016-09-08 21:30:37
Spark Streaming 的玫瑰与刺
717人浏览
2017-08-01 10:54:00
2
2
1
795