【Spark Summit EU 2016】使用Spark和StreamSets构建数据通道

简介: 本讲义出自Pat Patterson在Spark Summit EU上的演讲,他首先介绍了数据工程中的一个难点就是数据漂流(Data Drift),以及应对数据漂流所出现的一些解决方案。之后详细介绍了开发和操作复杂数据流的开源软件StreamSets,并分享了当前在Spark上比较流行的数据通道。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Pat Patterson在Spark Summit EU上的演讲,他首先介绍了数据工程中的一个难点就是数据漂流(Data Drift),以及应对数据漂流所出现的一些解决方案。之后详细介绍了开发和操作复杂数据流的开源软件StreamSets,并分享了当前在Spark上比较流行的数据通道。


a5c94393bf383c6ef0b729a31fdd063bac575356


c2b15e35cb96ea57832c0a86d8480fb4636ec6a8

c2e9c9ec751e15e1fc27e7c8b3eb51a78c21f248

3de70124dea0017dbeba07618fce30800e67df86

4f43df11540568829e1eb339aaafb331b4536b59

b075f065a3269825ba541e9bf150e174fcafd934

d3ad999da2f254dd0a989ec57b8ef0607a1501e6

91bed59249c79ec42933b8937adffe972718aaab

0749fe117aad3662c3714364457e2f8ec4985495

56f1fdb77130de536c6429f88e243a19515fe38e

31a71d467b16812a787e79980f1f49228cca2852

56e27c4f8e107fb4193fb4004a4c71687138c957

38644ff697bc17c9ff04f2ae5b2d04c89df71547

04a97c0788bbcc30c75bd5cbb3754833ff9382af

619a5625864188eed9454f90e3c47a25cdc74548

a9b21b899ca7ca31053c7776820765cc81da192a

c8a692dfa7a4a263aa437ede73c032f213c617a6

15d3661d1d1ed05a7591b56e2c89825f2825f852

473f6947fae9164d6143616686b638e15e018280

75205c268f88d2d612d75f34979382f6b889ff75

c1bee007043dc8def42c512e214ca08528c1d268

cfaa5383d0436bd27882c266e4646fe764c1e440

217dad2806539b20b5cc671baf84c3566d34eb5f

47f463da5d16549e3cc185cb90783f2085b45da9

567e666de653fb40a0d2d4a48aa637566877098e

c0ea8485b82aa2279aef88c6054f878bfc2751b2

相关文章
|
8月前
|
canal 分布式计算 关系型数据库
大数据Spark Streaming实时处理Canal同步binlog数据
大数据Spark Streaming实时处理Canal同步binlog数据
116 0
|
3月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
|
5月前
|
分布式计算 大数据 Apache
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
【大数据技术】流数据、流计算、Spark Streaming、DStream的讲解(图文解释 超详细)
65 0
|
4天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
15 0
|
2月前
|
SQL 分布式计算 Java
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
Spark学习---SparkSQL(概述、编程、数据的加载和保存、自定义UDFA、项目实战)
114 1
|
2月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
107 2
|
4月前
|
分布式计算 分布式数据库 API
Spark与HBase的集成与数据访问
Spark与HBase的集成与数据访问
|
4月前
|
JSON 分布式计算 关系型数据库
Spark中使用DataFrame进行数据转换和操作
Spark中使用DataFrame进行数据转换和操作
|
4月前
|
存储 分布式计算 调度
Spark任务调度与数据本地性
Spark任务调度与数据本地性
|
5月前
|
分布式计算 Java Spark
Spark Driver和Executor数据传递使用问题
Spark Driver和Executor数据传递使用问题
32 0