开发者社区大数据文章正文

【Spark Summit EU 2016】沃森媒体分析系统：从单租户Hadoop到3000租户Spark的架构演进

2017-02-12 2986

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲，主要介绍了IBM公司的沃森媒体分析系统，介绍了该系统之前针对于单租户的架构，所需面对的多租户挑战和面对该挑战产生出的新系统架构，以及在沃森媒体分析系统架构演变过程中所获取的经验。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲，主要介绍了IBM公司的沃森媒体分析系统，介绍了该系统之前针对于单租户的架构，所需面对的多租户挑战和面对该挑战产生出的新系统架构。

在讲义的最后Ruben Pulido和Behar Veliqi总结了从沃森媒体分析系统架构演变过程中所获取的经验，新的发展途径可能会基于Spark、Kafka和Zookeeper，并将具有健壮性的特点，能够满足延迟和吞吐量的需求，并且能够支持更多的分析。

244f942aaaa9c2bdc4bba8bab5c6e58a2ae9d92c

6a41c6465c173e7faee7470afdcfcce59aa00674

d964b6d483d5a3cba4d76594995ff1e56a8f19b7

14f182042ee10ee7b56224f4a9363344881cf352

8dd61daedabb4f734604e0a13d172450f5ae3a86

09e4e45d63ec82274f4afd3fe683b6599f662fec

3b9531ef30df2a1a4eb65095013bcd5aa6e3bfcc

c10850a01191a6bea44e3139070f65fe6257d130

9774981965896c03e596e2783e92afbff0d4c90b

fd93e65276849d3e965285c49a36e4fdce4dcf45

ac456205760d6e14913d765d639e0300342b89d1

b6a1d24ba137229a4d7b75a968a120a6ef8920ba

771903e89be35bda44b8f8f1a6b2765a52ad06f7

86059f3455495a552fe435374032ac8d8982b225

c3bd9d81bdecb2f35f262070d00e1fdd7138b60f

644d4a3c12698243f5572f028abbe91e477dc09d

9350c54bafaff486886f7ba17d60d2b5d51fbe17

fcb7b1b2bd72968c2432266f6645c93043321258

011e3abe29167ccad2e776493745ad1903dc36b2

f587473de42312ffc38016068bd028d393c9fd0f

56b54a8c13b3b1967dc8732cf4e179016c4d63f2

0699423147b812f85381a1c24342cf21f59eff2a

c74a6667c0df8bb9db043f3aa17ca3f30f8d8051

048ba0f83b04932f6af16ae60a942b2bbf48d29a

2ff9e26463097691a0dfe07acc1ce3b4ecf1babf

2e50bbc47ab270767e3d169870f3d8bef3c26405

5398248ad94d05391c132266492a0fa02d1f77f0

05d593c7a879261fc6a302b75745ce1e3b258d2f

931b9978d75fc47c6460979eed57dbd98f60308b

015eb50dae8301dda87d86517ab969d9416f999c

edd4610b356b0cee3c1414064db9a71c0d883b63

cc596e27faf942b06fde6ea69b6ee9a5cf8fd012

45ea55da1964ec66676fd63d90af398fb62bfbe1

7d03fc6b420d6ec68049be921785c5fcedc76c40

bf908c5d5ec968355924a72578be9edfcceab31a

2d9da6cbde043403552cea20797d6377b83673c9

79d8fd0af3f9cce7719b726167f6c9891200ba6c

aa86bfb2869a137870a31b5edf98f7790e036ace

fd2dacff98627aebf5af5beb9dec050a5c4ee71a

e88d0a20b061ecc6f5461c185d53c98c38266d44

ac0cb944097152fb00632866569e242b8176b57a

73d05e798630f5a093e1793167df5518398ae65f

文章标签：

分布式计算

Spark

Hadoop

消息中间件

Kafka

大数据

MaxCompute

关键词：

apache spark Hadoop

hadoop spark

hadoop架构

架构hadoop

hadoop系统

小猫吃鱼569

听风de歌

7天前

存储分布式计算 Hadoop

大数据处理架构Hadoop

【4月更文挑战第10天】Hadoop是开源的分布式计算框架，核心包括MapReduce和HDFS，用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势，但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统，DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。

听风de歌

25 2 2

疯狂的猿

3月前

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

诸葛子房

4月前

分布式计算 Hadoop