Spark 数据倾斜及其解决方案

开源大数据EMR 2019-12-30

reduce spark 解决方案 分布式系统

作者简介:

郑志彬,毕业于华南理工大学计算机科学与技术(双语班)。先后从事过电子商务、开放平台、移动浏览器、推荐广告和大数据、人工智能等相关开发和架构。目前在vivo智能平台中心从事 AI中台建设以及广告推荐业务。擅长各种业务形态的业务架构、平台化以及各种业务解决方案。


原文链接

转载自公众号:vivo互联网技术


一、什么是数据倾斜

对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。

对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到分布式情况下每台机器执行时间是单机时的1 / N,就必须保证每台机器的任务量相等。不幸的是,很多时候,任务的分配


登录 后评论
下一篇
云栖号
8013人浏览
2020-03-04
相关推荐
Spark 数据倾斜及其解决方案
363人浏览
2019-12-30 10:57:57
Spark常见问题解决办法
976人浏览
2017-02-21 17:06:04
Spark项目故障总结
755人浏览
2017-11-08 13:02:00
## Spark作业性能调优总结
2517人浏览
2017-07-18 17:34:22
0
0
0
1529