E-MapReduce弹性低成本离线大数据分析

阿里云E-MapReduce团队 2020-04-02

大数据 hadoop 数据仓库 系统环境 电商 Image 数据分析 钉钉 spark 开源大数据 e-mapreduce 分布式计算 离线计算 日志分析 大数据分析

作者:明誉


大数据是一项涉及不同业务和技术领域的技术和工具的集合,海量离线数据分析可以应用于多种商业系统环境,例如,电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

离线大数据分析概述

主流的三大分布式计算框架系统分别为Hadoop、Spark和Storm:

  • Hadoop可以运用在很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集。
  • Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,能够与Hadoop很好地结合。
  • Storm适用于处理高速、大型数据流的分布式实时计算,为Hadoop添加可靠的实时数据处理能力。

海量离线数据分析可以应用于多种场景,例如:

  • 商业系统环境:电商海量日志分析、用户行为画像分析。
  • 科研行业:海量离线计算分析和数据查询。
  • 游戏行业:游戏日志

登录 后评论
下一篇
云栖号资讯小编
776人浏览
2020-05-25
相关推荐
阿里云 EMR最佳实践和容灾
2636人浏览
2018-05-15 11:06:37
0
0
0
633