Spark入门介绍

云hbase+spark 2019-06-22

安全与风控 大数据 hbase SQL 数据库 集群 spark aliyun 分布式计算 存储 Streaming 数仓 离线 x-pack

前言

Spark自从2014年1.2版本发布以来,已成为大数据计算的通用组件。网上介绍Spark的资源也非常多,但是不利于用户快速入门,所以本文主要通从用户的角度来介绍Spark,让用户能快速的认识Spark,知道Spark是什么、能做什么、怎么去做。
具体的概念可以参考spark社区的相关文章

Spark是什么

摘用官网的定义:
Spark是一个快速的、通用的分布式计算系统。
提供了高级API,如:Java、Scala、Python和R。
同时也支持高级工具,如:Spark SQL处理结构化数据、MLib处理机器学习、GraphX用于图计算、Spark Streming用于流数据处理。
也就是说Spark提供了灵活的、丰富接口的大数据处理能力。下图是Spark的模块图:


f1020f04e2793030de5cdd9b21ed5d284a4fa4c6


用户使用的SQL、Streaming、MLib、GraphX接口最终都会转换
登录 后评论
下一篇
冒顿单于
6570人浏览
2019-08-28
相关推荐
Spark修炼之道系列教程预告
2750人浏览
2015-08-24 09:56:00
最详细的大数据学习路线图
1038人浏览
2019-04-13 14:51:15
大数据开发必备技能
1477人浏览
2019-04-19 15:50:14
3
7
0
1253