【Spark Summit East 2017】Spark:将数据科学作为服务

简介: 本讲义出自Sridhar Alla与Shekhar Agrawal 在Spark Summit East 2017上的演讲,演讲中展示了许多使用逻辑回归、随机森林、决策树、聚类以及NLP等等常用算法的常见用例,并介绍了comcast构建的平台,该平台提供了基于Spark上构建的带有REST API的DSaaS,这意味这对很多用户而言比较抽象的控制和提交等工作,用户可以不再需要考虑写作的严谨性而只需要关注实际需求。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Sridhar Alla与Shekhar Agrawal 在Spark Summit East 2017上的演讲,演讲中展示了许多使用逻辑回归、随机森林、决策树、聚类以及NLP等等常用算法的常见用例,并介绍了comcast构建的平台,该平台提供了基于Spark上构建的带有REST API的DSaaS,这意味这对很多用户而言比较抽象的控制和提交等工作,用户可以不再需要考虑写作的严谨性而只需要关注实际需求。


a76cd81b19187fdefd8077c7058d23b7dddf2ed9

d639abe00d10dbac031fca338694ceb098750397

5554d0c961201f06c871fac78cac3790d78cae01

2e8173d3cd67b704bf39c9df70193beef1586d10

1e3103e2c8e333d8e60ff71eb42f70e32dd83213

cfa076a2599aef74695c2d15263013df016c13a4

ec9d950e61548f7e1cc6a0d3aade8c37bead28f2

79978a16cffc9f50c2cbaac07e65a33b06d31514

459a44c9711cbd3a715dc48d9b31b75dc19a9ede

f65f37424ba5818d01259b4663818d28411b7e57

e0aab801ee4db04e9b956e59d58f3f6b946ff1a8

b335e5553b25f98a2519a927bd489eac5fa3733a

84d40288f549a13d584d673a794fa7e8868d3d81

df8b1e074072d7e500d91b06683c60926fb7e223

f654694b1e53903a4f05b8f32347d09261a03f7e

c4d34c308a0e28d81a925c79745866cac6284680

f1d9cc8a1ccf60056249fb5b4d80d5635d4dadf2

a2ed1f79c5b8f6239ec988b076a4d5d41df44055

1334a32517a91c6ad7353c9cc4c8ad252d58e786

82a3ad83017553e6b3a4c6c8770f384006e81c56

b51a3f0334d4e79c90c204399176ddf9bb4f217a

相关文章
|
弹性计算 分布式计算 NoSQL
X-Pack Spark服务具有以下几个特点:
X-Pack Spark服务具有以下几个特点:
114 0
|
人工智能 分布式计算 Spark
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
SPARK + AI SUMMIT 2020 中文精华版线上峰会材料
|
机器学习/深度学习 人工智能 分布式计算
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题介绍
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题
|
分布式计算 Prometheus Kubernetes
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题发布
SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题
|
SQL 人工智能 缓存
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光
|
机器学习/深度学习 SQL 分布式计算
6月23日 Spark 社区技术直播【半小时,将你的Spark SQL模型变为在线服务】
SparkSQL在机器学习场景中应用模型从批量到实时面临的问题 - SparkSQL 转换成实时执行成本高 - 离线特征和在线特征保持一致困难 - 离线效果与在线效果差距大 我们是如何解决这些问题 相对传统实现方式我们优势 SparkSQL实时上线demo
6月23日 Spark 社区技术直播【半小时,将你的Spark SQL模型变为在线服务】
|
人工智能 分布式计算 大数据
Spark + AI Summit 2020 中文议题有奖征集
北美 Spark + AI Summit 2020 盛会在即,Apache Spark 中国技术交流社区在此诚邀各位,代表国内开发者选择您最希望听到的主题,届时社区将联合国内顶尖技术专家一一展开中文形式分享。
Spark + AI Summit 2020 中文议题有奖征集
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
159 0
|
14天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。