使用 Jupyter Notebook 运行 Delta Lake 入门教程

开源大数据EMR 2020-02-24

大数据 spark 开源大数据 开发环境 schema update

作者:吴威,花名无谓,阿里巴巴高级技术专家,2008年加入阿里巴巴集团,先后在B2B和阿里云工作,一直从事大数据和分布式计算相关研究,作为主要开发和运维。人员经历了阿里内部大数据集群的上线和发展壮大,现在阿里云EMR团队,负责Spark、Hadoop等计算引擎研发。


本文的例子来自 Delta Lake 官方教程。因为官方教程是基于商业软件 Databricks Community Edition 构建,虽然教程中使用的软件特性都是开源 Delta Lake 版本所具备的,但是考虑到国内的网络环境,注册和使用 Databricks Community Edition 门槛较高。所以本文尝试基于开源的 Jupiter Notebook 重新构建这个教程。

准备一个环境安装 Spark 和 jupyter

本文基于 Linux 构建开发环境


登录 后评论
下一篇
云栖号资讯小编
1575人浏览
2020-04-07
相关推荐
数据科学家Docker入门指南
1940人浏览
2018-09-09 12:20:38
python学习资料
842人浏览
2017-09-04 10:52:00
Jupyter Notebooks 入门
2413人浏览
2018-05-21 17:13:27
如何用iPad运行Python代码?
988人浏览
2018-05-14 11:09:00
0
0
0
450