本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
登录OSS并上传测试数据集.25 3.2.在EMR创建外部表.27 3.3.通过MC查询EMR的Hive数据表.29 3.4.数据预处理.30 3.5.创建预测模型.35 3.6.使用模型做预测.36 4.一键释放云资源.39 5.附录A.42 5.1.MaxCompute和DLF属于同一个账号,需要自定义授权.42 5.2.MaxCompute和DLF属于不同账号.47 6.附录B.49基于湖仓一体架构使用...