本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
云资源初始化已经通过模版设 置。下载Democode地址:使用gitclonehttps:/best-practice:Abcd123456@codeup.aliyun.com/best-practice/bp/199.git 基础资源环境规划:类型 配置项 说明 备注 地域 深圳 华东2(上海)地域 名称 bigdata-vpc 基于模版新建 专有网络 支持导入已保 IPv4网段 192.168.0.0/16 有资源 名称 Vswitch_...