本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
创建RAM用户 MaxCompute的命令行脚本需要AK参数,为避免使用主账号的AK,此处创建一个支 持编程访问的RAM用户,用户在DataWorks控制台创建项目以及运行命令行创建外 部项目。步骤1 参考https://help.aliyun.com/document_detail/93720.html创建支持控制台访问和编 程访问的RAM用户。基于湖仓一体架构使用MaxCompute对OSS湖...