本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
可用区M 支持导入已保 有资源 IPv4网段 192.168.0.0/24 安全组:系统默认配置,自动创建 基于模版新建 名称:project-emr 可选服务:如果更换地域 付费类型:按量付费 OSS-HDFS、Hadoop-Common、或者可用区,业务场景:新版数据湖 Hive、Spark3、Tez、YARM 注意规格 元数据:DLF统一元数据 EMR 集群存储根路径:勾选:挂载...