本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
步骤2 在数据库构建的元数据管理,default数据库已经创建了数据表“emr_dlf”步骤3切换到之前的odpscmd客户端,先切换到对应的externalproject(外部项目)下,本 示例为的外部项目为:dlf_mc002 输入showtables命令,可以查询到在EMR的hive端创建的测试表。说明元数据已经 通过DLF打通。usedlf_mc002;showtables;基于湖仓...