本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
具体项目以实际需 求为准。基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测 2.6.配置ODPS客户端 目前MaxCompute基于DLF元数据创建外部项目的能力通过odps客户端完成。步骤1 切换到有管理权限的子账号,远程登录EMR集群有公网IP的Master节点,下载 odpscmd客户端并解压。提前下载文件,将“odps_clt_with_dlf_ddl.tar.gz...