本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
例如cap_shape对应的值可能 为{b,c,x,f,k,s}共6个值,我们把这一列转为6列,每一列对应一个枚举值,当 cap_shape的值与该一列对应的枚举值相等时填1,否则就填0。步骤1 登录DataWorks控制台(https://workbench.data.aliyun.com/),单击进入工作空间 的数据开发。步骤2 新建业务流程。基于湖仓一体架构使用MaxCompute对OSS...