本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
参数说明 1.endpoint:必须是DLF的跨域域名或者internal域名,具体的可提工单咨询(后 续会提供公网link参考)2.ramRoleArn:如果MaxCompute和DLF是同一账号下且已完成一键授权,则此 参数省略。本例就是省略此参数。若是跨账号授权或者自定义授权请参考附录A 3.ossEndpoint:指定与DLF同地域的OSS内网endpoint。请参考 ...