本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
步骤2使用数据湖构建之前,还需要在对应地域开通OSS服务和启用数据湖构建服务访问 部数据源的权限,未开通按照提示开通即可。说明:1.阿里云数据湖构建采用OSS作为统一数据湖位置,所以需要开通OSS服务。2.用户从数据源抽取数据到注册的数据湖位置,数据湖构建支持多种形式的数据源,目前RDSMySQL已对外开放。本例中EMR将...