本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
数据湖中的Hive元数据映射为MaxCompute的外部项目,元数据由DLF统一管理,无需人 工干预。基于DataWorks强大的数据开发/管理/治理能力,提供统一的湖仓开发体验,降低两套系统的 管理成本。依托智能cache技术,MaxCompute自动利用闲时带宽将数据湖中的热数据以高效文件格式 cache在数据仓库中,进一步加速数据仓库的后续...