本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
融合数据湖和数据仓库优势,在灵活性和效率上找 到最佳平衡。2.MaxCompute在SQL上做了大量优化与能力沉淀,产品列表 可提高SQL运行性能,降低计算成本。基于集群学 专有网络VPC 习PAI封装出多种贴近业务场景的算法服务,满足 交换机vswitch 更多的业务需求。 数据糊DLF 3.MaxCompute云原生的弹性资源和EMR集群资源 ...