本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
hive 步骤2 创建外表,存储指向已创建好的同地域OSS路径。create external table if not exists mushroom_classification(label STRING COMMENT 'poisonous=p,edible=e',cap_shape STRING COMMENT 'bell=b,conical=c,convex=x,flat=f,knobbed=k,sunken=s',cap_surface STRING COMMENT 'fibrous=f,grooves=g,scaly=y,smooth=...