通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖,搭建高效的数据湖解决方案。
命令参考:spark-submit \-master yarn \-deploy-mode client \-driver-memory 2G \-executor-memory 2G \-executor-cores 4 \-num-executors 3 \-conf spark.sql.shuffle.partitions=200 \-conf spark.kryoserializer.buffer.max=128m \-conf spark.sql.autoBroadcastJoinThreshold=-1 \-conf spark.sql.adaptive.enabled=...