2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态,会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能,请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...
数据安全能力:数据权限 当前为您提供两种EMR数据权限管控方案:开源Ranger方案和DLF Auth方案。开源Ranger方案:您需要在集群拉起Ranger服务,管理HDFS、Yarn、Hive库和Hive表等数据权限。DLF Auth方案:您需要在集群拉起DLF Auth服务,来...
E-MapReduce(简称EMR)数据开发(旧版)已于2022年2月21日21点停止更新,进入维护状态,详情请参见 EMR数据开发停止更新公告。2023年9月30日0点起,EMR数据开发(旧版)功能将停止全面支持,不再支持用户答疑、问题解决、SLA保障赔付等...
2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态。如果您还在使用旧版控制台的数据开发功能,请尽快迁移至EMR Worflow。本文为您介绍数据开发模块迁移至EMR Workflow的流程。EMR Workflow是一个全托管的...
背景信息 在EMR数据湖方案中,结合DLF,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持数据湖的多种管理如数据生命周期,湖格式自动优化,存储分析等。同时支持多源数据入湖以及一站式数据探索的能力。采用EMR+DLF数据湖...
E-MapReduce(简称EMR)数据开发(旧版)已于2023年9月30日0点停止全面支持,不再支持用户答疑、问题解决、SLA保障赔付等服务,详情请参见 EMR数据开发(旧版)停止全面支持公告。自2024年12月30日0点起,EMR数据开发(旧版)功能将逐步在...
本文将指导您如何使用StarRocks跨集群数据迁移工具,在源集群保持在线且业务服务不中断的状态下高效、安全地进行数据复制。该工具提供全量及增量同步功能,旨在为您提供一键式解决方案,实现源集群数据无缝迁移至目标集群,确保数据一致性...
如果您的独享数据集成资源组和EMR数据源属于同一地域,可使用同地域VPC内网连通独享资源组和数据源。实现网络连通需要执行:步骤1 新增专有网络绑定和自定义路由。如果您的独享数据集成资源组和数据源属于不同地域,可使用公网连通独享资源...
EMR HBase开启Kerberos 如果EMR HBase开启了Kerberos,Hive关联HBase表并进行查询时,则需要设置Kerberos相关参数,设置方式有以下两种:Hive命令行设置 set hbase.security.authentication=kerberos;set hbase.master.kerberos.principal=...
EMR HBase开启Kerberos 如果EMR HBase开启了Kerberos,Hive关联HBase表并进行查询时,则需要设置Kerberos相关参数,设置方式有以下两种:Hive命令行设置 set hbase.security.authentication=kerberos;set hbase.master.kerberos.principal=...
本文为您介绍如何使用Flume同步EMR Kafka集群的数据至EMR DataServing集群的HBase。前提条件 已创建DataLake集群,并且选择了Flume,详情请参见 创建集群。已创建DataServing集群,详情请参见 创建集群。已创建DataFlow集群,并且选择了...
本文介绍Spark如何访问EMR HBase集群数据。Spark访问HBase示例 重要 计算集群需要和HBase集群处于一个安全组内,否则网络无法打通。在E-Mapreduce控制台创建计算集群时,请选择HBase集群所在的安全组。Java代码 JavaSparkContext jsc=new ...
本文为您介绍如何同步EMR DataFlow集群的数据至EMR DataLake集群的HDFS。前提条件 已创建DataLake集群,并且选择了Flume服务,详情请参见 创建集群。已创建DataFlow集群,并且选择了Kafka服务,详情请参见 创建集群。操作步骤 配置Flume。...
本文为您介绍如何使用Flume同步EMR DataFlow集群的数据至EMR DataLake集群的Hive。前提条件 已创建DataLake集群,并且选择了Flume服务,详情请参见 创建集群。已创建DataFlow集群,并且选择了Kafka服务,详情请参见 创建集群。操作步骤 ...
在阿里云E-MapReduce(EMR)中,Hive支持通过配置外部表来访问和处理存储在Phoenix系统中的数据。本文通过示例为您介绍,如何使用EMR上的Hive处理EMR Phoenix数据。前提条件 已创建选择了Hive、HBase、Zookeeper和Phoenix服务的自定义集群...
本文为您介绍如何使用Flume同步EMR Kafka集群的数据至阿里云OSS。前提条件 已开通OSS服务并创建OSS存储空间,详情请参见 开通OSS服务 和 创建存储空间。已创建DataLake集群,并且选择了Flume服务,详情请参见 创建集群。已创建DataFlow集群...
本文为您介绍如何使用Flume同步EMR Kafka集群的数据至阿里云OSS-HDFS(JindoFS服务)。背景信息 OSS-HDFS服务是一款云原生数据湖存储产品,基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好...
本文为您介绍如何将Hive MetaStore存储在MySQL、RDS中的元数据迁移到DLF中,并介绍如何在EMR集群中配置使用DLF作为数据湖统一元数据。适用场景 从其他大数据集群迁移到阿里云E-MapReduce产品。从阿里云EMR老集群(MySQL做元数据),整体...
随着EMR支持Hologres和MaxCompute数据源,您可以:高效访问在线数据:直接使用在线数据进行大数据分析,无需导出Hologres和MaxCompute中的数据至OSS等中心化存储,从而避免了导出数据可能引起的数据丢失和安全问题,同时还提高了数据处理和...
本文为您介绍如何使用Flume同步EMR Kafka集群的数据至阿里云OSS-HDFS服务。前提条件 已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务。已创建DataLake集群,并选择了Flume服务。具体操作,请参见 创建集群。已...
本文介绍Sqoop如何以EMR集群的方式读写OSS-HDFS服务的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群,并在创建时选择了Sqoop。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通...
本文介绍Hive如何以EMR集群的方式处理OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务...
本文介绍Spark如何以EMR集群的方式处理OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS服务...
本文介绍Impala如何以EMR集群的方式查询OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS...
本文介绍Presto如何以EMR集群的方式查询OSS-HDFS服务中的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见 创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见 开通并授权访问OSS-HDFS...
通过EMR+DLF数据湖方案,可以为企业提供数据湖内的统一的元数据管理,统一的权限管理,支持多源数据入湖以及一站式数据探索的能力。本方案支持已有EMR集群元数据库使用RDS或内置MySQL数据库迁移DLF,通过统一的元数据管理,多种数据源入湖...
本文为您介绍迁移E-MapReduce(简称EMR)元数据至数据湖元数据DLF(Data Lake Formation)中的原因及迁移流程。迁移原因 2020年阿里云EMR推出全新的数据湖构建和统一元数据服务,为EMR用户提供了更好的统一元数据服务方案。阿里云EMR团队...
如果您的E-MapReduce(EMR)集群需要和集群之外的数据库同步数据,确保网络是联通的。本文以RDS、ECS自建和云下私有数据库三种情况为例,分别介绍如何配置网络。云数据库RDS Sqoop是用map任务同步数据,可以在任意节点上运行,而Sqoop任务...
EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行数据开发,详情请参见 什么是EMR Workflow。如果您在2022年2月21日21点前使用过数据...
另外,EMR数据湖集群将挂载公网功能移到了节点组,这样可以更好的搭配附加安全组实现精细化的对外开放公网的管理。Spark部署 数据湖集群在原有Hadoop2+Spark2和Hadoop3+Spark3的基础上,增加了Hadoop2+Spark3和Hadoop3+Spark2的组合部署...
Zeppelin自带了TPCH和TPCDS的教程Note,您无需任何配置就可以在E-MapReduce(简称EMR)数据开发集群进行TPCH和TPCDS的性能测试。背景信息 EMR数据开发集群中的TPCH支持Hive、Spark、Flink和Presto四个引擎,TPCH详细信息,请参见 TPC-H。...
本文介绍如何使用Databricks 读写EMR HDFS文件系统数据。前提条件 通过主账号登录 阿里云 Databricks控制台。已创建 EMR集群,具体参见 EMR集群创建 已创建DDI集群,具体请参见 DDI集群创建。创建集群并通过knox账号访问Notebook。接入EMR ...
通过Hive 查询 Delta表数据 重要 EMR 3.x系列的EMR-3.37.0及后续版本,需要添加参数,您可以在EMR控制台添加,也可以在运行命令时设置。控制台添加参数时,在Hive服务的 配置 页面的 hive-site.xml 中,如果使用的是Hive on MR,则添加参数...
背景信息 EMR数据开发的Zeppelin在以下两方面做了增强:在多个EMR集群中动态切换。无需配置,所有配置都是自动完成。Zeppelin的Presto解释器提供以下主要功能:支持任何Presto SQL语句(包括DDL和DML等)。支持多行SQL,每条SQL语句以分号;...
本文通过示例为您介绍如何使用EMR上的Hive访问EMR Iceberg数据。前提条件 已创建Hadoop集群,详情请参见 创建集群。说明 此文档仅适用于EMR-3.38.0及后续版本与EMR-5.4.0及后续版本的Hadoop集群。使用限制 EMR-3.38.0及后续版本与EMR-5.4.0...
背景信息 EMR数据开发的Zeppelin在以下两方面做了增强:在多个EMR集群中动态切换。您无需配置,所有配置都是自动完成。Zeppelin的Hive解释器提供以下主要功能:支持任何Hive SQL语句(包括DDL和DML等)。Hive解释器与Beeline支持的语言及...
本文通过示例为您介绍如何使用EMR上的Hive访问Delta Lake和Hudi数据。前提条件 已创建包含Hive、Delta Lake和Hudi服务的集群,详情请参见 创建集群。已登录集群,详情请参见 登录集群。使用限制 EMR-3.36.0及后续版本和EMR-5.2.0及后续版本...
在旧版控制台EMR数据开发中使用EMR Doctor任务采集 例如,在EMR数据开发中设置了参数 spark.driver.extraJavaOptions,如果想使用EMR Doctor功能,则需要参照上表追加EMR Doctor参数-noverify-javaagent:/usr/lib/taihaodoctor-current/emr...
本文为您介绍如何迁移EMR ClickHouse中的数据至EMR Serverless StarRocks实例。前提条件 已创建Serverless StarRocks实例,详情请参见 创建实例。已在EMR on ECS上创建包含ClickHouse服务的OLAP集群,详情请参见 创建集群,或新建云数据库...
背景信息 创建EMR数据源后,平台将自动在 数据地图 新建EMR元数据采集器来采集该集群元数据,若您创建EMR数据源后仍无法在此界面选择到EMR库,请前往数据地图找到该集群的元数据采集器重新采集,详情请参见 采集E-MapReduce元数据。...