作业模板（EMR-作业模板（EMR文档介绍内容-移动阿里云

作业模板（EMR-3.23.0及之后版本）

作业模板-dbName：数据库名。CREATE DATABASE IF NOT EXISTS${dbName};USE${dbName};创建Log Service数据表。slsTableName：Log Service表的名称。logProjectName：LogService的项目名。logStoreName：LogService的logstore名。accessKeyId...

DataWorks on EMR集群配置最佳实践

使用DataLake（新版数据湖）集群在DataWorks上进行EMR作业的注意事项及开发流程，详情请参见 DataWorks On EMR开发流程（必读）。EMR组件配置 Kyuubi组件在生产环境配置Kyuubi组件时，建议将 kyuubi_java_opts 内存大小调整至 10g 及以上...

创建EMR MR节点

说明如果本节点所在的集群未关联Gateway集群，此处手动设置参数取值为 true 时，后续提交EMR作业时会失败。配置任务调度如果您需要周期性执行创建的节点任务，可以单击节点编辑页面右侧的调度配置，根据业务需求配置该节点任务的调度...

创建EMR Hive节点

说明如果本节点所在的集群未关联Gateway集群，此处手动设置参数取值为 true 时，后续提交EMR作业时会失败。任务调度配置。如果您需要周期性执行创建的节点任务，可以单击节点编辑页面右侧的调度配置，根据业务需求配置该节点任务的调度...

创建EMR Spark SQL节点

说明如果本节点所在的集群未关联Gateway集群，此处手动设置参数取值为 true 时，后续提交EMR作业时会失败。Spark【EMR ON ACK】“FLOW_SKIP_SQL_ANALYZE”表示SQL语句执行方式。取值如下：true：表示每次执行多条SQL语句。false：表示每次...

准备环境

步骤四：配置DataWorks on EMR开发环境在DataWorks上运行EMR作业前，您需要配置如下开发环境：购买并配置独享调度资源组。独享调度资源组是一种专门的计算资源，用于保障任务能够按时被调度执行。购买一个独享调度资源组，并与当前EMR集群...

创建EMR Presto节点

说明如果本节点所在的集群未关联Gateway集群，此处手动设置参数取值为 true 时，后续提交EMR作业时会失败。配置任务调度如果您需要周期性执行创建的节点任务，可以单击节点编辑页面右侧的调度配置，根据业务需求配置该节点任务的调度...

创建EMR Impala节点

说明如果本节点所在的集群未关联Gateway集群，此处手动设置参数取值为 true 时，后续提交EMR作业时会失败。任务调度配置。如果您需要周期性执行创建的节点任务，可以单击节点编辑页面右侧的调度配置，根据业务需求配置该节点任务的调度...

创建EMR Spark节点

说明如果本节点所在的集群未关联Gateway集群，此处手动设置参数取值为 true 时，后续提交EMR作业时会失败。其他您可以直接在高级配置里追加自定义SPARK参数。例如，"spark.eventLog.enabled":false，DataWorks会自动在最终下发EMR集群的...

设置集群身份映射

附录：添加DataWorks白名单如果EMR启用了Ranger，则使用DataWorks进行EMR作业开发前，您需要在EMR中添加白名单并重启Hive，否则作业运行时会报错 Cannot modify spark.yarn.queue at runtime 或 Cannot modify SKYNET_BIZDATE at runtime...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

在调度中使用EMR Doctor任务采集功能

创建EMR集群时，已默认安装EMR Doctor环境并开通EMR Doctor任务信息采集用于健康度评估，但部分客户端参数配置可能导致任务采集失效。本文为您介绍如何在客户端追加采集参数以保证EMR Doctor任务采集正常工作。EMR Doctor配置通常情况下，...

动态启动计算集群运行工作流调度

本文为您介绍如何通过EMR集群的模板功能为EMR Studio动态拉起计算集群来运行工作流，该计算集群会在调度完成后自动释放。前提条件已创建EMR Studio集群。创建集群详情，请参见创建集群。安全组规则已开启8000、8081和8443端口。添加安全...

作业模板

queryStatement 作业模板-创建数据库。dbName：数据库名。CREATE DATABASE IF NOT EXISTS${dbName};USE${dbName};创建Log Service数据表。slsTableName：Log Service表的名称。logProjectName：LogService的项目名。logStoreName：...

产品架构

EMR自研能力为让开源大数据组件和服务更好的运行在阿里云技术设施上，EMR自研了如下组件：数据应用平台，提供交互式开发、作业提交、作业调试和工作流一站式数据开发体验，详情请参见 EMR Studio概述。Shuffle Service是EMR在优化计算引擎...

提交Flink作业

方式一：通过ACK控制台提交作业登录 EMR on ACK控制台。在EMR on ACK页面，单击目标集群所在行所属ACK集群列的链接。在容器组页面，单击右上角的使用YAML创建资源。在创建页面，从示例模板列表中，选择自定义，模板内容请复制...

设置基线优先级与YARN队列优先级的映射关系

背景信息 YARN是一个分布式的资源管理系统，用于管理及调度E-MapReduce（简称EMR）集群中资源，为运行在YARN上的各种类型作业分配资源。在YARN中，通过作业的YARN队列优先级，决定YARN优先为哪个作业分配资源，即优先调度运行哪个作业。更...

Hive访问TableStore数据

本文通过示例为您介绍EMR Hive作业如何处理TableStore中的数据。前提条件已创建DataLake集群，详情请参见创建集群。已登录集群，详情请参见登录集群。已获取下方JAR包并上传到集群。JAR包名称获取方法参考下载链接 emr-tablestore-X.X...

新功能发布记录

2023-05-19 什么是EMR Workflow 2023年4月功能名称功能概述发布时间相关文档版本升级 EMR-5.x系列：升级至EMR-5.11.1 EMR-3.x系列：升级至EMR-3.45.1 2023-04-03 EMR-5.11.x版本说明 EMR-3.45.x版本说明湖仓一体新能力 EMR支持Spark...

查看Flink作业日志和访问Flink Web UI

查看Flink作业日志登录 EMR on ACK控制台。在EMR on ACK页面，单击目标集群所在行所属ACK集群列的链接。在容器组页面，单击目标Pod操作列的日志。则可查看对应JobManager或者TaskManager的日志。访问Flink Web UI 通过kubectl连接...

云监控事件编码

FLOW EMR-110401004 作业已提交。FLOW EMR-110401005 工作流节点已启动。FLOW EMR-110401006 工作流节点状态已检查。FLOW EMR-110401007 工作流节点已完成。FLOW EMR-110401008 工作流节点已结束。FLOW EMR-110401009 工作流节点已取消。...

提交Spark作业

EMR支持CRD、spark-submit和控制台终端三种方式提交作业。本文为您介绍如何通过这三种方式提交Spark作业。前提条件已在EMR on ACK控制台创建Spark集群，详情请参见创建集群。注意事项在本文的示例中，JAR包已经直接打包在了镜像中。如果...

项目管理

在开启安全模式的项目中提交作业时，阿里云账号以默认hadoop用户执行，RAM用户则默认以当前RAM用户同名的EMR用户执行作业。进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择...

通过Spark Streaming作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含kafka服务的DataFlow集群中，如何使用Spark Streaming作业从Kafka中实时消费数据。前提条件已注册阿里云账号。已开通E-MapReduce服务。已完成云账号的授权，详情请参见角色授权。步骤一：创建...

EMR Studio概述

您可以将EMR Studio一键关联至EMR集群（EMR on ECS、EMR on ACK）提交作业，并可以在不关闭Notebook的情况下切换计算集群。EMR Studio自动适配Hive、Spark、Flink、Presto和Impala等多个计算引擎并协同工作。EMR Studio提供了统一的用户...

通过模版创建集群

ClusterName String 否 hadoop_cluster_name_1 使用模板创建的EMR集群名称。ResourceGroupId String 否 rg-bp67acfmxazb4p*EMR集群归属资源组ID。返回数据名称类型示例值描述 ClusterId String C-D7958B72E59B*集群ID。CoreOrderId ...

E-MapReduce的审计事件

CreateClusterTemplate 创建一个EMR集群模板。CreateClusterV2 创建一个EMR集群。CreateClusterWithTemplate 通过集群模板创建集群。CreateDataSource 创建数据源。CreateExecutionPlan 创建执行计划。CreateFlow 创建工作流。...

原作业类型迁移后作业类型 SQOOP DI（离线同步任务）SPARK_SQL EMR_SPARK_SQL SPARK EMR_SPARK SHELL EMR_SHELL PRESTO_SQL EMR_PRESTO MR EMR_MR IMPALA_SQL EMR_IMPALA HIVE_SQL EMR_HIVE HIVE EMR_SHELL 方式一：通过DataWorks迁移助手...

操作指南

形态文档 EMR on ECS 创建集群克隆集群新增服务管理配置项登录集群管理事件中心 E-MapReduce Doctor 组件操作 EMR on ACK 资源管理服务管理作业管理组件操作 EMR Serverless StarRocks 创建实例连接实例实例监控 StarRocks ...

创建集群模板

在使用数据开发工作流完成作业任务时，如果您只关注作业任务是否完成，可以使用集群模板功能来快速建立集群，调度系统会在工作流启动时按照模板创建一个集群，然后将作业下发到该集群上执行。当工作流结束后，调度系统会自动释放该集群。...

管理调度资源组

已在EMR on ECS页面创建集群或集群模板，详情请参见创建集群或创建集群模板。使用限制仅阿里云账号（主账号）或拥有 AliyunEMRWorkflowAdmin 权限的RAM用户可以进行购买调度资源组、绑定集群、关联工作空间的操作。调度资源组不支持跨...

产品优势

阿里云E-MapReduce（简称EMR）为您提供相对方便可控的企业级开源大数据服务...集成在DataWorks，您可以在DataWorks上使用EMR作为作业计算和数据存储引擎。集成了数据湖构建（Data Lake Formation），实现数据湖场景下多引擎的统一元数据管理。

简介

背景信息 Spark Streaming SQL是基于Spark Structured Streaming开发完成的，所有语法功能和使用限制遵循Spark Structured Streaming的标准，因此可以使用SQL语句来开发流式分析作业。注意事项 EMR集群是否支持Spark Streaming SQL功能与...

SDK概述

说明 emr-oss：支持Hadoop、Spark与OSS数据源的交互，默认已经存在集群的运行环境中，作业打包时不需要将emr-oss打进去。emr-tablestore：支持Hadoop、Hive、Spark与TableStore数据源的交互，使用时需要打进作业JAR包。emr-mns_2.11：支持...

管理工作流定义

提交到Yarn执行警告该模式下，作业会被提交到EMR集群的YARN中执行，会直接影响EMR集群的文件、环境等，请谨慎操作。该开关默认关闭。打开该开关，您还可以选择配置以下参数：调度队列：指定作业提交的YARN队列。任务执行容器内存（MB）：...

API概览

创建集群模板调用CreateClusterTemplate接口，创建一个E-MapReduce集群模板，可用于数据开发初始化新集群。通过模版创建集群调用CreateClusterWithTemplate接口，通过集群模版创建集群。删除集群模版调用DeleteClusterTemplate接口，...

创建集群模板

集群模板是一项用于持久化存储和复用EMR集群配置的功能。集群模板中包含了您自主选择的用于创建集群的配置信息（密码除外），还可以存储任意配置信息，包括软件版本、实例类型和密钥对等，能够满足不同场景的个性化需求。通过集群模板功能...

创建集群

通过阿里云E-MapReduce（简称EMR），您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置，帮助您快速搭建和管理大数据集群。...

数据开发常见问题

在 OSS:/mybucket/emr/spark/clusterID/jobs 目录下会按照作业的执行ID存放多个目录，每个目录下存放了这个作业的运行日志文件。读写MaxCompute时，报错 java.lang.RuntimeException.Parse response failed:‘!DOCTYPE html>…’问题分析：...

创建EMR Spark Streaming节点

EMR Spark Streaming节点用于处理高吞吐量的实时流数据，并具备容错机制，可以帮助您快速恢复出错的数据流。本文为您介绍如何创建EMR Spark Streaming节点并进行数据开发。前提条件已注册EMR集群至DataWroks，详情请参见注册EMR集群至...