开源数据处理平台-开源数据处理平台文档介绍内容-移动阿里云

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群（Hadoop），高效地迁移至数据...由于双跑校验的具体方式会根据您的实际开发环境、业务特性以及数据处理需求有所不同，因此强烈建议您在执行这一关键步骤时，结合自身业务场景和需求特点，灵活选择...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订，并将于2024年03月01日生效。当前服务等级协议详情，请在服务等级协议中查看。变更生效时间 2024年03年01日变更范围 EMR Serverless StarRocks（标准版）...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业，处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件，相关编程使用方法可参见官方相应文档。Spark官方文档：streaming-kafka-...

E-MapReduce Serverless StarRocks服务等级协议（SLA...

2023年6月1日起，E-MapReduce Serverless StarRocks服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 starrocks,sr，支持的授权粒度为操作级。权限策略通用结构 ...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr-serverless-spark，支持的授权粒度为操作级。权限策略...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr，支持的授权粒度为资源级。权限策略通用结构权限策略...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

通过PyFlink作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含Flink和kafka服务的DataFlow集群中，如何通过PyFlink来处理Kafka中的实时流数据。前提条件已注册阿里云账号。已完成云账号的授权，详情请参见角色授权。已创建包含Flink和Kafka服务的DataFlow集群...

Pig开发手册

创建作业在数据开发中创建Pig作业，详情请参见 Pig作业配置。作业内容如下。f ossref:/emr/jars/script1-hadoop.pig 运行作业单击运行以运行作业。您可以关联一个已有的集群，也可以自动按需创建一个，然后关联上创建的作业。

通过Spark Streaming作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含kafka服务的DataFlow集群中，如何使用Spark Streaming作业从Kafka中实时消费数据。前提条件已注册阿里云账号。已开通E-MapReduce服务。已完成云账号的授权，详情请参见角色授权。步骤一：创建...

创建DataFlow Kafka集群

例如，EMR-3.43.1版本中的Kafka为2.12_2.4.1，其中2.12表示Scala的版本，2.4.1为开源Kafka的版本。服务高可用开启默认不开启。重要启用高可用后，将在Master机器组上部署3个节点的Zookeeper服务。由于EMR Kafka版本的服务可用性仍依赖于...

EMR Workbench

通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作流。功能介绍 EMR Notebook 交互式编程环境：支持Jupyter笔记本，提供灵活的编程环境。多语言支持：允许使用Python、SQL等多种语言进行数据分析...

组件操作

组件类型组件名称组件说明常用文档开源 Spark Spark是一个快速通用的大数据处理引擎，提供内存中数据处理能力，并支持批处理、实时处理、机器学习和图计算等多种数据处理模式。Spark Shell和RDD基础操作 Spark对接OSS 常见问题和故障...

DeltaLake

而Delta简化了工作流程，整条数据处理过程是一条完整的、可靠的实时流，其数据的清洗、转换、特征化等操作都是流上的节点动作，无需对历史和实时数据分别处理。与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性，例如对SQL...

数据湖存储集成

本章节重点介绍如何使用主流数据湖格式（如Paimon、Hudi、Iceberg）进行数据存储与管理，并结合流批一体技术实现高效的数据处理。使用Paimon 使用Hudi 使用Iceberg 使用Delta Lake 使用DLF 基于Flink、EMR Serverless Spark与Paimon构建流...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品，于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

什么是EMR Serverless Spark

该产品为企业提供了一站式的数据平台服务，包括任务开发、调试、调度及运维等功能，显著简化了数据处理与模型训练的全流程。同时，它100%兼容开源Spark生态，能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark，企业可以...

计费项

处理场景处理能力（Java Runtime）处理能力（Fusion引擎）简单的数据处理。例如，过滤、清洗等操作。1 CU每秒可以处理约2000000条数据。1 CU每秒可以处理约5000000条数据。复杂的数据处理。例如，聚合、连接、String操作等。1 CU每秒可以...

Serverless Spark使用Python三方库

如何在Serverless Spark环境中使用Python三方库适用客户全网用户新增功能/规格 PySpark作业往往需要借助Python第三方库来增强数据处理和分析能力。本文档详细介绍了如何利用Conda和PEX这两种方法，有效地将这些库集成到Serverless Spark...

计算组

例如，您可以分配一个计算组用来执行查询分析，另外一个计算组用来做ETL数据处理，从而保障查询和ETL互不干扰，各自按需使用隔离的计算资源。跨部门协同分析：支持多个业务部门能够共享数据资产，为各业务部门分配不同的计算组进行查询分析...

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式通过Flume导入推荐使用Flume方式导入到JindoFS，利用Flume对HDFS的支持，...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

Hudi

Apache Hudi是一种数据湖的存储格式，在Hadoop文件系统...增量数据处理 Hudi支持Incremental Query查询类型，您可以通过Spark Streaming查询给定COMMIT后发生变更的数据。Hudi提供了一种消费HDFS变化数据的能力，可以用来优化现有的系统架构。

查询管理与分析

此类查询通常涉及到大规模数据处理、复杂的计算操作，或是跨多个数据库的交互。之所以关注运行中大查询，是因为这些查询可能会大量占用CPU、内存及IO等计算资源，从而影响系统中其他查询的性能。因此，对这类查询进行实时监控是维护系统...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

Trino扩缩容

包含Trino组件的集群，当查询速度不符合数据处理要求，或某些大查询超出内存总量限制，且调整配置参数也不足以应对使用场景时，可以尝试进行扩容，通过新增Worker节点数的方式来增加Worker数量，从而满足业务需求。当业务高峰期已过或者当...

设置时区

如果您实例的时区与您业务实际所在的时区不一致，则需要修改实例的时区，以确保数据处理过程中时间信息的准确性以及跨时区展示的一致性。使用限制仅当小版本的最后三位版本号大于或等于1.6.0时，系统才支持修改时区。例如，当小版本为3.3....