开源数据处理平台

_相关内容

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

Hadoop集群迁移至DataLake集群

本文将详细阐述如何将您已有的旧版数据湖集群(Hadoop),高效地迁移至数据...由于双跑校验的具体方式会根据您的实际开发环境、业务特性以及数据处理需求有所不同,因此强烈建议您在执行这一关键步骤时,结合自身业务场景和需求特点,灵活选择...

EMR Serverless StarRocks服务等级协议更新

开源数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订,并将于2024年03月01日生效。当前服务等级协议详情,请在 服务等级协议 中查看。变更生效时间 2024年03年01日 变更范围 EMR Serverless StarRocks(标准版)...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,相关编程使用方法可参见官方相应文档。Spark官方文档:streaming-kafka-...

E-MapReduce Serverless StarRocks服务等级协议(SLA...

2023年6月1日起,E-MapReduce Serverless StarRocks服务等级协议(SLA)生效。详情请参见 开源数据平台E-MapReduce Serverless服务等级协议。

查看账单

在账单详情页签中,设置 账单月份,并在列表中筛选产品为 开源数据平台 E-MapReduce,然后基于您的实际需求选择产品明细。您还可以通过 统计项 和 统计周期 选择账单的展示内容。账单详细内容,可参见费用与成本的 账单管理。相关文档 ...

Paimon

目前阿里云开源数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权 RAM 身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

授权信息

本文为您介绍 开源数据平台 E-MapReduce 为 RAM 权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源数据平台 E-MapReduce 的 RAM 代码(RamCode)为 starrocks,sr,支持的授权粒度为 操作级。权限策略通用结构 ...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权 RAM 身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

授权信息

本文为您介绍 开源数据平台 E-MapReduce 为 RAM 权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源数据平台 E-MapReduce 的 RAM 代码(RamCode)为 emr-serverless-spark,支持的授权粒度为 操作级。权限策略...

授权信息

本文为您介绍 开源数据平台 E-MapReduce 为 RAM 权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源数据平台 E-MapReduce 的 RAM 代码(RamCode)为 emr,支持的授权粒度为 资源级。权限策略通用结构 权限策略...

使用OpenAPI

本文为您介绍使用开源数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍,请参见 使用OpenAPI。基本信息 版本说明 E-MapReduce 版本号 说明 2021-03-20 推荐使用。EMR Workbench 版本号 说明 2024-04-30 推荐使用...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

基本概念

本文介绍开源数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例 在E...

使用独立的Trino集群

背景信息 在使用开源数据平台E-MapReduce控制台时,您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务,或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点:Trino独享集群资源,受其他组件干扰少。支持弹性...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR,它将EMR的大数据处理能力与ECS的弹性灵活优势相结合,使得您能够更加便捷地配置和管理EMR集群,同时支持多种开源和自研大数据组件,适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成,分别...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce(Elastic MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。

通过PyFlink作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含Flink和kafka服务的DataFlow集群中,如何通过PyFlink来处理Kafka中的实时流数据。前提条件 已注册阿里云账号。已完成云账号的授权,详情请参见 角色授权。已创建包含Flink和Kafka服务的DataFlow集群...

Pig开发手册

创建作业 在数据开发中创建Pig作业,详情请参见 Pig作业配置。作业内容如下。f ossref:/emr/jars/script1-hadoop.pig 运行作业 单击 运行 以运行作业。您可以关联一个已有的集群,也可以自动按需创建一个,然后关联上创建的作业。

通过Spark Streaming作业处理Kafka数据

本文介绍在阿里云E-MapReduce创建的包含kafka服务的DataFlow集群中,如何使用Spark Streaming作业从Kafka中实时消费数据。前提条件 已注册阿里云账号。已开通E-MapReduce服务。已完成云账号的授权,详情请参见 角色授权。步骤一:创建...

创建DataFlow Kafka集群

例如,EMR-3.43.1版本中的Kafka为2.12_2.4.1,其中2.12表示Scala的版本,2.4.1为开源Kafka的版本。服务高可用 开启 默认不开启。重要 启用高可用后,将在Master机器组上部署3个节点的Zookeeper服务。由于EMR Kafka版本的服务可用性仍依赖于...

EMR Workbench

通过EMR Workbench,您可以轻松进行数据开发,以及交互式数据分析,并设计复杂的数据处理工作流。功能介绍 EMR Notebook 交互式编程环境:支持Jupyter笔记本,提供灵活的编程环境。多语言支持:允许使用Python、SQL等多种语言进行数据分析...

组件操作

组件类型 组件名称 组件说明 常用文档 开源 Spark Spark是一个快速通用的大数据处理引擎,提供内存中数据处理能力,并支持批处理、实时处理、机器学习和图计算等多种数据处理模式。Spark Shell和RDD基础操作 Spark对接OSS 常见问题和故障...

DeltaLake

而Delta简化了工作流程,整条数据处理过程是一条完整的、可靠的实时流,其数据的清洗、转换、特征化等操作都是流上的节点动作,无需对历史和实时数据分别处理。与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性,例如对SQL...

数据湖存储集成

本章节重点介绍如何使用主流数据湖格式(如Paimon、Hudi、Iceberg)进行数据存储与管理,并结合流批一体技术实现高效的数据处理。使用Paimon 使用Hudi 使用Iceberg 使用Delta Lake 使用DLF 基于Flink、EMR Serverless Spark与Paimon构建流...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户 全网用户 新增功能/规格 EMR Serverless Spark是一款云原生,专为大规模数据处理和分析而设计的全托管Serverless产品,于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

什么是EMR Serverless Spark

该产品为企业提供了一站式的数据平台服务,包括任务开发、调试、调度及运维等功能,显著简化了数据处理与模型训练的全流程。同时,它100%兼容开源Spark生态,能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark,企业可以...

计费项

处理场景 处理能力(Java Runtime)处理能力(Fusion引擎)简单的数据处理。例如,过滤、清洗等操作。1 CU每秒可以处理约2000000条数据。1 CU每秒可以处理约5000000条数据。复杂的数据处理。例如,聚合、连接、String操作等。1 CU每秒可以...

Serverless Spark使用Python三方库

如何在Serverless Spark环境中使用Python三方库 适用客户 全网用户 新增功能/规格 PySpark作业往往需要借助Python第三方库来增强数据处理和分析能力。本文档详细介绍了如何利用Conda和PEX这两种方法,有效地将这些库集成到Serverless Spark...

计算组

例如,您可以分配一个计算组用来执行查询分析,另外一个计算组用来做ETL数据处理,从而保障查询和ETL互不干扰,各自按需使用隔离的计算资源。跨部门协同分析:支持多个业务部门能够共享数据资产,为各业务部门分配不同的计算组进行查询分析...

BI工具集成

本章节展示如何将BI工具与大数据平台集成,构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

将Kafka数据导入JindoFS

Kafka广泛用于日志收集、监控数据聚合等场景,支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。常见Kafka数据导入方式 通过Flume导入 推荐使用Flume方式导入到JindoFS,利用Flume对HDFS的支持,...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和...

Hudi

Apache Hudi是一种数据湖的存储格式,在Hadoop文件系统...增量数据处理 Hudi支持Incremental Query查询类型,您可以通过Spark Streaming查询给定COMMIT后发生变更的数据。Hudi提供了一种消费HDFS变化数据的能力,可以用来优化现有的系统架构。

查询管理与分析

此类查询通常涉及到大规模数据处理、复杂的计算操作,或是跨多个数据库的交互。之所以关注运行中大查询,是因为这些查询可能会大量占用CPU、内存及IO等计算资源,从而影响系统中其他查询的性能。因此,对这类查询进行实时监控是维护系统...

创建集群

Spark:是通用的分布式大数据处理引擎,提供了ETL、离线批处理和数据建模等能力。重要 创建Spark集群后,如果您需要关联集群,则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如,EMR-5.x-ack版本的Spark集群...

Trino扩缩容

包含Trino组件的集群,当查询速度不符合数据处理要求,或某些大查询超出内存总量限制,且调整配置参数也不足以应对使用场景时,可以尝试进行扩容,通过新增Worker节点数的方式来增加Worker数量,从而满足业务需求。当业务高峰期已过或者当...

设置时区

如果您实例的时区与您业务实际所在的时区不一致,则需要修改实例的时区,以确保数据处理过程中时间信息的准确性以及跨时区展示的一致性。使用限制 仅当小版本的最后三位版本号大于或等于1.6.0时,系统才支持修改时区。例如,当小版本为3.3....
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用