开源的大数据处理系统-开源的大数据处理系统文档介绍内容-移动阿里云

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中，在大数据量的情况下将数据存储在OSS上会大大降低使用的成本，EMR集群主要用来作为计算资源，在计算完成之后可以随时释放，数据在OSS上，同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

查询管理与分析

此类查询通常涉及到大规模数据处理、复杂的计算操作，或是跨多个数据库的交互。之所以关注运行中大查询，是因为这些查询可能会大量占用CPU、内存及IO等计算资源，从而影响系统中其他查询的性能。因此，对这类查询进行实时监控是维护系统...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理（Data Masking），即可以对Select的返回结果脱敏，以屏蔽敏感信息。背景信息该功能只针对HiveServer2的场景（例如，Beeline、JDBC和Hue等途径执行的Select语句）。操作步骤说明本文Ranger截图以2.1.0...

性能测试

本文介绍 Ganos 时空服务与开源GeoMesa（HBase）、云数据库MongoDB分片集群在处理时空轨迹数据时的性能测试对比。测试环境本次性能测试中需要准备以下测试数据库，具体配置如下表：数据库配置说明云原生多模数据库 Lindorm 宽表引擎（已...

产品形态选型

阿里云开放的大数据平台 E‑MapReduce(EMR)提供了多种产品形态，以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品，以下整理了各产品...

使用限制

性能单个Spark任务所能处理的Shuffle数据最大量限制为100 TB。工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为200 TB。说明如果您的任务的Shuffle超过上述限制，请提交工单。并发控制同一工作空间内允许并发执行的任务数量...

Kudu

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...

快速入门

RDS MySQL快速入门 RDS SQL Server快速入门 RDS PostgreSQL快速入门 RDS MariaDB快速入门数据库引擎简介 RDS MySQL MySQL MySQL是全球受欢迎的开源数据库之一，作为开源软件组合LAMP（Linux+Apache+MySQL+Perl/PHP/Python）中的重要一环，...

使用独立的Trino集群

背景信息在使用开源大数据平台E-MapReduce控制台时，您可以在创建DataLake集群、自定义集群或Hadoop集群时选择Trino服务，或者创建独立的Trino集群使用Trino服务。Trino集群具备以下特点：Trino独享集群资源，受其他组件干扰少。支持弹性...

DeltaLake

而Delta简化了工作流程，整条数据处理过程是一条完整的、可靠的实时流，其数据的清洗、转换、特征化等操作都是流上的节点动作，无需对历史和实时数据分别处理。与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性，例如对SQL...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

什么是EMR Notebook

EMR Notebook是一个Serverless化的交互式数据分析和探索平台，满足大数据和AI融合下的数据处理需求，为数据工程师、数据分析师和数据科学家提供了可视化的应用程序开发环境。通过EMR Notebook可以完成对SQL、Python、Markdown等多种语言...

综合：网站用户画像分析

计算引擎云原生大数据计算服务MaxCompute 本案例中，基于DataWorks使用云原生大数据计算服务MaxCompute、开源全托管服务EMR Serverless StarRocks、开源大数据平台 E-MapReduce 或开源全托管服务EMR Serverless Spark 中的任意一种作为 ...

Spark对接DataHub

本文介绍如何在E-MapReduce的Hadoop集群，运行Spark作业消费DataHub数据、统计数据个数并打印出来。Spark Streaming消费DataHub 准备工作使用DataHub的订阅功能订阅Topic，详细信息请参见创建订阅。消费DataHub数据运行Spark Streaming...

Spark对接OSS

通过集成Spark与OSS，阿里云EMR实现了对云端数据湖的高效处理与分析。EMR支持通过免AccessKey和显式AccessKey两种方式读写OSS数据。本文主要介绍Spark如何处理和分析OSS中的数据。免AccessKey方式读写OSS 通过Spark RDD读写OSS数据本示例...

创建集群

Spark：是通用的分布式大数据处理引擎，提供了ETL、离线批处理和数据建模等能力。重要创建Spark集群后，如果您需要关联集群，则所选产品版本的大版本号需要和关联的Shuffle Service集群大版本号一致。例如，EMR-5.x-ack版本的Spark集群...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

Serverless Spark提交PySpark任务

使用EMR Serverless Spark提交PySpark流式任务适用客户全网用户新增功能/规格 EMR Serverless Spark提供了一个强大而可扩展的平台，它不仅简化了实时数据处理流程，还免去了服务器管理的烦恼，提升了效率。本文将指导您使用EMR ...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择 开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

Trino

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。基本特性 Trino使用Java语言...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容...生态 开源大数据生态Hadoop/Spark等、阿里云数据生态 开源大数据生态Hadoop/Spark等易用性免运维，维护简单有状态服务，维护较复杂

Hudi

Apache Hudi是一种数据湖的存储格式，在Hadoop文件系统...增量数据处理 Hudi支持Incremental Query查询类型，您可以通过Spark Streaming查询给定COMMIT后发生变更的数据。Hudi提供了一种消费HDFS变化数据的能力，可以用来优化现有的系统架构。

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

概述

它在统一的计算资源和数据集权限体系之上，提供Spark计算框架，支持您以熟悉的开发使用方式提交运行Spark作业，满足更丰富的数据处理分析需求。使用限制 Spark on MaxCompute支持如下场景：离线计算场景，例如GraphX、Mllib、RDD、Spark-...

冷热分层

背景信息在海量大数据场景下，随着业务和数据量的不断增长，性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案，推出了数据流入、数据组织管理、数据查询和数据流出等特性，同时提供了数据的ACID和CRUD操作...

Presto

具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理过程中实时返回给用户...

Druid（仅对存量用户开放）

Apache Druid是一个分布式内存实时分析系统，用于解决如何在大规模数据集下快速的、交互式的查询和分析问题。基本特点 Apache Druid具有如下特点：支持亚秒级的交互式查询。例如，多维过滤、Ad-hoc的属性分组和快速聚合数据。支持实时的...

使用MapReduce处理JindoFS上的数据

本文介绍如何使用MapReduce读写JindoFS上的数据。JindoFS配置以EMR-3.35版本为例，创建名为 emr-jfs 的命名空间，相关配置参数示例如下：jfs.namespaces=emr-jfs jfs.namespaces.emr-jfs.oss.uri=oss:/oss-bucket/oss-dir jfs.namespaces....

选择地域和存储

存储空间=原始数据量中间数据处理过程中生成的临时数据（如ETL中间结果）。存储空间=原始数据量×1.5（根据业务复杂度调整）结果数据最终需存储的输出数据。存储空间=原始数据量×10%~50%（根据业务需求调整）数据增长：规划时需考虑...

SSB性能测试说明

SSB基准测试是通过执行一系列规定的查询模式来评估数据仓库或OLAP系统的性能指标，包括查询响应时间、并发处理能力、数据加载和查询优化等。说明本文的SSB的实现基于SSB的基准测试，并不能与已发布的SSB基准测试结果相比较。场景说明本...

EMR数据开发停止更新公告

作为一站式大数据开发治理平台，DataWorks沉淀阿里巴巴十多年大数据建设方法论，为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力，帮助客户提升数据的应用效率。迁移流程阿里云DataWorks on EMR团队提供了完善...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订，并将于2024年03月01日生效。当前服务等级协议详情，请在服务等级协议中查看。变更生效时间 2024年03年01日变更范围 EMR Serverless StarRocks（标准版）...

数据存储与访问

本章节介绍如何通过多种方式读写不同的数据存储系统，支持结构化、半结构化和非...涵盖主流大数据存储引擎的集成，满足多样化的业务需求。读写Doris 读写StarRocks 读写MaxCompute 读写HBase 读写MongoDB 读写MySQL 读写PostgreSQL 读写Kafka

在Notebook中使用DuckDB

适用场景交互式分析：快速处理GB~TB级数据集，替代Pandas/Excel处理大数据。边缘计算：嵌入式部署在终端设备，执行本地数据分析。数据科学：与Python/R生态无缝衔接，作为ML数据预处理引擎。实时OLAP：支持高频更新与复杂查询并存的分析...

Doris

统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。数据湖联邦查询：通过外表的方式联邦分析位于Hive、...

创建工作空间

开通DLF后，系统会为您选择默认的DLF数据目录，默认为UID。如果针对不同集群您期望使用不同的数据目录，则可以按照以下方式新建目录。单击创建数据目录，在弹出的对话框中输入目录ID，然后单击确定。详情请参见数据目录。在下拉列表中...

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

2025-11-12版本

平台侧功能分类功能更新说明相关文档 AI 中心（Beta）新增支持AI Function功能，提供开箱即用的Qwen大模型能力，能够有效调用大模型处理海量数据。AI Function 介绍新增模型服务管理功能，支持注册外部模型服务，并在Serverless Spark...