开源数据处理平台-开源数据处理平台文档介绍内容-移动阿里云

基本概念

CN（Compute Node）在StarRocks的存算分离架构中，CN是一个无状态节点，主要负责管理热数据缓存、执行数据导入和查询计算任务，以及处理缓存数据。EMR StarRocks Manager EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks...

Spark对接DataHub

本文介绍如何在E-MapReduce的Hadoop集群，运行Spark作业消费DataHub数据、统计数据个数并打印出来。Spark Streaming消费DataHub 准备工作使用DataHub的订阅功能订阅Topic，详细信息请参见创建订阅。消费DataHub数据运行Spark Streaming...

SparkSQL自适应执行

而对于不同的作业，以及同一个作业内的不同reduce阶段，实际的数据量大小可能相差很大，例如reduce阶段要处理的数据可能是10 MB，也有可能是100 GB，如果使用同一个值对实际运行效率会产生很大影响，例如10 MB的数据一个task就可以解决，...

spark-sql>CREATE TABLE loghub_table_intput_test(content string)>USING loghub>OPTIONS>(.)离线处理SLS数据，统计截止当前数据条数。spark-sql>CREATE SCAN loghub_table_intput_test_batch>ON loghub_table_intput_test>USING BATCH;...

Tez

Tez是Apache构建在Hadoop之上的支持分布式DAG（Directed Acyclic Graph）的计算框架，支持通过复杂的DAG描述并处理大数据任务。背景信息 Tez主要使用在Apache Hive中，作为Hive的一种运行时引擎，可以优化Hive SQL的查询引擎。与Hive On MR...

DataNode出现Xceiver数量限制异常

具体报错 java.io.IOException:Xceiver count xxxx exceeds the limit of concurrent xcievers:xxxx 问题原因 dfs.datanode.max.transfer.threads 参数用来设置DataNode处理读写数据流的线程池大小，默认值为4096个。如果该参数设置太小，...

常见问题

查看当前Reduce Task中Reduce Input bytes和Reduce shuffle bytes的信息，如果比其他的Task处理的数据量大很多，则说明出现了倾斜问题。如何预估Hive作业并发量的上限值？Hive作业并发量与HiveServer2的内存以及master实例个数有关系。您...

Spark Streaming作业配置

已准备好作业所需的资源，以及作业要处理的数据。操作步骤进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域和资源组。单击上方的数据开发页签。单击待编辑项目所在行的...

开发入门

本文介绍Spark Streaming如何消费Log Service中的日志数据和统计日志条数。Spark接入Log Service 方法一：Receiver Based DStream val logServiceProject=args(0)/LogService中的project名。val logStoreName=args(1)/LogService中的...

Kyuubi

批数据处理：Kyuubi提供了SQL接口用于常见的批处理，通常是大型提取、转换、加载（ETL）过程。Kyuubi及其引擎都是存储独立的，支持众多的数据源，并且Kyuubi支持在连接级别隔离后台引擎实例，以便实现更好的计算资源隔离并提升稳定性。...

数据导入

Insert Into导入手工测试及临时数据处理时可以使用 Insert Into 方法向StarRocks表中写入数据。其中，INSERT INTO tbl SELECT.;语句是从StarRocks的表中读取数据并导入到另一张表，INSERT INTO tbl VALUES(.);语句是向指定表里插入单条...

Iceberg

而Iceberg简化了工作流程，整个数据处理过程是一条完整的、可靠的实时流，其数据的清洗、转换和特征化等操作都是流上的节点动作，无需处理历史数据和实时数据。此外，Iceberg还支持原生的Python SDK，对于机器学习算法的开发者非常友好。

Trino

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。添加开源Elastic Search数据源登录 ...

Lindorm for Cassandra应用实践

Lindorm 是一款适用于任何规模、多种模型的云原生数据库服务，支持海量数据的低成本存储处理和弹性按需付费，提供宽表、时序、搜索、文件等多种数据模型，兼容HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL等多种开源标准接口，...

安全责任共担

EMR on ECS的安全责任由阿里云、客户双方共同承担，本文介绍阿里云与客户在安全性方面各自应该承担的责任。阿里云安全责任阿里云负责保障平台自身安全。责任包括：针对阿里云安全...不使用阿里云提供的产品和服务从事非法的数据处理活动。

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

2025-03-03版本

本文为您介绍2025年03月03日发布的EMR Serverless Spark的功能变更。概述 2025年3月3日，我们正式对外发布Serverless Spark新版本...Celeborn 优化Push、Merge、Split操作，以提高数据处理效率。优化Map Range Read功能，以提升数据读取性能。

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

SmartData常见问题

类似于MaxCompute数仓上的数据处理方式，方式详情请参见基于MaxCompute数仓上的数据，JindoFS如何帮助机器学习训练？如果使用JindoFS，如何迁移HDFS上的数据？您可以使用Jindo DistCp同步HDFS数据至JindoFS或OSS。Jindo DistCp比Hadoop ...

什么是EMR Serverless StarRocks

EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强功能与服务优势。前置概念 ...

PySpark开发快速入门

说明 DataFrame.py文件是一段使用Apache Spark框架进行OSS上数据处理的代码。employee.csv文件中定义了一个包含员工姓名、部门和薪水的数据列表。步骤二：上传测试文件上传Python文件到EMR Serverless Spark。进入资源上传页面。登录 E-...

内置函数

Serverless Spark 内置了多种函数，能够满足大部分数据处理需求。本文将为您介绍 Serverless Spark 内置提供的函数及其使用说明。支持的版本仅Serverless Spark以下引擎版本支持本文Serverless Spark特有的内置函数：esr-4.x：esr-4.4.0及...

Celeborn介绍

核心性能设计 Push-Based Shuffle和数据分区聚合：该设计消除了传统Shuffle的随机读取问题，提高了数据处理的效率。全链路异步化处理：所有的数据推送、刷新、获取和提交过程都实现了异步化，进一步提升了系统性能。小包合并传输：通过合并...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

Presto

具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理过程中实时返回给用户...

数据开发工作台（已停止新购）

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

Impala

背景信息 Impala使用与Apache Hive相同的元数据、SQL语法（Hive SQL）和ODBC驱动程序等，为面向批处理或实时查询提供了一个熟悉且统一的平台。注意事项如果使用Impala组件，请勿直接通过系统文件删除hive表分区目录，请使用Impala或者Hive...

在Notebook中使用DuckDB

阿里云 EMR Serverless Spark 的 Notebook 会话中引入了 DuckDB 的 Python 库，除了支持 DuckDB 开源版本所具备的所有功能外，还额外提供了免密访问 OSS/OSS-HDFS 的能力，从而能够直接读取 OSS 路径下的文件进行操作。背景信息 DuckDB 是...

Slowly Changing Dimension

示例中通过两次批量写入代替流式写入的方式模拟G-SCD on Delta Lake的数据处理。步骤三：验证数据写入结果通过查询语句，验证数据是否写入成功。步骤一：创建G-SCD表创建G-SCD表的示例如下，该表会在步骤二：处理数据使用。CREATE ...

Hadoop DistCp介绍

Hadoop DistCp（分布式复制）是一个用于大型集群间或集群内数据复制的工具，通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理（Data Masking），即可以对Select的返回结果脱敏，以屏蔽敏感信息。背景信息该功能只针对HiveServer2的场景（例如，Beeline、JDBC和Hue等途径执行的Select语句）。操作步骤说明本文Ranger截图以2.1.0...

2025-11-12版本

平台侧功能分类功能更新说明相关文档 AI 中心（Beta）新增支持AI Function功能，提供开箱即用的Qwen大模型能力，能够有效调用大模型处理海量数据。AI Function 介绍新增模型服务管理功能，支持注册外部模型服务，并在Serverless Spark...

准备环境

DataWorks产品准备本案需确保您已开通DataWorks产品，若您账号下没有DataWorks产品，需在大数据开发治理平台 DataWorks 页面进行开通，详情请参见：购买指引。EMR Serverless Spark 工作空间准备本案例采用EMR Serverless Spark作为...

选择业务场景

若您的业务需集成特定组合的组件，您可创建自定义集群，灵活组合EMR提供的组件，打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别，帮助您快速选型。业务场景选型业务场景（集群类型）支持的组件核心能力适用场景数据湖...

使用Spark处理JindoFS上的数据

Spark中读写JindoFS上的数据，与处理其他文件系统的数据类似，以RDD操作为例，直接使用jfs的路径即可：val a=sc.textFile("jfs:/emr-jfs/README.md")写入数据：scala a.collect().saveAsTextFile("jfs:/emr-jfs/output")SparkSQL 创建数据...

冷热分层

更多介绍请参见结构化大数据分析平台设计、面向海量数据的极致成本优化-云HBase的一体化冷热分离和云上如何做冷热数据分离。冷热数据数据按照实际访问的频率可以分为热数据、温数据和冷数据。其中冷数据的数据量较大，很少被访问，甚至...

创建EMR Studio集群

说明如果创建集群时，未开启挂载公网，您可以参见弹性公网IP 中申请EIP的内容处理，或技术支持处理。密钥对关于密钥对的使用详情，请参见 SSH密钥对。密码设置Master节点的登录密码，密码规则：8~30个字符，且必须同时包含大写字母、...

Hive

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来进行数据提取、转化和加载（ETL）以及元数据管理。Hive结构名称说明 HiveServer2 HiveQL查询服务器，可以配置为Thrift或者HTTP协议，接收来自JDBC客户端提交的SQL请求...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...