开源bi平台-开源bi平台文档介绍内容-移动阿里云

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

Kafka Manager

操作步骤使用SSH隧道方式访问Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。说明建议您首次使用Kafka Manager时修改默认密码。为了防止8085端口暴露，建议使用SSH隧道方式来访问Web界面。如果使用 http://localhost:8085 方式...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

基本概念

平台为每个计算节点配备的本地存储空间最小为20GiB，最大可达160GiB。一个任务的CU使用量取决于输入任务的计算复杂度，以及所依赖的数据分布情况。您可以在任务列表中查看一个任务实例的CU消耗情况。会话资源（Spark Session）会话资源是...

数据开发工作台（已停止新购）

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。

Serverless Spark提交PySpark任务

使用EMR Serverless Spark提交PySpark流式任务适用客户全网用户新增功能/规格 EMR Serverless Spark提供了一个强大而可扩展的平台，它不仅简化了实时数据处理流程，还免去了服务器管理的烦恼，提升了效率。本文将指导您使用EMR ...

2025-03-03版本

概述 2025年3月3日，我们正式对外发布Serverless Spark新版本，包括平台管理、性能优化以及引擎能力。平台侧功能分类功能更新说明相关文档售卖新增按量付费下的计算资源抵扣包，价格更优惠。首次购买3000 CU*小时规格的抵扣包，可享受...

通过DMS连接StarRocks实例

适用客户全网用户新增功能/规格数据管理DMS（Data Management）是一款支撑数据全生命周期的一站式数据管理平台。您可以在DMS控制台录入StarRocks实例信息，从而通过图形化的Web界面来管理StarRocks实例。产品文档通过DMS连接StarRocks...

OpenLDAP 用户管理

EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户身份认证，也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP，则可以对用户管理中的用户进行权限控制。如果是高安全集群，EMR用户可以用于Kinit操作...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI，具体操作请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。NameNode服务地址版本访问地址说明 hadoop 3.x http://${namenode_hostname}:9870${...

Impala

背景信息 Impala使用与Apache Hive相同的元数据、SQL语法（Hive SQL）和ODBC驱动程序等，为面向批处理或实时查询提供了一个熟悉且统一的平台。注意事项如果使用Impala组件，请勿直接通过系统文件删除hive表分区目录，请使用Impala或者Hive...

安全责任共担

阿里云安全责任阿里云负责保障平台自身安全。责任包括：针对阿里云安全中心发现的EMR大数据服务组件安全漏洞，发布相关公告，并提供相应的漏洞补丁及操作流程。基于完备的阿里云综合安全产品体系，保障EMR产品内部使用的计算、存储、网络...

OSS/OSS-HDFS

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

Flume

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

内置函数

内置函数清单 Serverless Spark 兼容开源内置函数的使用，开源具体函数说明请参见 Spark SQL Functions。此外，Serverless Spark 还支持多个特有内置函数，以下是特有支持的内置函数及其相关说明。函数说明 PARQUET_SCHEMA 获取Parquet...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 SparkThriftServer 操作列的 enableLDAP。...

管理日志

E-Mapreduce（简称EMR）开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合，允许您在EMR控制台直接查询开源组件的日志。前提条件已在EMR控制台上创建集群，具体操作请参见创建集群。已开通日志服务。使用限制 ...

2024-08-20版本

概述 2024年8月20日，我们正式对外发布Serverless Spark新版本，包括平台升级、生态对接、性能优化以及引擎能力。平台侧功能分类功能更新说明任务开发支持开发以下任务类型：SparkSQL Application（批任务）：JAR、PySpark、SQL、Spark...

2024-11-25版本

概述 2024年11月25日，我们正式对外发布Serverless Spark新版本，包括平台升级、生态对接、性能优化以及引擎能力。平台侧功能分类功能更新说明任务编排支持调度Notebook类型任务。任务历史支持在开发任务页面查看Stdout和Stderr日志。...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

2025-09-17版本

概述 2025年09月17日，我们正式对外发布 Serverless Spark 新版本，包括平台管理、性能优化以及引擎能力。平台侧功能分类功能更新说明相关文档密文管理新增支持工作空间级别的密文管理，避免明文AccessKey、密码等信息带来的安全风险...

2025-04-15版本

概述 2025年04月15日，我们正式对外发布Serverless Spark新版本，包括平台管理、性能优化以及引擎能力。平台侧功能分类功能更新说明相关文档工作空间管理在创建工作空间时，可以直接绑定标签，也可以在工作空间创建完成后，随时在工作...

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

2025-06-05版本

概述 2025年06月05日，我们正式对外发布Serverless Spark新版本，包括平台管理、性能优化以及引擎能力。平台侧功能分类功能更新说明相关文档工作空间管理支持直接创建包年包月类型的工作空间，提前预留资源，适用于预算规划明确的场景...

使用老版DataWorks

数据开发平台本案例使用DataWorks的旧版数据开发（DataStudio）平台，请确保您的工作空间未参加新版数据开发公测。创建工作空间时，不选择参加数据开发（Data Studio）公测。2025年02月18日后，主账号在如下地域首次开通DataWorks并...

SmartData（仅对存量用户开放）

JindoSDK：为EMR各种开源计算引擎提供统一的SDK，支持Java、C、C++和Python语言，提供多种访问和API接口，包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集：提供相关的工具集，例如Jindo tool和迁移工具Jindo DistCp。各种...

Fusion引擎

Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎，相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容，您无需对现有代码做任何修改。在EMR Serverless Spark中，只需在创建会话时开启使用...

使用新版DataWorks

数据开发平台本案例使用DataWorks的新版数据开发（Data Studio）平台，请确保您的工作空间已开通新版数据开发。开通方式如下：创建工作空间时，选择参加数据开发（Data Studio）公测。将已有旧版数据开发升级为新版数据开发，在旧版...

2025-11-12版本

概述 2025年11月12日，我们正式对外发布 Serverless Spark 新版本，包括平台管理、性能优化以及引擎能力。平台侧功能分类功能更新说明相关文档 AI 中心（Beta）新增支持AI Function功能，提供开箱即用的Qwen大模型能力，能够有效调用大...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。EMR ...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

新增服务

E-MapReduce支持在集群成功创建后...相关文档如果您需要访问服务的Web UI，详情请参见通过控制台访问开源组件Web界面。如果您需要查看服务的状态，详情请参见查看服务和组件健康状态。如果有服务相关的问题，详情请参见集群管理常见问题。

SmartData 3.1.x版本简介

功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化支持文件的checksum功能，对齐开源HDFS checksum相关接口，支持MD5MD5CRC和COMPOSITE_CRC两种算法...

为Spark集群设置元数据

例如，MaxCompute、Hologres和人工智能平台 PAI 等。多个EMR集群时，可以统一管理元数据。前提条件已在E-MapReduce on ACK控制台创建Spark集群，详情请参见步骤一：创建集群。使用数据湖元数据DLF方式时，需要确保已开通数据湖构建DLF，...

权限功能

以下配置项请遵循开源HDFS内容，详情请参见 core-default.xml。参数示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....

权限功能

以下配置项请遵循开源HDFS内容，详情请参见 core-default.xml。参数示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....

权限功能

以下配置项请遵循开源HDFS内容，详情请参见 core-default.xml。参数示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....