开源代码托管平台-开源代码托管平台文档介绍内容-移动阿里云

支持 Spark Thrift Server 服务

全托管 Spark 支持 Spark Thrift Server 服务适用客户全网用户新增功能/规格 EMR Serverless Spark 支持 Spark Thrift Server 服务，允许以 JDBC 协议连接并提交任务。产品文档管理Spark Thrift Server

2025-01-20版本

通过Kyuubi Gateway，以兼容开源Kyuubi的方式提交SQL任务。数据目录支持使用RAM用户（子账号）身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...

OpenLDAP

OpenLDAP是LDAP协议（Lightweight Directory Access Protocol）的开源实现，在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中，Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的访问链接与端口功能访问...

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样化的计算服务，阿里云E-MapReduce（简称EMR）从EMR-5.17.0和EMR-3.51.0版本开始，将Flink引擎版本从Flink企业版Ververica Runtime（简称VVR）调整为Flink社区开源版本，同时引入RocksDB作为存储...

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

弹性伸缩

您可以为节点组设置托管弹性伸缩或自定义弹性伸缩规则，在业务需求增长时，弹性伸缩自动为节点组增加节点，来保证计算能力；在业务需求下降时，弹性伸缩会自动为节点组减少节点，来节约成本。EMR托管弹性伸缩与自定义弹性伸缩特性对比特性...

管理文件

背景信息托管文件目录：通过界面直接上传本地文件到指定的存储空间，并在任务运行时直接访问这些文件。纳管文件目录：将OSS Bucket作为文件系统挂载到Notebook会话资源中，直接访问OSS上的文件，无需手动上传。使用限制在使用托管文件...

Serverless Spark 开启商业化

EMR Serverless Spark产品正式商业化...适用客户全网用户新增功能/规格 EMR Serverless Spark是一款云原生，专为大规模数据处理和分析而设计的全托管Serverless产品，于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告

Livy

Livy支持提交Spark作业或者Spark代码片段，同步或者异步的进行结果检索以及Spark Context上下文管理，Livy简化了Spark和应用程序服务器之间的交互，从而使Spark能够用于交互式Web或移动应用程序。背景信息 Livy还支持如下功能：长时间运行...

SSH隧道访问开源组件Web界面

除了通过EMR控制台提供的链接地址访问开源组件Web界面外，还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理，您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明开源组件Web界面访问方式选择，请参见查看开源组件 ...

2025-04-15版本

概述 2025年04月15日，我们正式对外发布Serverless Spark新版本，包括平台管理、性能优化以及引擎能力。平台侧功能分类功能更新说明相关文档工作空间管理在创建工作空间时，可以直接绑定标签，也可以在工作空间创建完成后，随时在工作...

创建托管弹性伸缩策略

托管弹性伸缩功能是通过配置Task节点的最大值和最小值，使E-MapReduce（简称EMR）能够自动根据您的业务负载动态调整Task节点数量，并根据历史作业执行情况来优化资源分配。这样既保证了任务的顺利完成，又有效控制了成本。本文为您介绍如何...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

SQL与函数参考

EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数，您可以参考以下文档进行开发设计。StarRocks版本参考文档 3.3系列 SQL参考函数参考 3.2系列 SQL参考函数参考 2.5系列 SQL参考函数参考

BI工具集成

本章节展示如何将BI工具与大数据平台集成，构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

参数说明

本文介绍Hadoop代码中的参数。Hadoop代码中可使用如下参数配置。属性名默认值说明 fs.jfs.cache.oss-accessKeyId 无访问OSS所需的AccessKey ID（可选）。fs.jfs.cache.oss-accessKeySecret 无访问OSS所需的AccessKey Secret（可选）。...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

Serverless Spark支持变量管理

Serverless Spark SQL开发和批任务支持自定义变量管理，可简化代码的维护和调整。适用客户全网用户新增功能/规格 EMR Serverless Spark 使用变量可以有效降低重复编写相同值的工作量，从而提升配置管理的效率。通过变量的复用，可以在SQL...

数据加密

同时，OSS还支持KMS托管密钥和OSS完全托管密钥等多种数据加密方式，以在客户端和服务端全面保护数据安全。有关详细信息，请参见数据安全。OSS-HDFS服务（即JindoFS服务）是一个基于OSS的云原生数据湖存储功能。该服务基于统一的元数据管理...

授予OSS和DLF权限

前提条件已创建Kubernetes集群，详情请参见创建ACK专有集群（已停止新建）或创建ACK托管集群。操作步骤登录容器服务管理控制台。在集群列表页面，单击目标集群操作列的详情。在基本信息页面的集群资源区域，单击 Worker RAM ...

管理用户

opt/apps/hue/build/env/bin/hue shell 说明代码中的/opt/apps/hue/build/env/bin/hue 为步骤2 中获取的Hue路径。执行以下命令，重置用户密码。from django.contrib.auth.models import User user=User.objects.get(username=' your_...

示例项目

如果您想直接导入IDE就可以运行的项目工程，您可以下载下面的示例项目工程代码，导入您的IDE环境即可运行。注意您需要将项目里面的AccessKey信息和安全组信息，修改为您自己账户的AccessKey信息和安全组信息，具体说明请参见项目代码前的...

Serverless Spark集成 Notebook

Serverless Spark支持通过Notebook进行交互式开发适用客户全网用户新增功能/规格 Notebook 为您提供了一个交互式的工作环境，支持 PySpark、Markdown 的开发，您可以编写代码、运行查询、可视化数据并即时查看结果。Notebook 促进了数据...

PutManagedScalingPolicy-创建托管伸缩策略

运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。调试授权信息下表是API对应的授权信息，可以在RAM权限策略语句的 Action 元素中使用，用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下：操作：是指具体的权限点。访问...

开源组件常用端口

本文为您介绍开源组件常用端口。服务端口描述 Hadoop 2.X 50070 HDFS Web UI的端口。配置参数为 dfs.namenode.http-address 或 dfs.http.address 。说明 dfs.http.address 已过期但仍能使用。50075 DataNode Web UI的端口。50010 ...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本，关于Flink DataStream API的详细信息，请参见 Flink DataStream API Programming Guide。上下游存储（Connector）EMR-5.17.0&3.51.0及之后版本开源Flink的上下游存储，详情请...

Impala Web UI

访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。说明使用Knox访问UI的前提条件是，Master节点必须具备公网IP地址，并且只允许对Catalogd和...

SQL Editor

选择SQL代码中的某一段，单击左侧的图标，运行部分SQL查询。说明选中代码行，才会显示该图标。④ 单击保存，保存所有语句。⑤ 单击格式化，会自动调整缩进、换行以及关键词大小写等。⑥ 显示查询结果或失败信息。⑦ 单击图标，可以...

常见问题

登录Ranger UI，详情请参见通过控制台访问开源组件Web界面。选择 Settings Users/Groups/Roles。在 Users 页签中，您可以查看是否有新创建的Unix用户。例如，在步骤1中创建了test用户。场景二：集群已部署OpenLDAP 如果集群中已部署...

Superset（仅对存量用户开放）

您需要在SSH连接中创建隧道以查看开源组件的Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin，请您登录后及时修改密码。说明首次登录后默认是英文界面。在Superset页面，单击右上角的图标，选择 ...

其他漏洞汇总说明

Apache Hadoop与Hadoop Yarn ResourceManager未授权访问漏洞 Apache Hadoop YARN ZKConfigurationStore反序列化代码执行漏洞（CVE-2021-25642）Apache Hadoop与Hadoop Yarn ResourceManager未授权访问漏洞 Hadoop是一款分布式基础架构，...

Trino

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。基本特性 Trino使用Java语言...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

2024-11-25版本

支持在Notebook中运行另一个Notebook代码。PySpark任务支持选择自定义环境。其他文件管理支持创建文件夹。Spark配置输入框支持添加注释。spark_submit命令支持在提交后展示Spark Driver。引擎侧版本号说明 esr-3.0.0(Spark 3.4.3,Scala ...

2025-07-31版本

概述 2025年07月31日，我们正式对外发布 Serverless Spark 新版本，涵盖了平台管理能力。平台侧功能分类功能更新说明相关文档数据目录支持同时添加多个 DLF（之前称为DLF 2.5）数据目录，以便进行联邦查询。在添加DLF数据目录之前，请...

访问JindoFS Web UI

前提条件通过SSH隧道方式才能访问Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI。访问JindoFS Web UI 打通SSH隧道后，您可以访问JindoFS Web UI功能。JindoFS 3.1.x版本提供总览信息（Overview）、Namespace信息、存储节点信息...

Flink

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...