开源多商户系统-开源多商户系统文档介绍内容-移动阿里云

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务，具有高可用、免运维和高性能等优点，兼容Hive Metastore，无缝对接EMR上开源计算引擎，并支持多版本管理和Data Profile功能。另外，DLF还支持数据探索、湖管理和数据权限控制等功能，并与...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

E-MapReduce Doctor

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即监控诊断页面的“健康诊断”和“集群日报”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化...

配置弹性伸缩

如果存在多条规则的时间范围重叠，系统将优先执行最近创建的规则。为了避免冲突，建议合理规划每条规则的执行时间。新建弹性规则说明如果实例或计算组在执行其他操作，弹性伸缩将在其他操作完成后再进行扩容或缩容。进入EMR Serverless ...

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样...您可以通过使用开源Connector便捷地对接各种数据源和下游系统。说明 EMR-5.17.0、EMR-3.51.0版本开始使用Apache Flink 1.17.2版本，版本说明请参见 Apache Flink 1.17.2 Release Announcement。

Alibaba Cloud Linux 3软件兼容性列表

中间件 Grafana 9.2.10 开源组件中间件 keepalived 2.2.8 开源组件中间件 Nginx 1.23.3 开源组件中间件 openjdk 1.8.0.422 开源组件中间件 openjdk 11.0.23.0.9 开源组件中间件 openjdk 17.0.11.0.9 开源组件中间件 tengine 2.4.0 ...

常见命令

关于Alluxio的更多命令介绍，请参见 Alluxio。mkdir 在Alluxio文件系统中创建目录。语法 Alluxio Shell用法：alluxio fs mkdir path1[path2].[pathn]Hadoop Shell用法：hadoop dfs-mkdir alluxio:/path1[path2].[pathn]示例：在Alluxio文件...

2024-09-14版本

更多信息，请参见管理运行环境。引擎侧版本号说明 esr-2.2(Spark 3.3.1,Scala 2.12)Fusion加速支持WindowTopK算子。优化了Shuffle性能。修复了因缩容导致的偶发Task Deserialization长耗时问题。针对尚未支持的Paimon算子自动回退。...

EMR Workbench系统权限策略参考

本文描述EMR Workbench支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问控制（RAM）...

JindoCache统一命名空间缓存加速

JindoCache存储加速系统不仅提供了对多种数据源的缓存加速功能，还能将不同数据源统一管理，并将它们置于同一个命名空间下，从而实现统一访问。前提条件已完成JindoCache的配置，详情请参见 JindoCache加速OSS透明缓存或 JindoCache加速...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

Superset（仅对存量用户开放）

您可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板，并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-MapReduce Druid做了深度集成，...

重启服务

您也可以在各服务的配置页面，选择更多操作重启。在重启服务对话框中，填写执行原因，单击确定。可修改参数说明如下。参数描述滚动执行默认开启。开启后，系统会按照每批间隔时间执行任务。您可以设置每批间隔时间，即每隔多长...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

2025-04-15版本

访问Spark UI 支持多个Notebook共享使用Notebook会话实例。Notebook开发快速入门会话管理支持查看会话运行历史。管理SQL会话管理Notebook会话管理Spark Thrift Server会话文件管理支持将OSS Bucket作为文件系统，以目录方式挂载到...

管理工作流实例

暂停：对正在运行的工作流实例进行暂停操作，系统状态变为准备暂停，会等待正在执行的任务结束，暂停下一个要执行的任务。删除：删除工作流实例及工作流实例下的任务实例。甘特图：甘特图纵轴是当前工作流实例下的任务实例的拓扑排序，...

管理工作空间

工作空间管理员可以加入成员至工作空间，并赋予工作角色，以实现多角色协同工作。EMR Workflow默认为您提供了一个名为 Default 的工作空间。前提条件已完成系统角色授权，详情请参见 EMR Workflow角色授权。使用限制仅阿里云账号（主账号...

Flume

Apache Flume是一个分布式、可靠和高可用的系统，可以从大量不同的数据源有效地收集、聚合和移动日志数据，从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集，也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

通过 Gateway 向全托管 spark 提交任务

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

HDFS

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

Gateway管理

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

管理计算组

通过计算组，您可以实现资源的有效隔离、灵活扩缩容以及高效的数据共享，以满足多业务并发和多样化场景需求，确保服务的高稳定性和数据查询的高速度。本文为您介绍如何管理计算组，包括新增计算组、配置计算组、重启计算组等操作，以帮助您...

YARN

YARN是一个分布式的资源管理系统。YARN是Hadoop系统的核心组件，主要功能包括负责在集群中的资源管理，负责对作业进行调度运行以及监控。基本概念名称描述 ResourceManager 负责集群的资源管理与调度，为运行在YARN上的各种类型作业分配...

OpenLDAP

OpenLDAP是LDAP协议（Lightweight Directory Access Protocol）的开源实现，在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中，Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的访问链接与端口功能访问...

为RAM用户授权

在EMR Serverless StarRocks中，RAM的典型使用场景如下：用户：如果您购买了EMR Serverless StarRocks实例，您的组织里有多个用户（例如运维、开发或数据分析）需要使用这些实例，您可以创建一个策略允许部分用户使用这些实例。避免将同...

Flink

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...

Hadoop DistCp介绍

开源DistCp会把要复制的Path列表存储在客户端内存，如果文件量超过一定阈值或者文件名较长，例如文件量达到一百万条，会出现Out of Memory异常，此时可通过以下命令在客户端设置更多内存。export HADOOP_CLIENT_OPTS="-Xmx1024m"hadoop ...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

SWITCH

条件可以为SWITCH任务配置多个条件，当条件满足时，会执行指定的分支，可以配置多个不同的条件来满足不同的业务，使用字符串判断时需要使用"。例如：${switchValue}="A。分支流转默认的流转分支，当所有条件均不满足时，则运行默认流转...

HBASE-HDFS

HBASE-HDFS服务 HDFS作为Hadoop生态系统的核心组件，提供了可靠的分布式文件存储功能。HBASE-HDFS服务通过使用HDFS作为其底层数据存储解决方案，继承了HDFS的所有原生特性和优势，未对其基本架构进行修改。HDFS更多信息介绍，请参见 HDFS...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

支持系统盘加密

在创建集群时，支持对系统盘绑定KMS密钥加密。适用客户全网用户新增功能/规格在创建集群时，支持对系统盘绑定KMS密钥加密。产品文档创建集群

管理手动任务

更多参数配置信息，请参见参数说明。在手动任务定义页面，单击目标任务操作列的运行。在运行手动任务对话框中，选择已有的调度资源组，系统会根据您选定的调度资源组自动匹配执行集群，单击确定。手动任务定义操作在手动任务...

RAM用户授权

您也可以选中多个RAM用户，单击用户列表下方的添加权限，为RAM用户批量授权。在新增授权面板，为RAM用户添加相应的权限。参数说明资源范围选择所需的应用范围：账号级别：权限在当前阿里云账号内生效。资源组级别：权限在指定的资源...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

访问Web UI

由于ACK控制台上访问链接与端口不可用，您可通过以下配置访问开源组件的Web UI。登录容器服务管理控制台。在集群列表页面，单击EMR on ACK所关联集群的集群名称。鼠标悬浮在左边菜单栏网络，单击服务，在服务页面更新YAML文件。...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...