论坛php开源-论坛php开源文档介绍内容-移动阿里云

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

查看开源组件 Web 界面

在EMR集群中，为了确保集群安全，Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面，可根据实际场景选择原生UI地址、Knox代理地址、SSH本地端口转发或 SSH动态端口转发方式进行访问。快速...

OpenLDAP

OpenLDAP是LDAP协议（Lightweight Directory Access Protocol）的开源实现，在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中，Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的访问链接与端口功能访问...

Flink版本调整公告

为了更好地融入开源生态，提供更加开放和多样化的计算服务，阿里云E-MapReduce（简称EMR）从EMR-5.17.0和EMR-3.51.0版本开始，将Flink引擎版本从Flink企业版Ververica Runtime（简称VVR）调整为Flink社区开源版本，同时引入RocksDB作为存储...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

EMR Studio（已不支持新购）

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比，开源大数据开发平台EMR提供弹性资源管理和自动化运维，降低运维复杂度，通过用户管理、数据加密和权限管理等为数据安全保驾护航，同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态，便于快速搭建大数据处理和...

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗？如何设置Zeppelin Note的权限？Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗？EMR Studio上的Zeppelin是增强版的Zeppelin，与开源版本不一致。E-MapReduce的...

组件操作

EMR提供的组件包括开源和自研两大类，涵盖数据开发、计算引擎、数据服务、资源管理、数据存储、数据集成等领域，您可以按需选择和配置。说明在创建集群时，如果没有您想使用的组件，或者想使用的开源组件仅对存量用户开放，您可以自行安装...

支持倚天云服务器

阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户全网用户新增功能/规格阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助用户...

Shell

与开源Zeppelin相比，E-MapReduce（简称EMR）数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例运行hadoop命令执行如下命令会显示当前EMR集群根目录下的所有文件，切换...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

E-MapReduce Doctor

E-MapReduce Doctor（简称EMR Doctor）是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor（即监控诊断页面的“健康诊断”和“集群日报”功能）可以全局了解集群的健康状况和动态走势，为运维决策和资源优化...

SSH隧道访问开源组件Web界面

除了通过EMR控制台提供的链接地址访问开源组件Web界面外，还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理，您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明开源组件Web界面访问方式选择，请参见查看开源组件 ...

SQL与函数参考

EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数，您可以参考以下文档进行开发设计。StarRocks版本参考文档 3.3系列 SQL参考函数参考 3.2系列 SQL参考函数参考 2.5系列 SQL参考函数参考

ClickHouse

开源大数据平台E-MapReduce（简称EMR）的ClickHouse提供了开源OLAP分析引擎ClickHouse的云上托管服务。EMR ClickHouse完全兼容开源版本的产品特性，同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能，并且在开源的基础...

查看账单

在账单详情页签中，设置账单月份，并在列表中筛选产品为开源大数据平台 E-MapReduce，然后基于您的实际需求选择产品明细。您还可以通过统计项和统计周期选择账单的展示内容。账单详细内容，可参见费用与成本的账单管理。相关文档 ...

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍，请参见使用OpenAPI。基本信息版本说明 E-MapReduce 版本号说明 2021-03-20 推荐使用。EMR Workbench 版本号说明 2024-04-30 推荐使用...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

Superset（仅对存量用户开放）

您需要在SSH连接中创建隧道以查看开源组件的Web页面，详情请参见通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin，请您登录后及时修改密码。说明首次登录后默认是英文界面。在Superset页面，单击右上角的图标，选择 ...

开源组件常用端口

本文为您介绍开源组件常用端口。服务端口描述 Hadoop 2.X 50070 HDFS Web UI的端口。配置参数为 dfs.namenode.http-address 或 dfs.http.address 。说明 dfs.http.address 已过期但仍能使用。50075 DataNode Web UI的端口。50010 ...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据湖仓，并为生产任务的稳定运行提供保障。产品优势 ...

通过控制台访问开源组件Web界面

通过访问链接与端口功能，您可方便地通过控制台方式访问集群中已安装开源组件Web界面的地址。本文将介绍如何设置安全组规则和访问链接，以便查看集群中开源组件的UI界面。说明开源组件Web界面访问方式选择，请参见查看开源组件 Web 界面...

什么是EMR Notebook

兼容开源 EMR Notebook兼容开源Jupyter Notebook，您可以通过文件导入、导出的方式实现开发工具的自由切换，从而降低了使用门槛。产品功能交互式编程环境支持逐步执行SQL和Python代码，并根据运行结果调整后续代码。多种数据源类型支持...

Flink DataStream参考

DataFlow集群的Flink DataStream API完全兼容开源的Flink版本，关于Flink DataStream API的详细信息，请参见 Flink DataStream API Programming Guide。上下游存储（Connector）EMR-5.17.0&3.51.0及之后版本开源Flink的上下游存储，详情请...

常见问题

登录Ranger UI，详情请参见通过控制台访问开源组件Web界面。选择 Settings Users/Groups/Roles。在 Users 页签中，您可以查看是否有新创建的Unix用户。例如，在步骤1中创建了test用户。场景二：集群已部署OpenLDAP 如果集群中已部署...

Trino

Trino（即原PrestoSQL）是一个开源的分布式SQL查询引擎，适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino，之前各版本控制台显示为Presto，内核其实是Trino，使用时请注意区分。基本特性 Trino使用Java语言...

Impala Web UI

访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。说明使用Knox访问UI的前提条件是，Master节点必须具备公网IP地址，并且只允许对Catalogd和...

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。产品文档 ...

技术支持的范围和方式

阿里云E-MapReduce（简称EMR）是云原生开源大数据平台，能够为用户提供简单易集成的开源大数据解决方案。EMR on ECS集群主要构建于ECS之上，集群资源归属于用户，EMR提供基于该资源的半托管云服务能力，用户对集群拥有完全的管理操作权限，...

新版监控诊断功能发布

EMR on ECS发布基于大模型构建的新版监控诊断功能适用客户全网用户新增功能/规格 EMR on ECS新版监控诊断是基于大模型构建的智能运维辅助功能，结合了阿里云EMR团队在开源大数据领域的知识经验、阿里云EMR可观测能力和技术专家的诊断...

EMR Serverless StarRocks服务等级协议更新

《开源大数据平台E-MapReduce Serverless服务等级协议》已于2024年02月02日修订，并将于2024年03月01日生效。当前服务等级协议详情，请在服务等级协议中查看。变更生效时间 2024年03年01日变更范围 EMR Serverless StarRocks（标准版）...

通过 Gateway 向全托管 spark 提交任务

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

Presto

产品优势 E-MapReduce（简称EMR）中的Presto与开源Presto比较，还具备如下优势：即买即用，快速完成上百节点的Presto集群搭建。弹性扩缩容，简单快速。与EMR软件栈完美结合，支持DLF和OSS或OSS-HDFS。无需运维，EMR提供一站式服务。基本...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权 RAM 身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

Gateway管理

通过Livy，您可以利用Airflow中的livy_operator以及spark_magic等开源项目，向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口，支持通过SQL查询或BI工具（如Tableau、Power BI）直接连接Serverless ...

访问JindoFS Web UI

前提条件通过SSH隧道方式才能访问Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI。访问JindoFS Web UI 打通SSH隧道后，您可以访问JindoFS Web UI功能。JindoFS 3.1.x版本提供总览信息（Overview）、Namespace信息、存储节点信息...

Flink

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...