EMR集群模板可持久化保存集群配置(如软件版本、实例类型等),实现一键创建相同配置的集群,避免重复操作。该功能适用于需要快速部署测试环境或多套生产环境的场景,能显著提升效率并保证配置一致性。功能特性 配置持久化:保存除密码外的...
会话是指EMR Serverless Spark工作空间中可用的Spark Session。会话资源类型 在Serverless Spark中,支持以下会话类型:SQL会话:用于SQL开发和查询。...相关文档 管理SQL会话 管理Notebook会话 管理Spark Thrift Server会话
与开源Zeppelin相比,E-MapReduce(简称EMR)数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例 运行hadoop命令 执行如下命令会显示当前EMR集群根目录下的所有文件,切换...
您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...
E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即 监控诊断 页面的“健康诊断”和“集群日报”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化...
EMR on ECS服务角色允许E-MapReduce服务在配置资源或执行服务级别操作时调用其他阿里云服务。例如,服务角色用于在EMR集群启动时创建...该角色可以查看您在账单管理中的账单详情。该角色默认关联的权限策略请参见 AliyunEMRManagedCostRole。
如果您对阿里云EMR Serverless Spark的消费情况产生疑问,可以通过费用与成本查看费用账单以及消费明细。操作步骤 登录 费用与成本 控制台。在左侧导航栏,选择。根据需要查看消费情况或导出...账单详细内容,可参见费用与成本的 账单管理。
EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数,您可以参考以下文档进行开发设计。StarRocks版本 参考文档 3.3系列 SQL参考 函数参考 3.2系列 SQL参考 函数参考 2.5系列 SQL参考 函数参考
集群管理新增报警管理功能,支持用户在EMR控制台创建和查看集群报警规则。适用客户 全网用户 新增功能/规格 集群管理新增报警管理功能,基于云监控服务,支持用户在EMR控制台创建和查看集群报警规则。如果资源的监控指标达到报警条件,云...
EMR on ECS 创建集群后,支持对节点组的安全组信息进行修改。适用客户 全网用户 新增功能/规格 EMR on ECS 创建集群后,支持对节点组的安全组信息进行修改。产品文档 管理安全组
EMR Notebook中的用户有权限管理当前工作空间及其内容。本文为您介绍如何添加和删除用户。前提条件 已创建工作空间,详情请参见 管理工作空间。已创建RAM用户,详情请参见 创建RAM用户。添加用户 进入EMR Notebook页面。登录 E-MapReduce...
本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例 在E...
EMR Workflow 新增工作空间管理 适用客户 全网用户 新增功能/规格 工作空间是EMR Workflow管理项目、工作流,分配角色和权限的基本单元。您所有的配置、任务、工作流均在具体的项目空间下进行。工作空间管理员可以添加成员至工作空间,并...
产品优势如下:云原生极速计算引擎 内置Fusion Engine(Spark Native Engine),相对开源版本性能提升300%。内置Celeborn(Remote Shuffle Service),支持PB级Shuffle数据,计算资源总成本最高下降30%。开放化的数据湖架构 支持计算存储分离...
目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...
在这种高安全级别的集群中,所有开源组件均采用Kerberos安全模式启动,确保只有经过Kerberos认证的客户端能够访问集群提供的服务(例如HDFS)。背景信息 集群开启Kerberos之后:客户端:可以对可信任的客户端提供认证,使得可信任客户端...
当集群不再使用时,您可以释放集群以删除对应的Namespace以及该Namespace下的所有软件服务,但不会释放实际的物理资源。本文为您介绍如何释放集群。前提条件 请确保待释放集群的状态是创建中、运行中或空闲中。操作步骤 登录 EMR on ACK。...
如果您对阿里云E-MapReduce的消费情况有疑问,可以...相关文档 账单详细内容,请参见 账单管理。包年包月的退款规则及退款操作,请参见 退款说明。包年包月类型有到期时间。如果您需要继续使用,请及时进行续费,续费操作请参见 续费说明。
计费常见问题 集群管理常见问题 组件常见问题:HDFS常见问题 YARN常见问题 Hudi常见问题 Hive常见问题 HBase常见问题 Kudu常见问题 Spark常见问题 Flink常见问题 StarRocks常见问题 Impala常见问题 ClickHouse常见问题 Zookeeper常见问题 ...
Livy支持提交Spark作业或者Spark代码片段,同步或者异步的进行结果检索以及Spark Context上下文管理,Livy简化了Spark和应用程序服务器之间的交互,从而使Spark能够用于交互式Web或移动应用程序。背景信息 Livy还支持如下功能:长时间运行...
全托管 Spark 支持 Spark Thrift Server 服务 适用客户 全网用户 新增功能/规格 EMR Serverless Spark 支持 Spark Thrift Server 服务,允许以 JDBC 协议连接并提交任务。产品文档 管理Spark Thrift Server
前提条件 已创建工作空间,详情请使用 管理工作空间。操作步骤 进入项目管理页面。使用阿里云账号(主账号)或RAM用户登录 E-MapReduce控制台。在左侧导航栏,选择 EMR Workbench Workflow。在Workflow页面,单击目标工作空间操作列的 控制...
本章节提供基础工具的操作指南,帮助用户高效完成数据存储、管理和运维相关任务。在Notebook中使用Hadoop命令操作OSS/OSS-HDFS
YARN是一个分布式的资源管理系统。YARN是Hadoop系统的核心组件,主要功能包括负责在集群中的资源管理,负责对作业进行调度运行以及监控。基本概念 名称 描述 ResourceManager 负责集群的资源管理与调度,为运行在YARN上的各种类型作业分配...
EMR支持两种脚本执行方式:管理引导操作:能够在集群扩容或弹性伸缩时,自动在新增节点上运行指定的脚本。手动执行脚本:可以批量选择在已有节点上立即运行指定脚本。
E-MapReduce会自动根据健康检查项对集群的节点和服务进行健康检查 适用客户 全网用户 新增功能/规格 E-MapReduce自动根据健康检查项对集群的节点和服务进行健康检查,及时对异常或风险点进行处理。...产品文档 管理健康检查项
用户角色 描述 管理员 管理员具有当前工作空间内的所有操作权限。阿里云账号(主账号)在工作空间内默认为管理员类型的root用户。开发者 开发者仅具有首页、项目管理和资源中心功能模块的操作权限。说明 添加用户后,该用户可以访问该工作...
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...
本章节重点介绍如何使用主流数据湖格式(如Paimon、Hudi、Iceberg)进行数据存储与管理,并结合流批一体技术实现高效的数据处理。使用Paimon 使用Hudi 使用Iceberg 使用Delta Lake 使用DLF 基于Flink、EMR Serverless Spark与Paimon构建流...
这意味着当您在EMR集群中使用Kerberos身份验证时,您可以选择使用由集群创建的KDC,也可以选择使用外部KDC来实现统一的身份管理和认证。前提条件 已获取正确的KDC的IP地址、Kadmin的IP地址以及Principal的名称和密码。说明 请确保获取的...
本文介绍EMR Serverless StarRocks产品中涉及的一些基本名词...EMR StarRocks Manager EMR StarRocks Manager是阿里云EMR团队针对Serverless StarRocks实例提供的数据管理控制台,提供对实例内数据的管理、诊断与分析、安全权限配置等能力。
如果您需要调整这些服务的配置项,则可以使用软件自定义配置功能,以修改现有配置或添加新的配置项。创建集群时配置 登录 E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。在EMR on ECS页面,单击 创建集群。在 软件...
Notebook默认安装matplotlib、numpy和pandas,支持根据业务需要创建运行环境 适用客户 全网用户 新增功能/规格 Notebook当前已默认安装matplotlib、numpy和pandas。如果您需要使用其他第三方库,可以创建运行环境。...产品文档 管理运行环境
Delta Lake是一个开源存储框架,旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能,并能够在现有的数据湖(如OSS、Amazon S3和HDFS)上整合流处理与批处理。此外,Delta Lake还支持多种引擎,如...
用户可以在节点管理功能内查看节点的健康状态,及时发现异常节点。适用客户 全网用户 新增功能/规格 节点健康状态展示了当前节点的运行状态是否正常。用户可以在节点管理功能内查看节点的健康状态,及时发现异常节点。产品文档 ...
兼容开源 EMR Notebook兼容开源Jupyter Notebook,您可以通过文件导入、导出的方式实现开发工具的自由切换,从而降低了使用门槛。产品功能 交互式编程环境 支持逐步执行SQL和Python代码,并根据运行结果调整后续代码。多种数据源类型 支持...
Serverless Spark SQL开发和批任务支持自定义变量管理,可简化代码的维护和调整。适用客户 全网用户 新增功能/规格 EMR Serverless Spark 使用变量可以有效降低重复编写相同值的工作量,从而提升配置管理的效率。通过变量的复用,可以在SQL...
Hive是一个基于Hadoop的数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。Hive结构 名称 说明 HiveServer2 HiveQL查询服务器,可以配置为Thrift或者HTTP协议,接收来自JDBC客户端提交的SQL请求...
使用限制 仅工作空间的管理员可以查看审计日志。开启审计日志 审计日志默认关闭,如果您需要收集、查看指定工作空间的Workflow操作日志,则需要按照以下步骤开启日志收集。进入安全中心页面。使用阿里云账号(主账号)或RAM用户登录 E-...
本章节介绍如何通过多种工具和框架提交和调度大数据任务,支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务 通过Serverless Spark提交PySpark流任务 通过spark-submit提交任务 通过Apache Airflow提交...