DataFlow集群的Flink DataStream API完全兼容开源的Flink版本,关于Flink DataStream API的详细信息,请参见 Flink DataStream API Programming Guide。上下游存储(Connector)EMR-5.17.0&3.51.0及之后版本 开源Flink的上下游存储,详情请...
Hue是一个开源的Web界面,用于与Apache Hadoop生态系统进行交互。Hue Superset Superset仅对存量用户开放。Superset是一个数据可视化工具,提供丰富的可视化和仪表盘功能。Superset 计算引擎 EMR支持多种主流计算引擎,如批处理、交互分析...
背景信息 EMR Flink完全兼容开源Flink,相关内容请参见社区文档。例如:DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景,本文从技术领域和企业应用场景进行介绍。技术领域 从技术领域的角度,Flink...
Trino(即原PrestoSQL)是一个开源的分布式SQL查询引擎,适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino,之前各版本控制台显示为Presto,内核其实是Trino,使用时请注意区分。基本特性 Trino使用Java语言...
Presto是典型的M/S架构的系统,由一个Coordinator节点和多个Worker节点组成。Coordinator负责如下工作:接收用户查询请求,解析并生成执行计划,下发Worker节点执行。监控Worker节点运行状态,各个Worker节点与Coordinator节点保持心跳连接...
ECS实例 在E-MapReduce上创建的一台云服务器,等同于一台虚拟服务器,内含CPU、内存、操作系统、网络配置、磁盘等基础的组件。更多介绍,请参见 实例概述。E-MapReduce(简称EMR)支持的ECS实例类型,以及各实例类型适用的场景,请参见 ECS...
EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...
JindoFS是基于阿里云对象存储OSS,为开源大数据生态构建的Hadoop兼容文件系统(Hadoop Compatible File System,HCFS)。JindoFS提供兼容对象存储的纯客户端模式(SDK)和缓存模式(Cache),以支持与优化Hadoop和Spark生态大数据计算对OSS...
TPC-DS模拟了零售企业三种销售渠道(实体店、互联网、目录)的销售和退货业务,除了建立相关销售和退货模型的表格,它还包括一个简单的库存系统和一个促销系统。本测试案例中,基准测试共包含99个复杂查询,数据集包含24张表,数据规模分别...
EMR Notebook提供了全托管的兼容开源Jupyter的Notebook服务,同时内置了SQL Editor的功能。支持SparkSQL、Hive、StarRocks、PySpark等应用程序的开发和运行。本文以Hive查询为例,为您介绍如何使用EMR Notebook。前提条件 已完成系统角色...
一站式的开发体验 全流程开发支持:提供从任务开发、调试、发布到调度的一站式开发体验,满足企业级开发与发布的高标准需求。内置版本管理功能,完整记录每次发布历史,支持源码与配置差异对比,确保变更可追溯。高效协作与稳定性保障:...
PyTorch PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。在倚天云服务器上,建议您使用以下两种方式使用PyTorch。使用官方版本构建PyTorch的Docker镜像。更多信息,请参见 PyTorch for AArch64。构建时,...
与开源系统相同的使用体验。Spark on MaxCompute与社区开源Spark保持相同的体验(例如开源应用的UI界面、在线交互等),完全符合Spark用户使用习惯。开源应用的调试过程中需要使用开源UI,Spark on MaxCompute提供原生的开源实时UI和查询...
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...
OSS数据加密 OSS(Object Storage Service)是阿里云提供的一种高效、安全、低成本且高可靠的云存储服务。该服务采用基于访问密钥和RAM角色的身份认证方式,能够实现Bucket级别、对象级别及RAM策略等多种细粒度的权限控制。同时,OSS还支持...
EMR ClickHouse完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础上优化了ClickHouse的读写性能,提升了ClickHouse与EMR其他组件快速集成的能力。特性 特性 描述 列式...
YARN是一个分布式的资源管理系统。YARN是Hadoop系统的核心组件,主要功能包括负责在集群中的资源管理,负责对作业进行调度运行以及监控。基本概念 名称 描述 ResourceManager 负责集群的资源管理与调度,为运行在YARN上的各种类型作业分配...
OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...
背景信息 阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,可提供99.9999999999%(12个9)的数据持久性和99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。更多信息,请参见 什么...
工作流版本 工作流版本是指每当对工作流程进行修改操作(例如,添加或删除节点、变更依赖关系等)并保存后,系统会自动创建一个新的流程修订版本。任务版本 任务版本是指每当对具体任务进行修改操作(例如,修改执行参数、调整资源配置等)...
说明 在阿里云EMR for ACK的使用场景中,针对Shuffle Service类型的集群,系统内置了一个名为“rss-pvc-clean”的自动化清理任务。这是一个预设的、用于定期或在特定条件下清理不再使用的PVC资源的Job任务,旨在优化存储资源管理,避免无效...
开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...
与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和...
EMR on ECS会使用到AliyunEMRDefaultRole、AliyunEMRManagedCostRole这两个服务角色。注意事项 为了避免影响EMR服务稳定性,请注意:EMR服务角色名称无法修改。不要在RAM访问控制台上删除或修改EMR服务角色的系统策略。...
您也可以选中多个RAM用户,单击用户列表下方的 添加权限,为RAM用户批量授权。在 新增授权 面板,为RAM用户添加相应的权限。参数 说明 资源范围 选择所需的应用范围:账号级别:权限在当前阿里云账号内生效。资源组级别:权限在指定的资源...
SQL Editor是阿里云EMR Serverless StarRocks提供的一个交互式查询编辑器。您可以直接在控制台上编写、运行和管理SQL查询语句,无需下载或安装任何本地客户端软件,极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件 已...
一个计算任务的CU使用量取决于该任务实际处理的数据量、计算复杂程度、处理的数据分布情况,以及是否开启 Fusion引擎 加速。开启Fusion引擎加速后,当前不会有额外的资源成本增加,但作业执行时间通常能够大幅缩短(30%以上),因此具备更...
阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,做了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...
本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍,请参见 使用OpenAPI。基本信息 版本说明 E-MapReduce 版本号 说明 2021-03-20 推荐使用。EMR Workbench 版本号 说明 2024-04-30 推荐使用...
在云监控的事件监控模块中,您可以订阅E-MapReduce数据开发相关的系统事件,监控集群的核心组件服务状态。云监控系统事件编码及其含义如下。事件编码 事件描述 事件类型 EMR-110401002 工作流已成功。FLOW EMR-110401003 工作流已提交。...
默认的ECS应用角色关联的系统策略由阿里云创建和维护。因此,若服务要求发生变化,该策略将会自动更新。EMR on ECS版本不同时,默认的ECS应用角色不同:EMR-3.32.0之后版本和EMR-4.5.0之后版本、EMR-5.x系列版本:ECS应用角色默认使用...
Spark处理JindoFS上的数据,主要有两种方式,一种是直接调用文件系统接口使用;一种是通过SparkSQL读取存在JindoFS的数据表。JindoFS配置 以EMR-3.35版本为例,创建名为 emr-jfs 的命名空间,相关配置参数示例如下:jfs.namespaces=emr-jfs...
事件等级 按照对实例正常运行的影响程度进行划分,系统事件分为以下几个等级:严重:影响重大,需要尽快处理,否则可能影响业务运行。警告:有一定影响,需要您在影响持续期间加以关注,或者选择合适时间处理。信息:展示事件经过,您自行...
事件等级 按照对实例正常运行的影响程度进行划分,系统事件分为以下几个等级:严重:影响重大,需要尽快处理,否则可能影响业务运行。警告:有一定影响,需要您在影响持续期间加以关注,或者选择合适时间处理。信息:展示事件经过,您自行...
false SpotInstanceRemedy boolean 开启补齐抢占式实例后,当收到抢占式实例将被回收的系统消息时,伸缩组将尝试创建新的实例,替换掉将被回收的抢占式实例。取值范围:true:开启补齐抢占式实例。false:不开启补齐抢占式实例。默认值:...
Apache Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。Hudi表类型 Hudi支持如下两种表类型:Copy On Write 使用Parquet格式存储数据。Copy On Write表的更新操作需要通过重写...
背景信息 FUSE是Linux系统内核提供的一种挂载文件系统的方式。通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/namespace/方式访问数据。...
背景信息 FUSE是Linux系统内核提供的一种挂载文件系统的方式。通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/namespace/方式访问数据。...
背景信息 FUSE是Linux系统内核提供的一种挂载文件系统的方式。通过JindoFS的FUSE客户端,将JindoFS集群上的文件映射到本地磁盘,您可以像访问本地磁盘一样访问JindoFS集群上的数据,无需再使用 hadoop fs-ls jfs:/namespace/方式访问数据。...
当前数据盘只支持一种磁盘类型,即数组元数个数 N 的取值范围:1~1。DataDisk DataDisk 数据盘。CompensateWithOnDemand boolean 当 nodeResizeStrategy 取值为 COST_OPTIMIZED 时,如果因价格、库存等原因无法创建足够的抢占式实例,是否...