EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...
操作步骤 使用SSH隧道方式访问Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。说明 建议您首次使用Kafka Manager时修改默认密码。为了防止8085端口暴露,建议使用SSH隧道方式来访问Web界面。如果使用 http://localhost:8085 方式...
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...
平台为每个计算节点配备的本地存储空间最小为20GiB,最大可达160GiB。一个任务的CU使用量取决于输入任务的计算复杂度,以及所依赖的数据分布情况。您可以在任务列表中查看一个任务实例的CU消耗情况。会话资源(Spark Session)会话资源是...
EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。
使用EMR Serverless Spark提交PySpark流式任务 适用客户 全网用户 新增功能/规格 EMR Serverless Spark提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用EMR ...
概述 2025年3月3日,我们正式对外发布Serverless Spark新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 售卖 新增按量付费下的计算资源抵扣包,价格更优惠。首次购买3000 CU*小时规格的抵扣包,可享受...
适用客户 全网用户 新增功能/规格 数据管理DMS(Data Management)是一款支撑数据全生命周期的一站式数据管理平台。您可以在DMS控制台录入StarRocks实例信息,从而通过图形化的Web界面来管理StarRocks实例。产品文档 通过DMS连接StarRocks...
EMR用户可以用于访问链接与端口,查看开源组件Web UI时的用户身份认证,也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP,则可以对用户管理中的用户进行权限控制。如果是高安全集群,EMR用户可以用于Kinit操作...
访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI,具体操作请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。NameNode服务地址 版本 访问地址 说明 hadoop 3.x http://${namenode_hostname}:9870${...
背景信息 Impala使用与Apache Hive相同的元数据、SQL语法(Hive SQL)和ODBC驱动程序等,为面向批处理或实时查询提供了一个熟悉且统一的平台。注意事项 如果使用Impala组件,请勿直接通过系统文件删除hive表分区目录,请使用Impala或者Hive...
阿里云安全责任 阿里云负责保障平台自身安全。责任包括:针对阿里云安全中心发现的EMR大数据服务组件安全漏洞,发布相关公告,并提供相应的漏洞补丁及操作流程。基于完备的阿里云综合安全产品体系,保障EMR产品内部使用的计算、存储、网络...
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式)...
EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多...
EMR Serverless StarRocks不仅无缝兼容开源StarRocks,并且具备自动升级软件版本的功能,可省去手动管理版本的繁琐与风险。迁移方案详情,请参见 迁移StarRocks数据至EMR Serverless StarRocks。操作步骤 重要 集群扩容操作不会重启存量...
Flume最终会将数据落地到实时计算平台(例如Flink、Spark Streaming和Storm)、离线计算平台上(例如MR、Hive和Presto),也可仅落地到数据存储系统中(例如HDFS、OSS、Kafka和Elasticsearch),为后续分析数据和清洗数据做准备。...
内置函数清单 Serverless Spark 兼容开源内置函数的使用,开源具体函数说明请参见 Spark SQL Functions。此外,Serverless Spark 还支持多个特有内置函数,以下是特有支持的内置函数及其相关说明。函数 说明 PARQUET_SCHEMA 获取Parquet...
EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的 enableLDAP。...
E-Mapreduce(简称EMR)开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合,允许您在EMR控制台直接查询开源组件的日志。前提条件 已在EMR控制台上创建集群,具体操作请参见 创建集群。已 开通日志服务。使用限制 ...
概述 2024年8月20日,我们正式对外发布Serverless Spark新版本,包括平台升级、生态对接、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 任务开发 支持开发以下任务类型:SparkSQL Application(批任务):JAR、PySpark、SQL、Spark...
概述 2024年11月25日,我们正式对外发布Serverless Spark新版本,包括平台升级、生态对接、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 任务编排 支持调度Notebook类型任务。任务历史 支持在开发任务页面查看Stdout和Stderr日志。...
数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与...
概述 2025年09月17日,我们正式对外发布 Serverless Spark 新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 密文管理 新增支持工作空间级别的密文管理,避免明文AccessKey、密码等信息带来的安全风险...
概述 2025年04月15日,我们正式对外发布Serverless Spark新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 工作空间管理 在创建工作空间时,可以直接绑定标签,也可以在工作空间创建完成后,随时在工作...
Delta Lake是一个开源存储框架,旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能,并能够在现有的数据湖(如OSS、Amazon S3和HDFS)上整合流处理与批处理。此外,Delta Lake还支持多种引擎,如...
概述 2025年06月05日,我们正式对外发布Serverless Spark新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 工作空间管理 支持直接创建包年包月类型的工作空间,提前预留资源,适用于预算规划明确的场景...
数据开发平台 本案例使用DataWorks的 旧版数据开发(DataStudio)平台,请确保您的工作空间 未参加 新版数据开发公测。创建工作空间 时,不选择 参加数据开发(Data Studio)公测。2025年02月18日后,主账号在如下地域首次开通DataWorks并...
JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集:提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。各种...
Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎,相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容,您无需对现有代码做任何修改。在EMR Serverless Spark中,只需在创建会话时开启 使用...
数据开发平台 本案例使用DataWorks的 新版数据开发(Data Studio)平台,请确保您的工作空间已开通新版数据开发。开通方式如下:创建工作空间 时,选择 参加数据开发(Data Studio)公测。将已有旧版数据开发升级为新版数据开发,在旧版...
概述 2025年11月12日,我们正式对外发布 Serverless Spark 新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 AI 中心(Beta)新增支持AI Function功能,提供开箱即用的Qwen大模型能力,能够有效调用大...
EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR ...
阿里云E-MapReduce(简称EMR)支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下,具有更高的性价比,帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势,以及在E-Mapreduce上倚天云服务器的...
E-MapReduce支持在集群成功创建后...相关文档 如果您需要访问服务的Web UI,详情请参见 通过控制台访问开源组件Web界面。如果您需要查看服务的状态,详情请参见 查看服务和组件健康状态。如果有服务相关的问题,详情请参见 集群管理常见问题。
功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化 支持文件的checksum功能,对齐开源HDFS checksum相关接口,支持MD5MD5CRC和COMPOSITE_CRC两种算法...
例如,MaxCompute、Hologres和 人工智能平台 PAI 等。多个EMR集群时,可以统一管理元数据。前提条件 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见 步骤一:创建集群。使用数据湖元数据DLF方式时,需要确保已开通数据湖构建DLF,...
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....