概述 2024年11月25日,我们正式对外发布Serverless Spark新版本,包括平台升级、生态对接、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 任务编排 支持调度Notebook类型任务。任务历史 支持在开发任务页面查看Stdout和Stderr日志。...
概述 2025年09月17日,我们正式对外发布 Serverless Spark 新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 密文管理 新增支持工作空间级别的密文管理,避免明文AccessKey、密码等信息带来的安全风险...
概述 2025年04月15日,我们正式对外发布Serverless Spark新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 工作空间管理 在创建工作空间时,可以直接绑定标签,也可以在工作空间创建完成后,随时在工作...
Hadoop DistCp和Jindo DistCp的区别 DistCp类型 功能 使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具,用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具,支持OSS、OSS-HDFS服务、兼容...
阿里云安全责任 阿里云负责保障平台自身安全。责任包括:针对阿里云安全中心发现的EMR大数据服务组件安全漏洞,发布相关公告,并提供相应的漏洞补丁及操作流程。基于完备的阿里云综合安全产品体系,保障EMR产品内部使用的计算、存储、网络...
若您的业务需集成特定组合的组件,您可创建自定义集群,灵活组合EMR提供的组件,打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别,帮助您快速选型。业务场景选型 业务场景(集群类型)支持的组件 核心能力 适用场景 数据湖...
与开源Zeppelin相比,E-MapReduce(简称EMR)数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例 运行hadoop命令 执行如下命令会显示当前EMR集群根目录下的所有文件,切换...
概述 2025年11月12日,我们正式对外发布 Serverless Spark 新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 AI 中心(Beta)新增支持AI Function功能,提供开箱即用的Qwen大模型能力,能够有效调用大...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的 enableLDAP。...
EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据湖仓,并为生产任务的稳定运行提供保障。产品优势 ...
功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化 支持文件的checksum功能,对齐开源HDFS checksum相关接口,支持MD5MD5CRC和COMPOSITE_CRC两种算法...
前提条件 通过SSH隧道方式才能访问Web UI,详情请参见 通过SSH隧道方式访问开源组件Web UI。访问JindoFS Web UI 打通SSH隧道后,您可以访问JindoFS Web UI功能。JindoFS 3.1.x版本提供总览信息(Overview)、Namespace信息、存储节点信息...
前提条件 通过SSH隧道方式才能访问Web UI,详情请参见 通过SSH隧道方式访问开源组件Web UI。访问JindoFS Web UI 打通SSH隧道后,您可以访问JindoFS Web UI功能。JindoFS 3.1.x版本提供总览信息(Overview)、Namespace信息、存储节点信息...
前提条件 通过SSH隧道方式才能访问Web UI,详情请参见 通过SSH隧道方式访问开源组件Web UI。访问JindoFS Web UI 打通SSH隧道后,您可以通过 http://emr-header-1:8101/ 访问JindoFS Web UI功能。JindoFS 3.0版本提供总览信息(Overview)、...
通过Livy,您可以利用Airflow中的livy_operator以及spark_magic等开源项目,向Serverless Spark提交任务、查询任务状态并获取计算结果。Kyuubi提供了JDBC/ODBC接口,支持通过SQL查询或BI工具(如Tableau、Power BI)直接连接Serverless ...
访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI,具体操作请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。NameNode服务地址 版本 访问地址 说明 hadoop 3.x http://${namenode_hostname}:9870${...
您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...
操作步骤 使用SSH隧道方式访问Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。说明 建议您首次使用Kafka Manager时修改默认密码。为了防止8085端口暴露,建议使用SSH隧道方式来访问Web界面。如果使用 http://localhost:8085 方式...
平台为每个计算节点配备的本地存储空间最小为20GiB,最大可达160GiB。一个任务的CU使用量取决于输入任务的计算复杂度,以及所依赖的数据分布情况。您可以在任务列表中查看一个任务实例的CU消耗情况。会话资源(Spark Session)会话资源是...
EMR数据开发于2022年2月21日停止功能更新,2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能,推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新公告。
EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR ...
访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI,详情请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。说明 使用Knox访问UI的前提条件是,Master节点必须具备公网IP地址,并且只允许对Catalogd和...
适用场景 OLAP多维分析 用户行为分析 用户画像、标签分析、圈人 高维业务指标报表 自助式报表平台 业务问题探查分析 跨主题业务分析 财务报表 系统监控分析 实时数仓 电商大促数据分析 教育行业的直播质量分析 物流行业的运单分析 金融行业...
与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性,例如对SQL和Optimize的支持等。下表列出了Delta Lake的基本特性,并对比EMR-Delta Lake与开源Delta Lake(0.6.1)。特性 EMR-Delta 开源Delta SQL ALTER CONVERT CREATE ...
2023年4月1日至2024年3月31日期间,为进一步帮助EMR老用户平滑过渡到EMR新平台,EMR老用户 新购*和 续费 数据湖(DataLake)、数据分析(OLAP)、实时数据流(DataFlow)、数据服务(DataServing)、自定义集群(Custom)等新集群类型,EMR...
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式)...
内置函数清单 Serverless Spark 兼容开源内置函数的使用,开源具体函数说明请参见 Spark SQL Functions。此外,Serverless Spark 还支持多个特有内置函数,以下是特有支持的内置函数及其相关说明。函数 说明 PARQUET_SCHEMA 获取Parquet...
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...
多工作负载:Kyuubi可以通过一个平台、一个数据副本和一个SQL接口轻松支持多个不同的工作负载。使用场景 交互式分析:利用Kyuubi可以构建企业级分析平台,用于对大数据进行交互式可视化分析,支持常见的计算框架。Kyuubi支持JDBC和ODBC接口...
JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集:提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。各种...
Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎,相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容,您无需对现有代码做任何修改。在EMR Serverless Spark中,只需在创建会话时开启 使用...
阿里云Spark已完成Celeborn适配,开源Spark 3.5版本已完成Celeborn适配。spark.celeborn.shuffle.writer Celeborn的wirter支持的模式:hash(默认值):在Partition并发度过大的情况下会使用较多的内存。sort:使用固定大小内存,在...
阿里云E-MapReduce(简称EMR)支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下,具有更高的性价比,帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势,以及在E-Mapreduce上倚天云服务器的...
背景信息 Impala使用与Apache Hive相同的元数据、SQL语法(Hive SQL)和ODBC驱动程序等,为面向批处理或实时查询提供了一个熟悉且统一的平台。注意事项 如果使用Impala组件,请勿直接通过系统文件删除hive表分区目录,请使用Impala或者Hive...
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....
以下配置项请遵循开源HDFS内容,详情请参见 core-default.xml。参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop....