全托管 Spark 支持 Spark Thrift Server 服务 适用客户 全网用户 新增功能/规格 EMR Serverless Spark 支持 Spark Thrift Server 服务,允许以 JDBC 协议连接并提交任务。产品文档 管理Spark Thrift Server
通过Kyuubi Gateway,以兼容开源Kyuubi的方式提交SQL任务。数据目录 支持使用RAM用户(子账号)身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测 支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...
OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...
为了更好地融入开源生态,提供更加开放和多样化的计算服务,阿里云E-MapReduce(简称EMR)从EMR-5.17.0和EMR-3.51.0版本开始,将Flink引擎版本从Flink企业版Ververica Runtime(简称VVR)调整为Flink社区开源版本,同时引入RocksDB作为存储...
在EMR集群中,为了确保集群安全,Hadoop、Spark和Flink等开源组件的Web界面端口均未对外开放。如果您想直接访问开源组件的Web界面,可根据实际场景选择 原生UI地址、Knox代理地址、SSH本地端口转发 或 SSH动态端口转发 方式进行访问。快速...
您可以为节点组设置托管弹性伸缩或自定义弹性伸缩规则,在业务需求增长时,弹性伸缩自动为节点组增加节点,来保证计算能力;在业务需求下降时,弹性伸缩会自动为节点组减少节点,来节约成本。EMR托管弹性伸缩与自定义弹性伸缩特性对比 特性...
背景信息 托管文件目录:通过界面直接上传本地文件到指定的存储空间,并在任务运行时直接访问这些文件。纳管文件目录:将OSS Bucket作为文件系统挂载到Notebook会话资源中,直接访问OSS上的文件,无需手动上传。使用限制 在使用托管文件...
EMR Serverless Spark产品正式商业化...适用客户 全网用户 新增功能/规格 EMR Serverless Spark是一款云原生,专为大规模数据处理和分析而设计的全托管Serverless产品,于2024年9月14日开启商业化。产品文档 EMR Serverless Spark商业化公告
Livy支持提交Spark作业或者Spark代码片段,同步或者异步的进行结果检索以及Spark Context上下文管理,Livy简化了Spark和应用程序服务器之间的交互,从而使Spark能够用于交互式Web或移动应用程序。背景信息 Livy还支持如下功能:长时间运行...
除了通过EMR控制台提供的链接地址访问开源组件Web界面外,还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理,您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明 开源组件Web界面访问方式选择,请参见 查看开源组件 ...
概述 2025年04月15日,我们正式对外发布Serverless Spark新版本,包括平台管理、性能优化以及引擎能力。平台侧 功能分类 功能更新说明 相关文档 工作空间管理 在创建工作空间时,可以直接绑定标签,也可以在工作空间创建完成后,随时在工作...
托管弹性伸缩功能是通过配置Task节点的最大值和最小值,使E-MapReduce(简称EMR)能够自动根据您的业务负载动态调整Task节点数量,并根据历史作业执行情况来优化资源分配。这样既保证了任务的顺利完成,又有效控制了成本。本文为您介绍如何...
阿里云E-MapReduce支持使用倚天云服务器构建开源大数据集群。适用客户 全网用户 新增功能/规格 阿里云E-MapReduce(简称EMR)支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下,具有更高的性价比,帮助用户...
与开源Zeppelin相比,E-MapReduce(简称EMR)数据开发集群中的Shell解释器支持在不同EMR集群环境里切换。本文通过示例为您介绍如何在Zeppelin中使用Shell。使用示例 运行hadoop命令 执行如下命令会显示当前EMR集群根目录下的所有文件,切换...
EMR Studio上的Zeppelin与开源版本一致吗?如何设置Zeppelin Note的权限?Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗?EMR Studio上的Zeppelin是增强版的Zeppelin,与开源版本不一致。E-MapReduce的...
EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数,您可以参考以下文档进行开发设计。StarRocks版本 参考文档 3.3系列 SQL参考 函数参考 3.2系列 SQL参考 函数参考 2.5系列 SQL参考 函数参考
本章节展示如何将BI工具与大数据平台集成,构建高效的数据可视化解决方案。使用Power BI连接EMR Serverless Spark并进行数据可视化
EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...
本文介绍Hadoop代码中的参数。Hadoop代码中可使用如下参数配置。属性名 默认值 说明 fs.jfs.cache.oss-accessKeyId 无 访问OSS所需的AccessKey ID(可选)。fs.jfs.cache.oss-accessKeySecret 无 访问OSS所需的AccessKey Secret(可选)。...
您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务,并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题,经过多年迭代...
Serverless Spark SQL开发和批任务支持自定义变量管理,可简化代码的维护和调整。适用客户 全网用户 新增功能/规格 EMR Serverless Spark 使用变量可以有效降低重复编写相同值的工作量,从而提升配置管理的效率。通过变量的复用,可以在SQL...
同时,OSS还支持KMS托管密钥和OSS完全托管密钥等多种数据加密方式,以在客户端和服务端全面保护数据安全。有关详细信息,请参见 数据安全。OSS-HDFS服务(即JindoFS服务)是一个基于OSS的云原生数据湖存储功能。该服务基于统一的元数据管理...
前提条件 已创建Kubernetes集群,详情请参见 创建ACK专有集群(已停止新建)或 创建ACK托管集群。操作步骤 登录 容器服务管理控制台。在 集群列表 页面,单击目标集群 操作 列的 详情。在 基本信息 页面的 集群资源 区域,单击 Worker RAM ...
opt/apps/hue/build/env/bin/hue shell 说明 代码中的/opt/apps/hue/build/env/bin/hue 为 步骤2 中获取的Hue路径。执行以下命令,重置用户密码。from django.contrib.auth.models import User user=User.objects.get(username=' your_...
如果您想直接导入IDE就可以运行的项目工程,您可以下载下面的示例项目工程代码,导入您的IDE环境即可运行。注意 您需要将项目里面的AccessKey信息和安全组信息,修改为您自己账户的AccessKey信息和安全组信息,具体说明请参见项目代码前的...
Serverless Spark支持通过Notebook进行交互式开发 适用客户 全网用户 新增功能/规格 Notebook 为您提供了一个交互式的工作环境,支持 PySpark、Markdown 的开发,您可以编写代码、运行查询、可视化数据并即时查看结果。Notebook 促进了数据...
运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 Action 元素中使用,用来给RAM用户或RAM角色授予调用此API的权限。具体说明如下:操作:是指具体的权限点。访问...
本文为您介绍开源组件常用端口。服务 端口 描述 Hadoop 2.X 50070 HDFS Web UI的端口。配置参数为 dfs.namenode.http-address 或 dfs.http.address 。说明 dfs.http.address 已过期但仍能使用。50075 DataNode Web UI的端口。50010 ...
DataFlow集群的Flink DataStream API完全兼容开源的Flink版本,关于Flink DataStream API的详细信息,请参见 Flink DataStream API Programming Guide。上下游存储(Connector)EMR-5.17.0&3.51.0及之后版本 开源Flink的上下游存储,详情请...
访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI,详情请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。说明 使用Knox访问UI的前提条件是,Master节点必须具备公网IP地址,并且只允许对Catalogd和...
选择SQL代码中的某一段,单击左侧的 图标,运行部分SQL查询。说明 选中代码行,才会显示该图标。④ 单击 保存,保存所有语句。⑤ 单击 格式化,会自动调整缩进、换行以及关键词大小写等。⑥ 显示查询结果或失败信息。⑦ 单击 图标,可以...
登录Ranger UI,详情请参见 通过控制台访问开源组件Web界面。选择 Settings Users/Groups/Roles。在 Users 页签中,您可以查看是否有新创建的Unix用户。例如,在步骤1中创建了test用户。场景二:集群已部署OpenLDAP 如果集群中已部署...
您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin,请您登录后及时修改密码。说明 首次登录后默认是英文界面。在Superset页面,单击右上角的 图标,选择 ...
Apache Hadoop与Hadoop Yarn ResourceManager未授权访问漏洞 Apache Hadoop YARN ZKConfigurationStore反序列化代码执行漏洞(CVE-2021-25642)Apache Hadoop与Hadoop Yarn ResourceManager未授权访问漏洞 Hadoop是一款分布式基础架构,...
Trino(即原PrestoSQL)是一个开源的分布式SQL查询引擎,适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino,之前各版本控制台显示为Presto,内核其实是Trino,使用时请注意区分。基本特性 Trino使用Java语言...
Apache Celeborn是阿里云开源的中间数据服务,旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎,支持Spark、Flink、MapReduce(MR)和 Tez,并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...
支持在Notebook中运行另一个Notebook代码。PySpark任务支持选择自定义环境。其他 文件管理支持创建文件夹。Spark配置输入框支持添加注释。spark_submit命令支持在提交后展示Spark Driver。引擎侧 版本号 说明 esr-3.0.0(Spark 3.4.3,Scala ...
概述 2025年07月31日,我们正式对外发布 Serverless Spark 新版本,涵盖了平台管理能力。平台侧 功能分类 功能更新说明 相关文档 数据目录 支持同时添加多个 DLF(之前称为DLF 2.5)数据目录,以便进行联邦查询。在添加DLF数据目录之前,请...
前提条件 通过SSH隧道方式才能访问Web UI,详情请参见 通过SSH隧道方式访问开源组件Web UI。访问JindoFS Web UI 打通SSH隧道后,您可以访问JindoFS Web UI功能。JindoFS 3.1.x版本提供总览信息(Overview)、Namespace信息、存储节点信息...
背景信息 EMR Flink完全兼容开源Flink,相关内容请参见社区文档。例如:DataStream API Table API&SQ Python API 使用场景 Flink广泛应用于大数据实时化的场景,本文从技术领域和企业应用场景进行介绍。技术领域 从技术领域的角度,Flink...