本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...
开源大数据平台E-MapReduce(Elastic MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。
EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数,您可以参考以下文档进行开发设计。StarRocks版本 参考文档 3.3系列 SQL参考 函数参考 3.2系列 SQL参考 函数参考 2.5系列 SQL参考 函数参考
您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin,请您登录后及时修改密码。说明 首次登录后默认是英文界面。在Superset页面,单击右上角的 图标,选择 ...
由于ACK控制台上 访问链接与端口 不可用,您可通过以下配置访问开源组件的Web UI。登录 容器服务管理控制台。在 集群列表 页面,单击EMR on ACK所关联集群的 集群名称。鼠标悬浮在左边菜单栏 网络,单击 服务,在服务页面更新YAML文件。...
选择 超时告警 策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。选择 超时失败 策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。任务提交节点 仅支持 EMR集群worker节点(提交到Yarn执行),...
本文描述EMR Workbench支持的所有系统权限策略及其对应的权限描述,供您授权 RAM 身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问控制(RAM)...
EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...
应用程序可以通过统一命名空间和接口来访问多个独立的存储系统,从而实现只连接JindoFSx就可与不同的底层存储系统进行通信。前提条件 已在E-MapReduce上创建EMR-3.42.0及后续版本、EMR-5.6.0及后续版本的集群,具体操作请参见 创建集群。...
通过Kyuubi Gateway,以兼容开源Kyuubi的方式提交SQL任务。数据目录 支持使用RAM用户(子账号)身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测 支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...
高性能计算引擎:内置 Fusion Engine,性能可达开源 Spark 的 4 倍;支持 Remote Shuffle Service Celeborn,提供 PB 级 Shuffle 能力并降低计算成本。高扩展性与弹性:基于阿里云 Serverless 底座,提供秒级资源弹性伸缩,按实际计算资源...
选择 超时告警 策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。选择 超时失败 策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。任务提交节点 仅支持 EMR集群worker节点(提交到Yarn执行),...
选择 超时告警 策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。选择 超时失败 策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。任务提交节点 仅支持 EMR集群worker节点(提交到Yarn执行),...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的 enableLDAP。...
在 运行手动任务 对话框中,选择已有的 调度资源组,系统会根据您选定的调度资源组自动匹配 执行集群,单击 确定。手动任务定义操作 在 手动任务定义 页面,您可以进行以下操作。操作 说明 编辑 只能编辑未被上线状态的工作流关联的手动...
背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和Table映射的元数据。该元数据存储在数据库(例如,MySQL)中,并...
说明 在脚本中进行写入操作时,请注意:支持将数据写入远程存储系统,如阿里云OSS、HDFS等分布式文件系统。暂不支持将数据写入本地集群文件系统,请避免在脚本中直接操作本地路径。例如,/tmp/local_file.txt。资源 选择任务执行时所需的...
选择 超时告警 策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。选择 超时失败 策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。任务提交节点 调度资源组节点:任务在Workflow的调度资源组...
数据组织 ZooKeeper的数据组织方式与标准文件系统类似,组织成类似文件树的结构,在ZooKeeper中使用znode(ZooKeeper node)来描述文件,与标准文件系统不同的是,znode并不区分目录或者文件的概念,每个znode都可以存储数据。ZooKeeper...
本文为您介绍如何创建事件报警规则和调试系统事件,以便在E-MapReduce发生系统异常时,您能及时接收报警通知并处理异常。前提条件 如果事件报警规则需要作用于指定应用分组的实例上,则请确保您已创建应用分组,且已将资源添加至该应用分组...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 TrinoMaster 操作列的 enableLDAP。在弹出...
Flink社区已提供了丰富的开源Connector,旧版Flink VVR中的各类自研Connector将停止功能更新。您可以通过使用开源Connector便捷地对接各种数据源和下游系统。说明 EMR-5.17.0、EMR-3.51.0版本开始使用Apache Flink 1.17.2版本,版本说明请...
数据文件以不同的格式存储在分布式文件系统或对象存储系统中。当FE将生成的查询计划分发给各个BE后,各个BE会并行扫描Hive存储系统中的目标数据,并执行计算返回查询结果。查询数据 查询内部数据 如果需要查询存储在StarRocks中的数据,请...
公共请求参数 是系统规定的公共参数。服务地址 API的常用服务接入地址,如下所示。地域 服务地址 cn-hangzhou:杭州 emr.aliyuncs.com cn-beijing:北京 emr.aliyuncs.com cn-shanghai:上海 emr.aliyuncs.com cn-shenzhen:深圳 emr....
在阿里云E-MapReduce(EMR)中,Hive支持通过配置外部表来访问和处理存储在Phoenix系统中的数据。本文通过示例为您介绍,如何使用EMR上的Hive处理EMR Phoenix数据。前提条件 已创建选择了Hive、HBase、Zookeeper和Phoenix服务的自定义集群...
StarRocks自2.3版本起支持Catalog(数据目录)功能,实现在一套系统内同时维护内、外部数据,方便您轻松访问并查询存储在各类外部源的数据。本文为您介绍什么是Catalog,以及如何使用Catalog管理和查询内外部数据。基本概念 内部数据:...
本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell 对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs...
delete操作(默认)将同时删除Alluxio和底层文件系统中的文件,而free操作仅仅删除Alluxio中的文件。语法 alluxio fs setTtl[-action delete|free]path time to live 示例:一分钟后,tmp 目录将被删除。alluxio fs setTtl/tmp 60000 返回...
JindoManager系统管理 增加了JindoManager服务,集中负责Jindo系统的运维管理以及状态监控等附加功能,提供了Web UI服务,以及查看各项Jindo系统状态。JindoTools工具集 Jindo DistCp工具针对小文件优化了Job Commiter的逻辑,大幅减少OSS...
StarRocks集群不需要依赖任何其他组件,易部署、易维护和极简的架构设计,降低了StarRocks系统的复杂度和维护成本,同时也提升了系统的可靠性和扩展性。管理员只需要专注于StarRocks系统,无需学习和管理任何其他外部系统。全面向量化引擎 ...
JindoCache:分布式缓存解决方案,通过在内存中缓存数据块,提高数据读取性能并减少对底层存储系统的压力。DLF-Auth:数据湖构建DLF产品提供,可以开启数据湖构建DLF的数据权限功能。集群管理 快速创建、扩容集群能力,支持弹性伸缩部署。...
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原JindoFS Block模式)...
JindoSDK:为EMR各种开源计算引擎提供统一的SDK,支持Java、C、C++和Python语言,提供多种访问和API接口,包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集:提供相关的工具集,例如Jindo tool和迁移工具Jindo DistCp。各种...
对比项 子项目 开源Clickhouse实时数仓 开源Hive离线数仓 阿里云Iceberg数据湖 系统架构 架构 计算存储一体 计算存储分离 计算存储分离 多计算引擎支持 不支持 支持 支持 数据存储在对象存储 不支持 支持不完善 支持 数据存储在HDFS 不支持...