HBASE-HDFS服务 HDFS作为Hadoop生态系统的核心组件,提供了可靠的分布式文件存储功能。HBASE-HDFS服务通过使用HDFS作为其底层数据存储解决方案,继承了HDFS的所有原生特性和优势,未对其基本架构进行修改。HDFS更多信息介绍,请参见 HDFS...
Hue是一个开源的Web界面,用于与Apache Hadoop生态系统进行交互。Hue Superset Superset仅对存量用户开放。Superset是一个数据可视化工具,提供丰富的可视化和仪表盘功能。Superset 计算引擎 EMR支持多种主流计算引擎,如批处理、交互分析...
例如,既支持与Block模式一致的使用方式,也支持原有OSS文件系统的使用方式,以满足用户不同的需要,详情请参见 JindoFS缓存模式使用说明。支持权限 Block模式支持Unix权限和Ranger权限两种文件系统权限功能:Unix权限:可以使用文件的777...
客户安全责任 客户负责正确配置和使用阿里云提供的安全能力和产品服务,以构建其云上应用和业务系统的安全。包括以下内容:基于阿里云公告及提供的补丁,及时对EMR大数据服务组件进行漏洞修复。负责数据的备份、加密,并对EMR产品中使用的...
本文为您介绍Taildir Source、File Channel和HDFS Sink配置中的一些常用参数调优。Taildir Source 参数 描述 filegroups 将一个目录拆分为多个,增加Source读取并发。batchSize 默认值为100。一次性读取数据行数,适当调大该参数值可以提高...
listCacheSet 功能说明:列出当前系统里所有的CacheSet信息。命令:jindocache-listCacheSet refreshCacheSet 功能说明:更新CacheSet策略,之前设定的但是在新的策略文件中不存在的CacheSet将被删除。命令:jindocache-refreshCacheSet ...
Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...
Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...
Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...
特性 描述 JindoFS支持多云和S3协议及缓存加速 JindoFS实现对S3协议的支持,具备访问亚马逊S3及其他S3协议系统的能力,并且还支持缓存加速功能,使访问更高效。JindoFS支持HDFS缓存加速 JindoFS访问HDFS新增支持缓存加速,使访问更高效。...
功能变更 JindoFS存储优化 JindoFS缓存优化 JindoTable计算优化 JindoManager系统管理 JindoTools工具集 JindoFS生态支持 JindoFS存储优化 支持文件的checksum功能,对齐开源HDFS checksum相关接口,支持MD5MD5CRC和COMPOSITE_CRC两种算法...
移除一些过时的默认配置。EMR-3.26.3 Hive 2.3.5 hcatalog表支持direct committer。EMR-3.25.0 Hive 2.3.5 修复自动LOCAL模式下MR任务执行失败的问题 EMR-3.24.0 Hive 2.3.5 增加SQL兼容性检查功能逻辑。Hive2.3.5+Hadoop2.8.5组合发布。...
JindoData是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和AI生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现,主要包括JindoFS存储系统(原JindoFS Block模式)、...
同时,它100%兼容开源Spark生态,能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark,企业可以更加专注于数据处理分析及模型训练的优化,从而提升工作效率。前置概念 阅读本文前,您可能需要了解如下概念:什么是云原生?...
E-MapReduce Doctor(简称EMR Doctor)是E-MapReduce产品自研的面向开源大数据集群的智能运维诊断系统。通过EMR Doctor(即 监控诊断 页面的“健康诊断”和“集群日报”功能)可以全局了解集群的健康状况和动态走势,为运维决策和资源优化...
本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权 RAM 身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权 RAM 身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
开源大数据平台E-MapReduce(Elastic MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。
本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...
EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数,您可以参考以下文档进行开发设计。StarRocks版本 参考文档 3.3系列 SQL参考 函数参考 3.2系列 SQL参考 函数参考 2.5系列 SQL参考 函数参考
OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...
加密系统盘后,系统盘上的操作系统、程序文件及其他系统相关数据将会被加密。如果您的业务存在安全合规要求,则可以使用该功能。您无需自建和维护密钥管理基础设施,就能保护数据的隐私性和自主性,为业务数据提供安全边界。背景信息 系统...
为了更好地融入开源生态,提供更加开放和多样化的计算服务,阿里云E-MapReduce(简称EMR)从EMR-5.17.0和EMR-3.51.0版本开始,将Flink引擎版本从Flink企业版Ververica Runtime(简称VVR)调整为Flink社区开源版本,同时引入RocksDB作为存储...
您需要在SSH连接中创建隧道以查看开源组件的Web页面,详情请参见 通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均为admin,请您登录后及时修改密码。说明 首次登录后默认是英文界面。在Superset页面,单击右上角的 图标,选择 ...
本文描述EMR Workbench支持的所有系统权限策略及其对应的权限描述,供您授权 RAM 身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问控制(RAM)...
选择 超时告警 策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。选择 超时失败 策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。任务提交节点 仅支持 EMR集群worker节点(提交到Yarn执行),...
应用程序可以通过统一命名空间和接口来访问多个独立的存储系统,从而实现只连接JindoFSx就可与不同的底层存储系统进行通信。前提条件 已在E-MapReduce上创建EMR-3.42.0及后续版本、EMR-5.6.0及后续版本的集群,具体操作请参见 创建集群。...
EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...
通过Kyuubi Gateway,以兼容开源Kyuubi的方式提交SQL任务。数据目录 支持使用RAM用户(子账号)身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测 支持观测工作空间、队列的资源消耗情况。运行环境 Spark Submit工具支持通过配置参数-...
高性能计算引擎:内置 Fusion Engine,性能可达开源 Spark 的 4 倍;支持 Remote Shuffle Service Celeborn,提供 PB 级 Shuffle 能力并降低计算成本。高扩展性与弹性:基于阿里云 Serverless 底座,提供秒级资源弹性伸缩,按实际计算资源...
鉴于阿里云ECS所使用的部分操作系统镜像即将停止,或已处于停止支持状态,这类情况将对EMR的正常运行与维护产生直接影响。本文为您介绍阿里云ECS中即将或已停止支持的操作系统,以及受影响的EMR版本。即将或已停止支持的操作系 第三方操作...
选择 超时告警 策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。选择 超时失败 策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。任务提交节点 仅支持 EMR集群worker节点(提交到Yarn执行),...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...