背景介绍 TPC-DS是一套决策支持系统的基准测试,它对决策支持系统的几个通用方面进行建模,包括查询和数据维护,用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道(实体店、互联网、目录)的销售和退货业务,除了建立相关...
Tablestore和Raft的方案,实现了元数据服务的高可用,可以通过多个Namespace服务提供HA方案。各方案详情请参见:使用Tablestore作为存储后端 使用Raft-RocksDB-Tablestore作为存储后端 使用RocksDB作为元数据后端 使用模式优化 支持块存储...
JindoCache存储加速系统不仅提供了对多种数据源的缓存加速功能,还能将不同数据源统一管理,并将它们置于同一个命名空间下,从而实现统一访问。前提条件 已完成JindoCache的配置,详情请参见 JindoCache加速OSS透明缓存 或 JindoCache加速...
listCacheSet 功能说明:列出当前系统里所有的CacheSet信息。命令:jindocache-listCacheSet refreshCacheSet 功能说明:更新CacheSet策略,之前设定的但是在新的策略文件中不存在的CacheSet将被删除。命令:jindocache-refreshCacheSet ...
文件中包含了整个文件系统的命名空间、文件、Block和文件系统配额等元数据信息。HDFS支持通过命令行下载整个fsimage文件(xml形式)到本地,以便离线分析元数据信息,而JindoFS无需下载元数据信息至本地。上传文件系统元数据至OSS 使用...
特性 描述 JindoSDK支持本地缓存(Local)策略 JindoSDK支持本地缓存策略,使得在未部署SmartData服务的情况下,也能支持本地数据缓存,提高OSS数据的访问效率。JindoSDK支持和FileSystem平级的Object Store API JindoSDK在已有FileSystem...
本文为您介绍如何进行RAM授权。...AliyunEmrServerlessSparkReadOnlyAccess:EMR Serverless Spark只读权限,包含了只读访问Spark服务的权限,具体策略详情请参见 AliyunEmrServerlessSparkReadOnlyAccess。单击 确认新增授权。单击 关闭。
Spark处理JindoFS上的数据,主要有两种方式,一种是直接调用文件系统接口使用;一种是通过SparkSQL读取存在JindoFS的数据表。JindoFS配置 以EMR-3.35版本为例,创建名为 emr-jfs 的命名空间,相关配置参数示例如下:jfs.namespaces=emr-jfs...
同时,JindoFS也提供了外部客户端,能够从集群外部访问建立在E-MapReduce集群内的JindoFS文件系统。数据以Block形式存储在后端存储OSS上,本地Namespace服务维护元数据信息,该模式在性能上较优,无论是数据性能还是元数据性能。应用场景 E...
EMR Serverless StarRocks兼容开源StarRocks的SQL语法和函数,您可以参考以下文档进行开发设计。StarRocks版本 参考文档 3.3系列 SQL参考 函数参考 3.2系列 SQL参考 函数参考 2.5系列 SQL参考 函数参考
EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。产品介绍 阿里云EMR...
加密系统盘后,系统盘上的操作系统、程序文件及其他系统相关数据将会被加密。如果您的业务存在安全合规要求,则可以使用该功能。您无需自建和维护密钥管理基础设施,就能保护数据的隐私性和自主性,为业务数据提供安全边界。背景信息 系统...
前提条件 已创建E-MapReduce(简称EMR)的Hadoop或Druid集群,并选择了Superset服务,详情请参见 创建集群。使用限制 Superset默认安装在emr-header-1节点,暂不支持HA。Superset不支持通过KNOX访问Web UI。在使用Superset前,确保您的主机...
您可以通过该IP地址及其对应的端口访问相关服务的Web UI。Spark 集群Web UI访问地址:http://IP:18080 。Presto 集群Web UI访问地址:https://IP:8085 。说明 Presto 集群访问Web UI需要输入用户名和密码。用户名和密码的相关设置,请参见 ...
EMR-3.27.x及之前版本使用Flink社区开源版本,EMR-3.27.x之后版本使用完全兼容开源Flink的企业版(VVR)。本文介绍如何配置Flink(VVR)类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品,拥有全球统一商业化品牌。VVR提供...
当Leader节点异常退出时,ZooKeeper集群会重新发起选举,选出新的Leader节点,保证整体服务的高可用。数据组织 ZooKeeper的数据组织方式与标准文件系统类似,组织成类似文件树的结构,在ZooKeeper中使用znode(ZooKeeper node)来描述文件...
阿里云负责底层计算、存储资源、作业调度服务的可用性和可靠性。用户仅需关注作业逻辑与数据开发。OLAP数据分析、湖仓加工与分析 需要高并发查询、多维分析,兼容 MySQL 协议。EMR Serverless StarRocks 通过向量化、MPP架构以及全新CBO等...
系统策略可进一步细分为产品系统策略、服务角色策略和服务关联角色策略三类。部分云产品仅提供三类策略中的一类或两类,请以本文实际展示的策略类型为准。产品系统策略 AliyunEMRNotebookAdmin 您可以将 AliyunEMRNotebookAdmin 策略授权给...
生态对接 批/流任务支持对接外部Ranger服务。通过Kyuubi Gateway,以兼容开源Kyuubi的方式提交SQL任务。数据目录 支持使用RAM用户(子账号)身份访问DLF。支持访问DLF 2.0 Hive Catalog。资源观测 支持观测工作空间、队列的资源消耗情况。...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的 enableLDAP。...
调试系统事件报警规则 创建系统事件报警规则后,您可以使用系统事件的调试功能,验证系统事件报警规则中设置的消息服务队列、函数计算、URL回调和日志服务是否能正常被触发。使用限制:您只能调试系统事件的报警规则,且该规则必须关联指定...
如果数据源为OSS、OSS-HDFS、Apache HDFS,请先完成如下配置:阿里云OSS/OSS-HDFS服务透明缓存加速 Apache HDFS透明缓存加速 如果数据源是阿里云文件存储NAS,则需要保证挂载在各个节点的相同路径下(NS和STS服务所在节点)。说明 本文以...
鉴于阿里云ECS所使用的部分操作系统镜像即将停止,或已处于停止支持状态,这类情况将对EMR的正常运行与维护产生直接影响。本文为您介绍阿里云ECS中即将或已停止支持的操作系统,以及受影响的EMR版本。即将或已停止支持的操作系 第三方操作...
如果您需要修改当前的分配情况,可以在Alluxio服务的配置页面,搜索以 alluxio.worker.tieredstore 开头的配置项并修改。缓存详细信息,请参见 缓存。缓存策略 客户端写新的数据块时,默认情况下会将其写入level0层存储。如果level0没有...
HDFS概述 HDFS常用命令 JVM内存调优 HBase HBase是一种分布式、面向列的开源数据库,其基于Hadoop文件系统构建,旨在为大型数据集提供低延迟的随机读写访问和高可靠性存储。使用HBase快照 使用HBase Shell 常见问题和故障诊断 Celeborn ...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
本文介绍使用JindoFS SDK时,E-MapReduce(简称EMR)集群外如何以免密方式访问E-MapReduce JindoFS的文件系统。前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除...
使用External Catalog查询数据时,StarRocks会用到外部数据源的两个组件:元数据服务:用于将元数据暴露出来供StarRocks的FE进行查询规划。存储系统:用于存储数据。数据文件以不同的格式存储在分布式文件系统或对象存储系统中。当FE将生成...
建议:您可以在EMR控制台HDFS服务的 配置 页面,单击 hdfs-site 页签,然后单击 新增配置项,新增参数 dfs.namenode.fs-limits.max-directory-items,以设置单个目录下可以存储的文件数目,最后保存配置。添加参数详情,请参见 管理配置项...
前提条件 已创建EMR-3.45.0及后续版本和EMR-5.11.0及后续版本,且选择了Presto服务的集群,详情请参见 创建集群。使用方式 Hive连接器支持多种分布式存储系统,包括HDFS、阿里云OSS或Amazon S3的兼容系统,都可以使用Hive连接器查询。访问...
发行版本生命周期服务策略(Runtime Lifecycle Policy,RLP)描述EMR Serverless StarRocks从正式交付用户使用,到最终停止对外服务的过程。EMR Serverless StarRocks的RLP详情如下图所示。里程碑 定义 阶段时间点 说明 General ...
标准集群(非高安全集群),如果需要设置执行用户,请确保YARN服务包含如下配置项:yarn.nodemanager.container-executor.class=org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor yarn.nodemanager.linux-container-...