当前大部分应用系统都基于开源软件构建,并且大部分的开源软件在倚天ARM平台上已经提供较好的应用生态,您可以直接使用操作系统提供的开源生态软件来安装部署。本文介绍Nginx、MySQL、Redis、TensorFlow、PyTorch等开源软件如何在倚天...
支持的开源组件有限。说明 该方式目前支持的服务如下:YARN、HDFS、SPARK2、SPARK3、FLINK、HBASE、IMPALA、TRINO、PRESTO、TEZ、RANGER。【外网访问】优点:开启端口少,只需开启Knox的端口8443。提供外部访问的能力,适合需要远程访问的...
客户安全责任 客户负责正确配置和使用阿里云提供的安全能力和产品服务,以构建其云上应用和业务系统的安全。包括以下内容:基于阿里云公告及提供的补丁,及时对EMR大数据服务组件进行漏洞修复。负责数据的备份、加密,并对EMR产品中使用的...
JindoFS OSS扩展和支持 支持在客户端进行Ranger权限集成,获取OSS各种操作,通过JindoFS服务记录进行Ranger权限检查。支持在客户端进行操作审计,获取OSS各种操作,通过JindoFS服务记录操作记录,作为审计用途。支持Hadoop Credentials ...
Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...
Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...
Hadoop回收站是Hadoop文件系统的重要功能,可以恢复误删除的文件和目录。本文为您介绍Hadoop回收站的使用方法。背景信息 回收站是Hadoop Shell或部分应用(Hive等)对Hadoop FileSystem API在客户端的封装,当客户端配置或者服务端配置打开...
基本概念 名称 描述 NameNode 用于管理文件系统的命名空间、维护文件系统的目录结构树以及元数据信息,记录写入的每个数据块(Block)与其归属文件的对应关系。此信息以命名空间镜像(FSImage)和编辑日志(EditsLog)两种形式持久化在本地...
应用场景 JindoFS外部客户端实现了Hadoop文件系统的接口,在用户程序跟E-MapReduce JindoFS Namespace服务网络相通的情况下,用户可以通过JindoFS外部客户端去访问JindoFS上存储的数据,但外部客户端不能利用E-MapReduce JindoFS的数据缓存...
DataFlow集群的Flink DataStream API完全兼容开源的Flink版本,关于Flink DataStream API的详细信息,请参见 Flink DataStream API Programming Guide。上下游存储(Connector)EMR-5.17.0&3.51.0及之后版本 开源Flink的上下游存储,详情请...
OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...
EMR on ECS服务角色允许E-MapReduce服务在配置资源或执行服务级别操作时调用其他阿里云服务。例如,服务角色用于在EMR集群启动时创建ECS实例。本文为您介绍EMR服务角色及其权限策略。EMR on ECS会使用到AliyunEMRDefaultRole、...
与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和...
在云监控的事件监控模块中,您可以订阅E-MapReduce数据开发相关的系统事件,监控集群的核心组件服务状态。云监控系统事件编码及其含义如下。事件编码 事件描述 事件类型 EMR-110401002 工作流已成功。FLOW EMR-110401003 工作流已提交。...
阿里云CLI 支持 阿里云命令行工具(Alibaba Cloud Command Line Interface)是在Alibaba Cloud SDK for Go之上构建的开源工具。阿里云CLI提供了对阿里云云产品OpenAPI的直接访问。您可以在命令行Shell中,使用 aliyun 命令与阿里云服务进行...
本文为您介绍如何进行RAM授权。...AliyunEmrServerlessSparkReadOnlyAccess:EMR Serverless Spark只读权限,包含了只读访问Spark服务的权限,具体策略详情请参见 AliyunEmrServerlessSparkReadOnlyAccess。单击 确认新增授权。单击 关闭。
默认的ECS应用角色关联的系统策略由阿里云创建和维护。因此,若服务要求发生变化,该策略将会自动更新。EMR on ECS版本不同时,默认的ECS应用角色不同:EMR-3.32.0之后版本和EMR-4.5.0之后版本、EMR-5.x系列版本:ECS应用角色默认使用...
EMR Serverless StarRocks会记录当前实例资源发生的系统事件,并自动将其同步到云监控服务。您可以在EMR控制台查看实例的事件,并在云监控控制台中设置事件告警规则,以便及时响应。事件类型 健康事件 健康事件是非人为引发的服务健康状态...
false SpotInstanceRemedy boolean 开启补齐抢占式实例后,当收到抢占式实例将被回收的系统消息时,伸缩组将尝试创建新的实例,替换掉将被回收的抢占式实例。取值范围:true:开启补齐抢占式实例。false:不开启补齐抢占式实例。默认值:...
E-MapReduce(简称EMR)会记录当前集群资源发生的系统事件,并自动将其同步到云监控服务。您可以在EMR控制台查看集群的事件,并在云监控控制台中设置事件告警。使用限制 当前仅展示EMR on ECS中DataLake、DataFlow、OLAP、DataServing和...
阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,做了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...
Apache Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。Hudi表类型 Hudi支持如下两种表类型:Copy On Write 使用Parquet格式存储数据。Copy On Write表的更新操作需要通过重写...
背景介绍 TPC-DS是一套决策支持系统的基准测试,它对决策支持系统的几个通用方面进行建模,包括查询和数据维护,用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道(实体店、互联网、目录)的销售和退货业务,除了建立相关...
如果结合上游系统的At-Least-Once语义,则可以实现导入数据的Exactly-Once语义。同步及异步导入 导入方式分为同步和异步。对于同步导入方式,返回结果即表示导入成功还是失败。而对于异步导入方式,返回成功仅代表作业提交成功,不代表数据...
Apache Flume是一个分布式、可靠和高可用的系统,可以从大量不同的数据源有效地收集、聚合和移动日志数据,从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集,也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...
false SpotInstanceRemedy boolean 开启后,当收到抢占式实例将被回收的系统消息时,伸缩组将尝试创建新的实例,替换掉将被回收的抢占式实例。取值范围:true:开启补齐抢占式实例。false:不开启补齐抢占式实例。默认值:false。true ...
资源估算 CU对应Serverless Spark底层系统的CPU计算能力。一个计算任务的CU使用量取决于该任务实际处理的数据量、计算复杂程度、处理的数据分布情况,以及是否开启 Fusion引擎 加速。开启Fusion引擎加速后,当前不会有额外的资源成本增加,...
Spark中读写JindoFS上的数据,与处理其他文件系统的数据类似,以RDD操作为例,直接使用jfs的路径即可:val a=sc.textFile("jfs:/emr-jfs/README.md")写入数据:scala a.collect().saveAsTextFile("jfs:/emr-jfs/output")SparkSQL 创建数据...
文件中包含了整个文件系统的命名空间、文件、Block和文件系统配额等元数据信息。HDFS支持通过命令行下载整个fsimage文件(xml形式)到本地,以便离线分析元数据信息,而JindoFS无需下载元数据信息至本地。上传文件系统元数据至OSS 使用...
灵活扩缩容:支持根据业务需求快速增加或减少特定计算组内的节点数量,无需重新分配数据,既满足了业务增长的需要,又减少了对现有业务的干扰,提升了系统的可扩展性和灵活性。高效的弹性伸缩:计算组内可以配置弹性伸缩规则,按需自动的...
HBASE-HDFS服务 HDFS作为Hadoop生态系统的核心组件,提供了可靠的分布式文件存储功能。HBASE-HDFS服务通过使用HDFS作为其底层数据存储解决方案,继承了HDFS的所有原生特性和优势,未对其基本架构进行修改。HDFS更多信息介绍,请参见 HDFS...
在使用EMR StarRocks时,您可以根据业务负载和性能需求的动态变化,灵活地增加或减少集群中Backend(BE)节点的数量,以实现资源的最优配置和系统的高效运行。本文为您介绍如何扩容和缩容StarRocks集群的BE节点。前提条件 已创建集群,详情...
例如,既支持与Block模式一致的使用方式,也支持原有OSS文件系统的使用方式,以满足用户不同的需要,详情请参见 JindoFS缓存模式使用说明。支持权限 Block模式支持Unix权限和Ranger权限两种文件系统权限功能:Unix权限:可以使用文件的777...
执行以下命令,查看Jindo文件系统的根目录下的文件和目录。hadoop fs-ls jindo:/master-1-1:8101/例如,返回/oss 目录。bashdrwxrwxr-x-root root 0 1970-01-01 00:00 jindo:/oss 您可以执行以下命令,访问/oss 路径下的文件和目录的详细...
特性 描述 JindoFS支持多云和S3协议及缓存加速 JindoFS实现对S3协议的支持,具备访问亚马逊S3及其他S3协议系统的能力,并且还支持缓存加速功能,使访问更高效。JindoFS支持HDFS缓存加速 JindoFS访问HDFS新增支持缓存加速,使访问更高效。...
同时,JindoFS也提供了外部客户端,能够从集群外部访问建立在E-MapReduce集群内的JindoFS文件系统。数据以Block形式存储在后端存储OSS上,本地Namespace服务维护元数据信息,该模式在性能上较优,无论是数据性能还是元数据性能。应用场景 E...
EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。产品介绍 阿里云EMR...
单击 部署客户端配置。在弹出的对话框中,输入 执行原因,单击 确定。在 确认 对话框中,单击 确定。由于ACK控制台上 访问链接与端口 不可用,您可通过以下配置访问开源组件的Web UI。登录 容器服务管理控制台。在 集群列表 页面,单击EMR ...
YARN是Hadoop系统的核心组件,主要功能包括负责在集群中的资源管理,负责对作业进行调度运行以及监控。基本概念 名称 描述 ResourceManager 负责集群的资源管理与调度,为运行在YARN上的各种类型作业分配资源。非HA集群部署在EMR的Master...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的 enableLDAP。...