本文为您介绍在E-MapReduce(简称EMR)上使用HDFS进行实时计算场景化配置的一些建议,以便优化HDFS的稳定性。调整DataNode Xceiver连接数 背景:通常实时计算框架会打开较多的HDFS文件写入流(Stream),方便不断地向HDFS写入新的数据。...
当集群不再使用时,您可以释放集群以删除对应的Namespace以及该Namespace下的所有软件服务,但不会释放实际的物理资源。本文为您介绍如何释放集群。前提条件 请确保待释放集群的状态是创建中、运行中或空闲中。操作步骤 登录 EMR on ACK。...
应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三种存储系统和开源OSS各自的特点。特点 开源OSS E-...
Apache Flume是一个分布式、可靠和高可用的系统,可以从大量不同的数据源有效地收集、聚合和移动日志数据,从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集,也可以通过定制Source来传输其他不同类型的数据。...
EMR Kafka集群管控页面显示Kafka相关组件异常,无法通过重启等方式恢复时,需要排查异常原因。本文介绍如何排查EMR Kafka服务异常和常见的异常处理方法。排查异常 说明 本文以Kafka Broker服务为例说明。登录EMR on ECS控制台,确认服务...
访问Impala Web UI 您可以通过SSH隧道和控制台两种方式访问Impala Web UI,详情请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。说明 使用Knox访问UI的前提条件是,Master节点必须具备公网IP地址,并且只允许对Catalogd和...
Id String 是 C-D7958B72E59B*集群ID。您可以调用 ListClusters 接口查看集群的ID。Name String 是 bi_hadoop 集群新的名称,要求和创建集群时一致。长度限制为1-64个字符,只允许包含中文、字母、数字、短划线(-)和下划线(_)。...
Id String 是 C-D7958B72E59B*集群ID。您可以调用 ListClusters 接口查看集群的ID。RegionId String 是 cn-hangzhou 区域ID。您可以调用 DescribeRegions 接口查看最新的阿里云地域列表。ForceRelease Boolean 否 true 正常释放时,如果您...
返回数据 名称 类型 示例值 描述 RequestId String 991B3409-6C8D-48CB-903C-3B9C166E17A8 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=ReleaseClusterHostGroup&ClusterId=C-D7958B72E59B*&HostGroupId=G-EF460256A55F*&RegionId=...
IMPALASHELL任务类型用于提交Impala任务,对数据进行查询、分析和处理操作。本文为您介绍创建IMPALASHELL类型任务时涉及的参数。参数说明 参数 说明 节点名称 任务的名称。一个工作流定义中的节点名称是唯一的。运行标志 正常(默认):...
本文为您介绍如何修改和添加配置项。前提条件 已在E-MapReduce上创建on ACK的集群,创建详情请参见 快速入门。修改配置项 进入配置页面。登录 EMR on ACK控制台。在EMR on ACK页面,单击目标集群操作列的 配置。在搜索框中,输入待修改的...
Spark SQL提供了很多内建函数来满足您的计算需求,您也可以通过创建自定义函数(UDF)来满足不同的计算需求。UDF在使用上与普通的内建函数类似。本文为您介绍Spark SQL中使用Hive自定义函数的流程。前提条件 已在Hive中创建了UDF,详情请...
当前支持的编程语言包括C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Go、Cocoa、JavaScript、Node.js和Smalltalk等。HBase Thrift Server特性 默认配置:EMR HBase集群默认在主节点上启动Thrift Server服务,服务端口为9091...
本文为您介绍阿里云地域的概念、选择指导以及阿里云EMR Serverless Spark支持的地域列表。背景信息 地域(Region):指数据中心所在的地理区域,通常按照数据中心所在的城市划分。例如,华北2(北京)地域表示数据中心所在的城市是北京。...
按量付费的实例是在使用后才支付费用不涉及退款。包年包月的实例因根据购买时长预先支付了费用,如果不需要使用可以申请退款。本文介绍EMR Serverless StarRocks包年包月实例的 退款规则、退款方式和退款流向。退款规则 EMR Serverless ...
ClusterId String 是 C-0E995C0EE7E5*集群ID。您可以调用 ListClusters 查看集群的ID。Id String 是 116 资源池ID。您可以调用 ListResourcePool 查看资源池ID。RegionId String 是 cn-hangzhou 地域ID。可以调用 DescribeRegions 查看最新...
ClusterId String 是 C-F32FB31D8295*集群ID。您可以调用 ListClusters 查看集群的ID。ProjectId String 是 FP-E3F1523F8FC1*项目ID。您可以调用 ListFlowProject 查看项目的ID。RegionId String 是 cn-hangzhou 地域ID。您可以调用 ...
ClusterId String 是 C-FDB726F71863*关联集群ID。您可以调用 ListClusters 查看集群的ID。ProjectId String 是 FP-179332E88F52*所属项目ID。您可以调用 ListFlowProject 查看项目的ID。RegionId String 是 cn-hangzhou 地域ID。您可以...
本文介绍如何配置Shell类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。...在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 数据开发 页签。单击待编辑项目所在行的 作业编辑。...
ClusterId String 是 C-0E995C0EE7E5*集群ID。您可以调用 ListClusters 接口查看集群的ID。RegionId String 是 cn-hangzhou 地域ID。您可以调用 DescribeRegions 接口查看最新的阿里云地域列表。ResourcePoolId Long 是 115 资源池ID。您...
本文介绍如何配置Hive SQL类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。...在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 数据开发 页签。单击待编辑项目所在行的 作业编辑...
ClusterId String 是 C-A15B381E446C*集群ID。您可以调用 ListClusters 接口查看集群的ID。RegionId String 是 cn-hangzhou 地域ID。您可以调用 DescribeRegions 接口查看最新的阿里云地域列表。DirectType Boolean 否 true 保留字段。...
StarRocks从3.1版本开始支持Paimon Catalog。Paimon Catalog是一种External Catalog。通过Paimon Catalog,您可以直接查询Paimon中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Paimon Catalog。...
ClusterId String 是 C-EBD62A703A430E23 集群ID。您可以调用 ListClusters 查看集群的ID。RegionId String 是 cn-hangzhou 地域ID。您可以调用 DescribeRegions 查看最新的阿里云地域列表。ResourceQueueId String 是 248 资源队列ID。...
Iceberg Catalog是一种External Catalog。通过Iceberg Catalog,您可以直接查询Iceberg中的数据。本文为您介绍如何在E-MapReduce的StarRocks集群上创建和查看Iceberg Catalog。前提条件 已创建包含Iceberg服务的集群,例如DataLake或Custom...
如果您确认不再使用EMR集群,可以选择释放该集群。释放后,集群将不再产生费用。但请注意,一旦集群被释放,相关数据将无法恢复,因此请务必谨慎操作。本文将为您介绍如何释放集群。前提条件 按量付费的集群,请确保待释放集群的状态是创建...
本文介绍当高可用集群中的ZKFC(ZooKeeper Failover Controller)日志出现 Mismatched address stored in ZK 异常时,导致HDFS无法选出Active NameNode问题的原因及解决方案。具体报错 java.lang.RuntimeException:Mismatched address ...
本文介绍如何通过Spark Streaming消费 轻量消息队列(原 MNS)SMQ(Simple Message Queue(formerly MNS))中的数据,并统计每个Batch内的单词个数。Spark接入 SMQ 示例代码如下。val conf=new SparkConf().setAppName("Test MNS Streaming...
SmartData的2.6.0-2.7.2版本,包含多个重大特性的发布以及大幅的性能优化。例如,Namespace服务后端存储支持Tablestore(OTS)以及Raft、Namespace服务支持HA、读写性能优化、块存储模式和缓存模式使用方式优化等。元数据服务后端存储方案...
E-MapReduce默认提供了Hive环境,您可以直接使用Hive来创建和操作创建的表和数据。前提条件 已创建好项目,详情请参见 项目管理。已准备好Hive SQL的脚本,并上传到OSS的某个目录中(例如 oss:/path/to/uservisits_aggre_hdfs.hive)。...
包含Trino组件的集群,当查询速度不符合数据处理要求,或某些大查询超出内存总量限制,且调整配置参数也不足以应对使用场景时,可以尝试进行扩容,通过新增Worker节点数的方式来增加Worker数量,从而满足业务需求。当业务高峰期已过或者当...
本文介绍如何配置Spark Streaming类型的作业。前提条件 已创建好项目,详情请参见 项目管理。已准备好作业所需的资源,以及作业要处理的数据。操作步骤 进入数据开发的项目列表页面。...在顶部菜单栏处,根据实际情况选择地域 和资源组。...
返回数据 名称 类型 示例值 描述 RequestId String F2BF8586-045D-4104-B00C-44A4AA619C05 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=DeleteClusterTemplate&BizId=CT-35498C56B3F1*&RegionId=cn-hangzhou & 公共请求参数 正常...
c-b933c5aac8fe*Users array object 是 用户列表。数组元数个数 N 的取值范围:0~10。object 否 UserName string 是 用户名。xi Password string 是 用户密码。Ab123 返回参数 名称 类型 描述 示例值 object 返回数据 RequestId string ...
返回数据 名称 类型 示例值 描述 RequestId String 26CE1B1C-C2FE-49DC-8CDF-5D9055B663A2 请求ID。示例 请求示例 http(s):/[Endpoint]/?Action=DeleteResourcePool&ClusterId=C-EBD62A703A43*&RegionId=...
目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...
C-8CFEBCCFFEF5*NextToken string 否 用来标记当前开始读取的位置,置空表示从头开始。MaxResults integer 否 读取的最大数据记录数量。10 ApplicationNames array 否 应用名列表。String string 否 应用名。KNOX ComponentNames array ...
ClusterId String 是 C-DCEE11B49C8F*集群ID。您可以调用 ListClusters 查看集群的ID。ProjectId String 是 FP-ED2F3E844FE3*项目ID。您可以调用 ListFlowProject 查看项目的ID。RegionId String 是 cn-hangzhou 地域ID。您可以调用 ...
44AE-8B4E-021CBCA3A26C/RequestId DefaultSchedulerType CAPACITY_SCHEDULER/DefaultSchedulerType CurrentSchedulerType/JSON 格式 {"SupportSchedulerType":"CAPACITY_SCHEDULER,FAIR_SCHEDULER","RequestId":"7DEE7967-3F9E-44AE-8B4E-...
ClusterId String 是 C-EBD62A703A43*集群ID。您可以调用 ListClusters 查看集群的ID。RegionId String 是 cn-hangzhou 地域ID。您可以调用 DescribeRegions 查看最新的阿里云地域列表。SchedulerType String 是 CAPACITY_SCHEDULER 资源...