您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。前置概念 阅读本文前,您可能需要了解如下概念:什么...
本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合,为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例 在E...
您可以将开源大数据服务部署在阿里云容器服务Kubernetes版(ACK)之上,利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,以便于您可以更加专注大数据任务本身。收费标准 阿里云EMR on ACK正式商业化后,将根据集群...
阿里云E-MapReduce SDK...下载地址 aliyun-java-sdk-core:访问 阿里云开发工具包(SDK)获取阿里云的SDK核心库。aliyun-java-sdk-emr:访问 aliyun-java-sdk-emr 获取E-MapReduce的部分依赖。说明 SDK包更新频繁,建议您获取最新版本的SDK。
说明 如果要对大批量复制数据进行验证,可以使用VerifyReplication工具验证,该工具使用详情请参见 Verifying Replicated Data。相关文档 开启串行Replication,请参见 Serial Replication。开启同步Replication,请参见 Synchronous ...
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问,同时使得应用程序能够通过一个公共接口连接...
2023年6月1日起,E-MapReduce Serverless StarRocks服务等级协议(SLA)生效。详情请参见 开源大数据平台E-MapReduce Serverless服务等级协议。
使用Hive UDF 使用文件传输工具,上传生成的JAR包至集群任意目录(本文以test目录为例)。上传JAR包至HDFS或OSS(本文以HDFS为例)。通过SSH方式登录集群,详情请参见 登录集群。执行以下命令,上传JAR包到HDFS。hadoop fs-put/test/...
SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文为您介绍SmartData(3.7.x)版本的新增内容。JindoFS 此版本中JindoFS的新特性如下表所示。特性 描述 JindoFS支持展示统计信息 SmartData 3.7.2及后续版本支持该特性。JindoFS...
关于阿里云EMR Serverless Spark产品和服务的相关问题,您可以通过以下渠道寻求支持和解决。...填写相关问题信息,产品分类 选择 开源大数据平台 E-MapReduce。单击 提交。售后服务SLA 售后服务SLA详情,请参见 企业支持计划 的内容。
本文为您介绍 开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce 的 RAM 代码(RamCode)为 emr-serverless-spark,支持的授权粒度为 操作级。权限策略...
如果是本地的元数据库,您可以使用集群上的Hue工具来管理。E-MapReduce后台RDS统一管理元数据的方式,仅限小容量的用户使用。对于大容量场景,建议您自建RDS作为统一元数据。默认限制为:总容量:200MiB。小时query数量限制:720000/h。...
内置函数清单 Serverless Spark 兼容开源内置函数的使用,开源具体函数说明请参见 Spark SQL Functions。此外,Serverless Spark 还支持多个特有内置函数,以下是特有支持的内置函数及其相关说明。函数 说明 PARQUET_SCHEMA 获取Parquet...
计费项 计费说明及付费方式 E-MapReduce服务费用 E-MapReduce会提供集群的多维度管理服务,包括页面的展示与控制、OpenAPI与SDK的支持、弹性伸缩、监控报警、运维工具和服务端后台的自动化运维等服务。关于E-MapReduce产品的详细定价,请...
E-Mapreduce(简称EMR)开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合,允许您在EMR控制台直接查询开源组件的日志。前提条件 已在EMR控制台上创建集群,具体操作请参见 创建集群。已 开通日志服务。使用限制 ...
EMR用户可以用于访问链接与端口,查看开源组件Web UI时的用户身份认证,也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP,则可以对用户管理中的用户进行权限控制。如果是高安全集群,EMR用户可以用于Kinit操作...
访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI,具体操作请参见 通过SSH隧道方式访问开源组件Web UI 和 访问链接与端口。NameNode服务地址 版本 访问地址 说明 hadoop 3.x http://${namenode_hostname}:9870${...
使用文件传输工具(SSH Secure File Transfer Client),上传JAR包至Master节点的/usr/local 目录。解压下载文件并安装。登录Master节点,详情请参见 登录集群。创建Python 3的安装目录。sudo mkdir-p/usr/local/python3 解压缩下载文件。...
产品优势如下:云原生极速计算引擎 内置Fusion Engine(Spark Native Engine),相对开源版本性能提升300%。内置Celeborn(Remote Shuffle Service),支持PB级Shuffle数据,计算资源总成本最高下降30%。开放化的数据湖架构 支持计算存储分离...
EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多...
EMR Serverless StarRocks不仅无缝兼容开源StarRocks,并且具备自动升级软件版本的功能,可省去手动管理版本的繁琐与风险。迁移方案详情,请参见 迁移StarRocks数据至EMR Serverless StarRocks。操作步骤 重要 集群扩容操作不会重启存量...
本文为您介绍 开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作(Action)、资源(Resource)和条件(Condition)。开源大数据平台 E-MapReduce 的 RAM 代码(RamCode)为 emr,支持的授权粒度为 资源级。权限策略通用结构 权限策略...
EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行...
异常诊断 当遇到开源组件状态异常或运维操作执行失败时,您只需描述异常情况,EMR AI助手将通过智能诊断工具快速排查异常,提供详细的诊断报告和解决方案,提升运维效率。操作唤起 EMR AI助手提供运维操作工具,如查看集群详情、集群扩容或...
EMR-5.11.0及之前版本,EMR-3.45.0及之前版本 重要 如果您的EMR版本较低,没有相应的LDAP认证配置按钮,则需要参考开源软件的社区文档进行手动配置,以启用LDAP认证功能。在 组件列表 区域,选择 SparkThriftServer 操作列的 enableLDAP。...
SmartData组件主要包括JindoFS,JindoTable和相关工具集。本文介绍SmartData(3.0.x)版本的更新内容。JindoFS存储优化 改进Jindo Namespace服务单机配置,单机情况下也可以更新并异步写入元数据至Tablestore。移除Jindo Namespace服务的...
背景信息 EMR Kudu支持社区1.10以及1.11版本,可以使用社区提供的Backup和Restore的工具进行数据的迁移。基本流程示意图如下所示。操作步骤 执行以下命令,查看待迁移Kudu表的名称列表。Kudu table list {YourKuduMasterAddress} 说明 本文...
本文为您介绍Kerberos的配置与基础操作,其中涵盖了核心配置文件krb5.conf和kdc.conf,详细说明了服务端如何使用KDC管理工具进行Principal管理及Keytab维护,以及客户端Ticket生命周期管理涉及的相关命令。前提条件 已创建开启Kerberos认证...
使用Beeline连接Kyuubi 您可以用Hive Beeline或者Kyuubi Beeline工具(EMR集群上的工具名称为 kyuubi-beeline)连接Kyuubi Server。以下示例使用Kyuubi Beeline工具连接Kyuubi。普通集群 方式一:使用Zookeeper连接Kyuubi服务(推荐)...
如果您是使用root用户,登录KDC(Kerberos的服务端程序)所在的master-1-1节点,则可以执行以下命令,直接进入admin工具。kadmin.local 当返回信息中包含如下信息时,表示已进入admin.local命令行。Authenticating as principal hadoop/...
EMR on ECS是指在ECS上运行EMR,它将EMR的大数据处理能力与ECS的弹性灵活优势相结合,使得您能够更加便捷地配置和管理EMR集群,同时支持多种开源和自研大数据组件,适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成,分别...
本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述,供您授权RAM身份时参考。什么是系统权限策略 权限策略是用语法结构描述的一组权限的集合,可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...
方式二:通过kubectl工具提交作业 通过kubectl连接Kubernetes集群,详情请参见 获取集群KubeConfig并通过kubectl工具连接集群。您也可以通过API等方式连接Kubernetes集群,详情请参见 使用Kubernetes API。新建 basic-emr-example.yaml ...
在使用API前,您需要准备好身份账号及访问密钥(AccessKey),才能有效通过客户端工具(SDK、CLI等)访问API。细节请参见 获取AccessKey。实例管理 API 标题 API概述 CreateInstanceV1 创建实例 本接口用于创建 Serverless StarRocks 实例...
Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎,相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容,您无需对现有代码做任何修改。在EMR Serverless Spark中,只需在创建会话时开启 使用...
Delta Lake是一个开源存储框架,旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能,并能够在现有的数据湖(如OSS、Amazon S3和HDFS)上整合流处理与批处理。此外,Delta Lake还支持多种引擎,如...
阿里云E-MapReduce(简称EMR)支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下,具有更高的性价比,帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势,以及在E-Mapreduce上倚天云服务器的...
连接Impala,详情请参见 Impala命令行工具。执行以下命令,新建表格。create table my_first_table(id bigint,name string,primary key(id))partition by hash partitions 16 stored as kudu tblproperties('kudu.num_tablet_replicas'='1'...
相较于原有解决方案,我们的解决方案运维更加简单,并且使用MySQL协议,可以对接各种BI工具,从而实现数据的快速分析和处理。实时数据分析场景解决方案 步骤如下:实时摄入:通过直接读取Kafka数据来实现。提供了Flink-Connector来支持...