im工具开源-im工具开源文档介绍内容-移动阿里云

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。前置概念阅读本文前，您可能需要了解如下概念：什么...

开源大数据平台 E-MapReduce系统权限策略参考

本文描述开源大数据平台E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

SDK下载

阿里云E-MapReduce SDK...下载地址 aliyun-java-sdk-core：访问阿里云开发工具包（SDK）获取阿里云的SDK核心库。aliyun-java-sdk-emr：访问 aliyun-java-sdk-emr 获取E-MapReduce的部分依赖。说明 SDK包更新频繁，建议您获取最新版本的SDK。

HBase Replication

说明如果要对大批量复制数据进行验证，可以使用VerifyReplication工具验证，该工具使用详情请参见 Verifying Replicated Data。相关文档开启串行Replication，请参见 Serial Replication。开启同步Replication，请参见 Synchronous ...

Alluxio（仅对存量用户开放）

Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁，将数据从存储层移动到距离数据驱动型应用更近的位置，从而能够更容易被访问，同时使得应用程序能够通过一个公共接口连接...

E-MapReduce Serverless StarRocks服务等级协议（SLA...

2023年6月1日起，E-MapReduce Serverless StarRocks服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

SparkSQL UDF基础操作

使用Hive UDF 使用文件传输工具，上传生成的JAR包至集群任意目录（本文以test目录为例）。上传JAR包至HDFS或OSS（本文以HDFS为例）。通过SSH方式登录集群，详情请参见登录集群。执行以下命令，上传JAR包到HDFS。hadoop fs-put/test/...

SmartData 3.7.x版本简介

SmartData组件主要包括JindoFS、JindoTable和相关工具集。本文为您介绍SmartData（3.7.x）版本的新增内容。JindoFS 此版本中JindoFS的新特性如下表所示。特性描述 JindoFS支持展示统计信息 SmartData 3.7.2及后续版本支持该特性。JindoFS...

技术支持的范围和方式

关于阿里云EMR Serverless Spark产品和服务的相关问题，您可以通过以下渠道寻求支持和解决。...填写相关问题信息，产品分类选择开源大数据平台 E-MapReduce。单击提交。售后服务SLA 售后服务SLA详情，请参见企业支持计划的内容。

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr-serverless-spark，支持的授权粒度为操作级。权限策略...

Hive统一元数据

如果是本地的元数据库，您可以使用集群上的Hue工具来管理。E-MapReduce后台RDS统一管理元数据的方式，仅限小容量的用户使用。对于大容量场景，建议您自建RDS作为统一元数据。默认限制为：总容量：200MiB。小时query数量限制：720000/h。...

内置函数

内置函数清单 Serverless Spark 兼容开源内置函数的使用，开源具体函数说明请参见 Spark SQL Functions。此外，Serverless Spark 还支持多个特有内置函数，以下是特有支持的内置函数及其相关说明。函数说明 PARQUET_SCHEMA 获取Parquet...

计费项

计费项计费说明及付费方式 E-MapReduce服务费用 E-MapReduce会提供集群的多维度管理服务，包括页面的展示与控制、OpenAPI与SDK的支持、弹性伸缩、监控报警、运维工具和服务端后台的自动化运维等服务。关于E-MapReduce产品的详细定价，请...

管理日志

E-Mapreduce（简称EMR）开源组件运行过程中会产生大量的日志。日志管理功能将EMR与日志服务SLS相结合，允许您在EMR控制台直接查询开源组件的日志。前提条件已在EMR控制台上创建集群，具体操作请参见创建集群。已开通日志服务。使用限制 ...

OpenLDAP 用户管理

EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户身份认证，也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP，则可以对用户管理中的用户进行权限控制。如果是高安全集群，EMR用户可以用于Kinit操作...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI，具体操作请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。NameNode服务地址版本访问地址说明 hadoop 3.x http://${namenode_hostname}:9870${...

Python使用说明

使用文件传输工具（SSH Secure File Transfer Client），上传JAR包至Master节点的/usr/local 目录。解压下载文件并安装。登录Master节点，详情请参见登录集群。创建Python 3的安装目录。sudo mkdir-p/usr/local/python3 解压缩下载文件。...

EMR Serverless Spark商业化公告

产品优势如下：云原生极速计算引擎内置Fusion Engine(Spark Native Engine)，相对开源版本性能提升300%。内置Celeborn（Remote Shuffle Service），支持PB级Shuffle数据，计算资源总成本最高下降30%。开放化的数据湖架构支持计算存储分离...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性，并详述EMR Serverless StarRocks在此基础之上所引入的诸多...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks，并且具备自动升级软件版本的功能，可省去手动管理版本的繁琐与风险。迁移方案详情，请参见迁移StarRocks数据至EMR Serverless StarRocks。操作步骤重要集群扩容操作不会重启存量...

授权信息

本文为您介绍开源大数据平台 E-MapReduce 为 RAM 权限策略定义的操作（Action）、资源（Resource）和条件（Condition）。开源大数据平台 E-MapReduce 的 RAM 代码（RamCode）为 emr，支持的授权粒度为资源级。权限策略通用结构权限策略...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

智能运维：EMR AI助手快速上手

异常诊断当遇到开源组件状态异常或运维操作执行失败时，您只需描述异常情况，EMR AI助手将通过智能诊断工具快速排查异常，提供详细的诊断报告和解决方案，提升运维效率。操作唤起 EMR AI助手提供运维操作工具，如查看集群详情、集群扩容或...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 SparkThriftServer 操作列的 enableLDAP。...

SmartData 3.0.x版本简介

SmartData组件主要包括JindoFS，JindoTable和相关工具集。本文介绍SmartData（3.0.x）版本的更新内容。JindoFS存储优化改进Jindo Namespace服务单机配置，单机情况下也可以更新并异步写入元数据至Tablestore。移除Jindo Namespace服务的...

数据迁移

背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区提供的Backup和Restore的工具进行数据的迁移。基本流程示意图如下所示。操作步骤执行以下命令，查看待迁移Kudu表的名称列表。Kudu table list {YourKuduMasterAddress} 说明本文...

Kerberos基础使用

本文为您介绍Kerberos的配置与基础操作，其中涵盖了核心配置文件krb5.conf和kdc.conf，详细说明了服务端如何使用KDC管理工具进行Principal管理及Keytab维护，以及客户端Ticket生命周期管理涉及的相关命令。前提条件已创建开启Kerberos认证...

连接Kyuubi

使用Beeline连接Kyuubi 您可以用Hive Beeline或者Kyuubi Beeline工具（EMR集群上的工具名称为 kyuubi-beeline）连接Kyuubi Server。以下示例使用Kyuubi Beeline工具连接Kyuubi。普通集群方式一：使用Zookeeper连接Kyuubi服务（推荐）...

使用Kerberos认证

如果您是使用root用户，登录KDC（Kerberos的服务端程序）所在的master-1-1节点，则可以执行以下命令，直接进入admin工具。kadmin.local 当返回信息中包含如下信息时，表示已进入admin.local命令行。Authenticating as principal hadoop/...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

开源大数据平台E-MapReduce系统权限策略参考

本文描述开源大数据平台 E-MapReduce支持的所有系统权限策略及其对应的权限描述，供您授权RAM身份时参考。什么是系统权限策略权限策略是用语法结构描述的一组权限的集合，可以精确地描述被授权的资源集、操作集以及授权条件。阿里云访问...

提交Flink作业

方式二：通过kubectl工具提交作业通过kubectl连接Kubernetes集群，详情请参见获取集群KubeConfig并通过kubectl工具连接集群。您也可以通过API等方式连接Kubernetes集群，详情请参见使用Kubernetes API。新建 basic-emr-example.yaml ...

API概览

在使用API前，您需要准备好身份账号及访问密钥（AccessKey），才能有效通过客户端工具（SDK、CLI等）访问API。细节请参见获取AccessKey。实例管理 API 标题 API概述 CreateInstanceV1 创建实例本接口用于创建 Serverless StarRocks 实例...

Fusion引擎

Fusion引擎是EMR Serverless Spark内置的高性能向量化SQL执行引擎，相比开源Spark在TPC-DS基准测试上有3倍性能提升。Fusion引擎与开源Spark完全兼容，您无需对现有代码做任何修改。在EMR Serverless Spark中，只需在创建会话时开启使用...

使用Delta Lake

Delta Lake是一个开源存储框架，旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能，并能够在现有的数据湖（如OSS、Amazon S3和HDFS）上整合流处理与批处理。此外，Delta Lake还支持多种引擎，如...

E-MapReduce支持倚天云服务器

阿里云E-MapReduce（简称EMR）支持使用倚天云服务器构建开源大数据集群。与现有X86架构实例体验完全相同的情况下，具有更高的性价比，帮助您降低成本并提高效率。本文为您介绍倚天云服务器的特性、优势，以及在E-Mapreduce上倚天云服务器的...

Impala集成Kudu

连接Impala，详情请参见 Impala命令行工具。执行以下命令，新建表格。create table my_first_table(id bigint,name string,primary key(id))partition by hash partitions 16 stored as kudu tblproperties('kudu.num_tablet_replicas'='1'...

应用场景

相较于原有解决方案，我们的解决方案运维更加简单，并且使用MySQL协议，可以对接各种BI工具，从而实现数据的快速分析和处理。实时数据分析场景解决方案步骤如下：实时摄入：通过直接读取Kafka数据来实现。提供了Flink-Connector来支持...