开源协同软件-开源协同软件文档介绍内容-移动阿里云

Hadoop DistCp介绍

Hadoop DistCp和Jindo DistCp的区别 DistCp类型功能使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具，用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具，支持OSS、OSS-HDFS服务、兼容...

Flink概述

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...

管理用户和角色

工作空间为多角色协同开发的基本单元，所有开发工作都将在具体的工作空间内开展，如果您需要RAM用户（子账号）协同开发，您可以将RAM用户加入工作空间并按照职能为该用户分配空间角色。背景信息 EMR Serverless Spark支持的角色及权限如下...

概述

该场景涵盖的面很广，例如：实时指标监控推荐模型广告平台搜索模型 Apache Druid架构 Apache Druid拥有优秀的架构设计，多个组件协同工作，共同完成数据从摄取到索引、存储和查询等一系列流程。Druid工作层（数据索引以及查询）包含以下...

基本概念

工作空间管理员可以加入成员至工作空间，并赋予工作角色，以实现多角色协同工作。调度资源组调度资源组用于任务的调度运行。首次开通EMR Workflow服务时，将免费为您提供一个默认调度资源组。工作流定义工作流定义是对一系列按照特定逻辑...

导出和导入服务配置

阿里云E-MapReduce（简称EMR）提供的导出服务配置...在软件配置的高级设置区域，打开软件自定义配置开关。复制导出的JSON格式服务配置中的内容到配置框中。单击下一步：硬件配置，继续创建集群。创建集群的具体操作，请参见创建集群。

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

EMR Hive功能增强

本文为您介绍E-MapReduce（简称EMR）各版本对应的Hive组件版本，以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本组件版本功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

配置自定义软件

如果您需要调整这些服务的配置项，则可以在集群创建时使用软件自定义配置功能，以修改现有配置或添加新的配置项。使用限制软件配置操作仅在集群创建时执行一次。操作步骤登录 E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域 ...

创建工作空间

工作空间类型说明对比项基础版专业版主要特点 100%兼容开源Spark。支持阿里云Fusion Engine（Spark Native Engine）。100%兼容开源Spark。支持阿里云Fusion Engine（Spark Native Engine）。内置Celeborn来增强Spark在计算过程中的...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。...创建集群时，您还需要对集群进行软件配置、硬件配置、基础配置和确认订单，配置详情请参见创建集群。

E-MapReduce Serverless服务等级协议（SLA）

2023年6月1日起，E-MapReduce Serverless服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

Presto概述

与EMR软件栈完美结合，支持DLF和OSS或OSS-HDFS。无需运维，EMR提供一站式服务。基本概念数据模型数据模型即数据的组织形式。Presto使用Catalog、Schema和Table三层结构来管理数据。Catalog：一个Catalog可以包含多个Schema，物理上指向...

配置集群管理密码

说明这些命令和软件包的具体使用方式可能因系统版本和配置而有所不同，建议您根据实际情况使用。单击保存。在弹出的对话框中，输入执行原因，单击保存。重启Presto服务。单击上方的服务详情页签。在组件列表区域，单击 ...

克隆集群

集群创建后，您在EMR控制台修改的服务配置目前不会克隆到新集群，但创建集群时自定义软件配置中配置的参数，则会克隆最新的修改值到新集群。创建集群后，您手动在集群机器上修改的文件或内容，例如JAR包等，无法克隆到新集群。注意事项在...

管理工作空间

工作空间管理员可以加入成员至工作空间，并赋予工作空间管理员、数据分析、数据开发或访客角色，以实现多角色协同工作。本文为您介绍工作空间的基本操作。前提条件已开通数据湖构建DLF并创建数据目录，详情请参见快速入门和数据目录。...

EMR-3.28.x版本说明

更新内容服务变更点 Flink 已将开源Flink升级为企业版Ververica Platform，基于开源Flink 1.10深度定制，提供自研存储引擎Gemini等增值功能。Bigboot 升级至2.7.0版本。Delta 升级至0.6.0版本。解耦Delta与Spark代码。Spark 升级至2.4.5...

数据服务集群

特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。特别适用于需要实时读写随机访问超大规模数据集的场景。Apache HBase和Apache Hadoop生态系统无缝集成，并且可以和Apache Phoenix搭配使用...

EMR-3.29.x版本说明

Ranger 升级软件包至1.2.0-1.5.0。支持Presto 338。配置文件增加Description。HDFS 自适应配置datanode reserved空间大小。Knox 适配Impala、高版本Flink和PAI。Druid 升级至0.18.1版本。SmartData 升级至2.7.301版本。

开展协同

您可在无影云电脑内向管理员请求远程协助，也可将当前使用的云电脑共享给他人以开展协同，协同者使用协同邀请码即可加入。本文以 Windows客户端 V6.4.0版本连接云电脑为例为您介绍如何请求远程协助和发起共享协同。前提条件已打开 ...

管理用户

EMR用户可以用于访问链接与端口，查看开源组件Web UI时的用户身份认证，也可以在开启组件LDAP认证之后进行身份认证。如果将Ranger的用户源设置为LDAP，则可以对用户管理中的用户进行权限控制。如果是高安全集群，EMR用户可以用于Kinit操作...

Hadoop集群迁移至DataLake集群

（可选）软件自定义配置如果您导出了旧平台集群中的服务配置，或计划在创建集群流程中预置配置，则可以在新平台集群创建流程中开启软件自定义配置，并将编辑好的配置粘贴输入框中，详细使用方法请参见配置自定义软件。硬件配置在查看...

HDFS Web UI介绍

访问HDFS Web UI 您可以通过SSH隧道和控制台两种方式访问HDFS Web UI，具体操作请参见通过SSH隧道方式访问开源组件Web UI 和访问链接与端口。NameNode服务地址版本访问地址说明 hadoop 3.x http://${namenode_hostname}:9870${...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务，您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎，提供了极致...

HBase Thrift Server

背景信息 Thrift是一个可伸缩，跨语言服务RPC框架，集成了强大的软件堆栈及代码生成引擎，使得各种语言做到无障碍，高效通信，目前支持C++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Go、Cocoa、JavaScript、Node.js和...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

选型配置说明

Flink、Kafka、YARN OLAP 数据分析场景，其中核心组件ClickHouse是一个面向联机分析处理（OLAP）的开源的面向列式存储的DBMS，与Hadoop和Spark相比，ClickHouse更轻量级。ClickHouse支持线性扩展，简单方便，具有高可靠性和高容错。...

创建集群模板

集群模板中包含了您自主选择的用于创建集群的配置信息（密码除外），还可以存储任意配置信息，包括软件版本、实例类型和密钥对等，能够满足不同场景的个性化需求。通过集群模板功能，您可以快速一键创建EMR集群。使用限制同一地域下最多可...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

EMR-3.33.x版本说明

本文介绍EMR-3.33.x发行版本的发布日期和更新内容等信息。发布日期 EMR-3.33.0 2021年1月15...EMRHook 新增软件服务。hive-hook：支持Hive元数据和作业运行信息输出至DataWorks。spark-hook：支持Spark元数据和作业运行信息输出至DataWorks。

实例类型

当您需要查看集群上服务的运行情况时，您可以通过软件的Web UI来查看。当您需要快速测试或者运行作业时，您可以登录主实例节点，然后通过命令行直接提交作业。登录主节点的具体步骤请参见登录集群。核心实例节点（Core）核心实例节点是被...

安装第三方插件

EMR集群中Flume的软件安装目录为/opt/apps/FLUME/flume-current/lib。方式三：上传第三方的JAR包至$FLUME_HOME/plugins.d/目录下。相关的目录：$FLUME_HOME/plugins.d/lib：插件本身的JAR包。FLUME_HOME/plugins.d/libext：插件依赖的JAR包...

Python使用说明

EMR-2.10.0和EMR-3.10.0之前版本默认不支持Python 3版本，您需要自行下载安装，步骤如下：下载Python 3软件包：Python-3.6.4.tgz。使用文件传输工具（SSH Secure File Transfer Client），上传JAR包至Master节点的/usr/local 目录。解压...

管理资源队列

应用环境开发：开发者编写、测试和调试代码的地方，通常包括IDE（集成开发环境）、版本控制系统和各类调试工具，用于开发者进行软件的构建与调试。生产：供用户使用的实际运行环境，提供稳定、高效和安全的服务。修改并发上限在队列管理...

EMR对接外部KDC

在创建集群的软件配置阶段，打开高级设置区域的 Kerberos身份认证开关。单击外部KDC。默认是本群自建KDC，即当前集群为您创建KDC。使用您外部自建的KDC，需要填写以下信息。参数描述 KDC Hosts KDC的IP地址和端口。多个IP地址时，...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

EMR-3.24.x版本说明

支持其他开源已有特性。Grafana 新增组件（Flink独立集群），版本6.4.2。Prometheus 新增组件（Flink独立集群），版本2.13.0。AlertManager 新增组件（Flink独立集群），版本0.19.0。TensorFlow on spark 支持TensorFlow框架置于Spark之上...

开启流协同策略（公测）

本文介绍开启远程协助和共享协同策略的相关操作。功能介绍流协同是无影云电脑产品提供的用于管理员和终端用户之间以及终端用户之间远程共享桌面的功能，从终端用户的使用来看，包括远程协助和共享协同两种类型。下面介绍流协同的使用...