开源流程软件-开源流程软件文档介绍内容-移动阿里云

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据湖仓，并为生产任务的稳定运行提供保障。产品优势 ...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

访问JindoFS Web UI

前提条件通过SSH隧道方式才能访问Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI。访问JindoFS Web UI 打通SSH隧道后，您可以通过 http://emr-header-1:8101/ 访问JindoFS Web UI功能。JindoFS 3.0版本提供总览信息（Overview）、...

访问JindoFS Web UI

前提条件通过SSH隧道方式才能访问Web UI，详情请参见通过SSH隧道方式访问开源组件Web UI。访问JindoFS Web UI 打通SSH隧道后，您可以通过 http://emr-header-1:8101/ 访问JindoFS Web UI功能。JindoFS 3.0.x版本提供总览信息（Overview）...

阿里云账号角色授权

授权流程通常，第一次购买产品时，需要您进行自动化授权操作。登录 E-MapReduce控制台。在左侧导航栏，选择 EMR Serverless>Spark。在依赖检测页面，单击 AliyunServiceRoleForEMRServerlessSpark 角色所在行的同意授权。在依赖检测...

SWITCH

任务优先级流程运行的优先级。支持以下级别：HIGHEST：最高。HIGH：高。MEDIUM（默认）：中。LOW：低。LOWEST：最低。失败重试次数工作流运行失败自动重试的次数。失败重试间隔每次失败重试的间隔。单位：分。延时执行时间任务延迟执行...

概述

JindoSDK：为EMR各种开源计算引擎提供统一的SDK，支持Java、C、C++和Python语言，提供多种访问和API接口，包括HCFS文件系统接口、POSIX接口和Table表格接口。工具集：提供相关的工具集，例如Jindo tool和迁移工具Jindo DistCp。各种...

Hadoop DistCp介绍

Hadoop DistCp和Jindo DistCp的区别 DistCp类型功能使用场景 Hadoop DistCp 开源Hadoop内置的DistCp工具，用于大型集群间或集群内数据的复制。HDFS到HDFS间的数据复制。Jindo DistCp JindoFS的数据迁移工具，支持OSS、OSS-HDFS服务、兼容...

HTTP

任务优先级流程运行的优先级。支持以下级别：HIGHEST：最高。HIGH：高。MEDIUM（默认）：中。LOW：低。LOWEST：最低。失败重试次数工作流运行失败自动重试的次数。失败重试间隔每次失败重试的间隔。单位：分。延时执行时间延时执行时间...

Flink概述

背景信息 EMR Flink完全兼容开源Flink，相关内容请参见社区文档。例如：DataStream API Table API&SQL Python API 使用场景 Flink广泛应用于大数据实时化的场景，本文从技术领域和企业应用场景进行介绍。技术领域从技术领域的角度，Flink...

基本概念

工作流（Workflow）工作流是指由一系列相关任务组成的有序流程，每个任务之间有明确的依赖关系和执行顺序。用户（Account）用户是访问控制功能中的概念，支持将RAM用户添加为成员，并授予相应的权限，才能操作工作空间中的任务、资源等。...

控制台发布记录

开启审计日志流程增加了提示确认环节。StarRocks Manager能力增强优化了StarRocks Manager的连接及登录界面。StarRocks Manager支持黑白主题。用户管理功能新增描述字段。开服地域新增华北3（张家口）地域。相关文档如果需要了解EMR ...

通过集群模板创建集群

说明如果您创建的是包年包月的集群，则须在 EMR on ECS 页面找到新建的集群并完成订单支付，才能进入集群创建流程。在 EMR on ECS 页面，您可以看到新创建的EMR集群。通过集群模板创建出的集群名称，命名规则为$模板名称$+时间戳。

导出和导入服务配置

阿里云E-MapReduce（简称EMR）提供的导出服务配置...在软件配置的高级设置区域，打开软件自定义配置开关。复制导出的JSON格式服务配置中的内容到配置框中。单击下一步：硬件配置，继续创建集群。创建集群的具体操作，请参见创建集群。

EMR Workflow公测说明

介绍EMR Workflow公测说明。公测时间说明 EMR Workflow公测已于2023年6月29日开启，预计于...公测操作流程公测面向所有用户开放，您可以参见以下文档快速了解并使用EMR Workflow。什么是EMR Workflow EMR Workflow角色授权工作流快速入门

基本概念

工作流版本工作流版本是指每当对工作流程进行修改操作（例如，添加或删除节点、变更依赖关系等）并保存后，系统会自动创建一个新的流程修订版本。任务版本任务版本是指每当对具体任务进行修改操作（例如，修改执行参数、调整资源配置等）...

基本概念

本文介绍开源大数据平台E-MapReduce使用过程中遇到的常用名词的基本概念和简要描述。集群 E-MapReduce产品中的一个独立的机器组合，为上层业务提供一些基础的引擎服务。一个E-MapReduce集群是由一个或多个阿里云ECS实例组成的。ECS实例在E...

CONDITIONS

任务优先级流程运行的优先级。支持以下级别：HIGHEST：最高。HIGH：高。MEDIUM（默认）：中。LOW：低。LOWEST：最低。失败重试次数工作流运行失败自动重试的次数。失败重试间隔每次失败重试的间隔。单位：分。状态上游节点的执行状态，...

Presto概述

与EMR软件栈完美结合，支持DLF和OSS或OSS-HDFS。无需运维，EMR提供一站式服务。基本概念数据模型数据模型即数据的组织形式。Presto使用Catalog、Schema和Table三层结构来管理数据。Catalog：一个Catalog可以包含多个Schema，物理上指向...

REMOTESHELL

任务优先级流程运行的优先级。支持以下级别：HIGHEST：最高。HIGH：高。MEDIUM（默认）：中。LOW：低。LOWEST：最低。失败重试次数工作流运行失败自动重试的次数。失败重试间隔每次失败重试的间隔。单位：分。延时执行时间延时执行时间...

SQL Editor

您可以直接在控制台上编写、运行和管理SQL查询语句，无需下载或安装任何本地客户端软件，极大地方便了数据分析师和开发人员对数据进行实时查询与分析。前提条件已创建StarRocks实例，详情请参见创建实例。进入SQL Editor 进入EMR ...

配置自定义软件

如果您需要调整这些服务的配置项，则可以在集群创建时使用软件自定义配置功能，以修改现有配置或添加新的配置项。使用限制软件配置操作仅在集群创建时执行一次。操作步骤登录 E-MapReduce控制台。在顶部菜单栏处，根据实际情况选择地域 ...

创建工作空间

工作空间类型说明对比项基础版专业版主要特点 100%兼容开源Spark。支持阿里云Fusion Engine（Spark Native Engine）。100%兼容开源Spark。支持阿里云Fusion Engine（Spark Native Engine）。内置Celeborn来增强Spark在计算过程中的...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

开启数据盘加密

加密数据盘后，数据盘上的动态数据传输以及静态数据都会被加密。如果您的业务存在安全合规要求，则可以使用该功能。...创建集群时，您还需要对集群进行软件配置、硬件配置、基础配置和确认订单，配置详情请参见创建集群。

技术支持的范围和方式

管控平台功能如下：集群购买流程集群创建流程集群扩缩容流程集群添加服务流程集群弹性伸缩集群告警监控功能数据开发功能负责EMR产品自研组件的使用、咨询服务、稳定性问题和产品缺陷问题处理。自研组件如下：SmartData Bigboot ESS ...

管理自动补偿

新补偿的ECS实例会在扩容流程中自动运行引导操作脚本，但是已经手动部署在待替换的ECS实例中的组件或服务，需要在补偿后的新购ECS实例上重新部署。开启或关闭自动补偿进入节点管理页面。登录 E-MapReduce控制台。在顶部菜单栏处，根据实际...

E-MapReduce Serverless服务等级协议（SLA）

2023年6月1日起，E-MapReduce Serverless服务等级协议（SLA）生效。详情请参见开源大数据平台E-MapReduce Serverless服务等级协议。

配置集群管理密码

说明这些命令和软件包的具体使用方式可能因系统版本和配置而有所不同，建议您根据实际情况使用。单击保存。在弹出的对话框中，输入执行原因，单击保存。重启Presto服务。单击上方的服务详情页签。在组件列表区域，单击 ...

SQOOP

任务优先级流程运行的优先级。支持以下级别：HIGHEST：最高。HIGH：高。MEDIUM（默认）：中。LOW：低。LOWEST：最低。失败重试次数工作流运行失败自动重试的次数。失败重试间隔每次失败重试的间隔。单位：分。延时执行时间延时执行时间...

克隆集群

集群创建后，您在EMR控制台修改的服务配置目前不会克隆到新集群，但创建集群时自定义软件配置中配置的参数，则会克隆最新的修改值到新集群。创建集群后，您手动在集群机器上修改的文件或内容，例如JAR包等，无法克隆到新集群。注意事项在...

访问HBase

本文介绍如何配置HBase集群以及HBase存储服务使用流程。前提条件已创建集群，并添加HBase服务，详情请参见创建集群。HBase配置您可以在创建HBase集群的软件配置页面，利用高级设置的软件自定义配置功能，结合使用场景，修改HBase...

EMR-3.28.x版本说明

更新内容服务变更点 Flink 已将开源Flink升级为企业版Ververica Platform，基于开源Flink 1.10深度定制，提供自研存储引擎Gemini等增值功能。Bigboot 升级至2.7.0版本。Delta 升级至0.6.0版本。解耦Delta与Spark代码。Spark 升级至2.4.5...

Hive开发手册

本文介绍如何在E-MapReduce集群中开发Hive作业流程。在Hive中使用OSS 在Hive中读写OSS时，先创建一个external的表。CREATE EXTERNAL TABLE eusers(userid INT)LOCATION 'oss:/emr/users';使用示例 Hive作业流程示例如下：示例1 编写如下...

EMR Serverless Spark免费公测说明

介绍EMR Serverless Spark的免费公测说明。免费公测时间说明 EMR Serverless Spark...公测操作流程公测面向所有用户开放，您可以参见以下文档快速了解并使用EMR Serverless Spark。什么是EMR Serverless Spark 创建工作空间 SQL任务快速入门

Attu工具管理

Attu是一款专为Milvus向量数据库打造的开源数据库管理工具，提供了便捷的图形化界面，极大地简化了对Milvus数据库的操作与管理流程。阿里云Milvus集成了Attu，以便更加高效地管理数据库、集合（Collection）、索引（Index）和实体（Entity...

EMR Notebook公测说明

本文为您介绍EMR Notebook公测说明。公测时间说明 EMR Notebook将于2024年03月29日逐步...公测操作流程公测面向所有用户开放，您可以参见以下文档快速了解并使用EMR Notebook。什么是EMR Notebook EMR Notebook角色授权快速使用EMR Notebook

数据服务集群

特性介绍 Apache HBase是具有高可靠性、高性能、列存储、可伸缩、实时读写的开源NoSQL分布式系统。特别适用于需要实时读写随机访问超大规模数据集的场景。Apache HBase和Apache Hadoop生态系统无缝集成，并且可以和Apache Phoenix搭配使用...

EMR Serverless StarRocks公测说明

介绍EMR Serverless StarRocks公测说明。...公测操作流程公测面向所有用户开放入门版实例，您可以参见以下文档快速使用EMR Serverless StarRocks实例。快速使用EMR Serverless StarRocks 快速使用EMR StarRocks Manager

SparkSQL UDF基础操作

本文为您介绍Spark SQL中使用Hive自定义函数的流程。前提条件已在Hive中创建了UDF，详情请参见开发UDF。使用Hive UDF 使用文件传输工具，上传生成的JAR包至集群任意目录（本文以test目录为例）。上传JAR包至HDFS或OSS（本文以HDFS为例）...