开源流程管理

_相关内容

任务开发与调度

本章节介绍如何通过多种工具和框架提交和调度大数据任务,支持从交互式开发到自动化调度的全流程任务管理。通过DolphinScheduler提交Spark任务 通过Serverless Spark提交PySpark流任务 通过spark-submit提交任务 通过Apache Airflow提交...

组件操作

EMR提供的组件包括开源和自研两大类,涵盖数据开发、计算引擎、数据服务、资源管理、数据存储、数据集成等领域,您可以按需选择和配置。说明 在创建集群时,如果没有您想使用的组件,或者想使用的开源组件仅对存量用户开放,您可以自行安装...

EMR Workbench

EMR Workflow 工作流设计:通过可视化界面设计和管理数据处理流程。任务调度:支持定时执行任务,自动化复杂的工作流程。依赖管理:自动处理工作流中任务间的依赖关系。监控与日志:实时监控工作流执行状态,记录详细的日志信息。快速入门 ...

开源身份验证和权限管理

云消息队列 RabbitMQ 版 支持开源RabbitMQ身份验证和权限管理方式来实现对 云消息队列 RabbitMQ 版 资源的管理。使用限制 仅支持新购的Serverless系列独享实例,存量实例不支持。禁止默认账户guest的创建和权限管理。不支持User Tags 的...

EMR旧版数据开发迁移公告

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR ...

应用场景

EMR Serverless Spark不仅集成了任务调度系统,使得您能够便捷地构建与管理数据ETL流程,轻松实现自动化及周期性数据处理,而且还内置了先进的版本控制机制。这一机制确保了开发与生产环境的彻底隔离,确保符合企业级用户在研发和发布流程...

什么是EMR Workflow

EMR Workflow是一个全托管的工作流和任务调度服务,100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据湖仓,并为生产任务的稳定运行提供保障。产品优势 ...

产品简介

EMR Serverless StarRocks EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过其灵活地创建和管理实例以及数据。本文为您介绍StarRocks的核心特性,并详述EMR Serverless StarRocks在此基础之上所引入的诸多增强...

EMR元数据迁移公告

数据湖元数据DLF是阿里云提供的统一元数据服务,具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持多版本管理和Data Profile功能。另外,DLF还支持数据探索、湖管理和数据权限控制等功能,并与...

什么是RPA

管控包括成员管理、机器人和编辑器的授权管理、自动化流程的下架和分配等;运行调度,包括提供OpenAPI、MCP等方式被上层应用集成,任务运行监控等。4.原理简介和局限性说明 本产品的自动实现方式全部基于对软件界面的无侵入、模拟人操作,...

技术支持的范围和方式

管控平台功能如下:集群购买流程 集群创建流程 集群扩缩容流程 集群添加服务流程 集群弹性伸缩 集群告警监控功能 数据开发功能 负责EMR产品自研组件的使用、咨询服务、稳定性问题和产品缺陷问题处理。自研组件如下:SmartData Bigboot ESS ...

EMR数据开发停止更新公告

它提供了易于使用的调度服务,您可以通过可视化的操作界面轻松地管理工作流和任务,高效构建数据仓库,并为生产任务的稳定运行提供保障。EMR Workflow更多信息,请参见 什么是EMR Workflow。停止更新时间 2022年2月21日21点 影响 您在停更...

什么是EMR Serverless Spark

该产品为企业提供了一站式的数据平台服务,包括任务开发、调试、调度及运维等功能,显著简化了数据处理与模型训练的全流程。同时,它100%兼容开源Spark生态,能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark,企业可以...

使用Delta Lake

Delta Lake是一个开源存储框架,旨在数据湖之上构建LakeHouse架构。Delta Lake提供了ACID事务支持、可扩展的元数据处理功能,并能够在现有的数据湖(如OSS、Amazon S3和HDFS)上整合流处理与批处理。此外,Delta Lake还支持多种引擎,如...

DeltaLake

而Delta简化了工作流程,整条数据处理过程是一条完整的、可靠的实时流,其数据的清洗、转换、特征化等操作都是流上的节点动作,无需对历史和实时数据分别处理。与开源Delta Lake对比 EMR-Delta Lake丰富了开源Delta Lake的特性,例如对SQL...

扩容集群

EMR Serverless StarRocks不仅无缝兼容开源StarRocks,并且具备自动升级软件版本的功能,可省去手动管理版本的繁琐与风险。迁移方案详情,请参见 迁移StarRocks数据至EMR Serverless StarRocks。操作步骤 重要 集群扩容操作不会重启存量...

新功能发布记录

发布时间 相关文档 支持通过EMR控制台代理创建并管理OSS-HDFS Bucket 在EMR控制台创建集群时,支持代理创建OSS-HDFS Bucket,并可以在集群服务中查看对应Bucket的存储概览和文件列表,不再需要跳转到OSS控制台操作,简化了使用流程,也避免...

开通EMR Doctor(Hadoop集群类型)

功能介绍 EMR Doctor是开源大数据集群的管家,提供了一站式的智能诊断和优化服务。通过EMR Doctor,您可以高效地运维大数据集群和服务,持续的优化集群的资源使用率,使集群处于健康稳定的状态,更好的为上层业务提供计算服务。EMR Doctor...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR,它将EMR的大数据处理能力与ECS的弹性灵活优势相结合,使得您能够更加便捷地配置和管理EMR集群,同时支持多种开源和自研大数据组件,适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成,分别...

功能特性

EMR on ECS 功能集 功能 功能描述 参考文档 集群管理 创建集群 您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行大规模数据处理和分析等操作。创建集群 释放集群 在完成EMR集群任务后及时释放集群,可以释放资源...

编码开发模式

2.开发界面 编码模式开发界面主要分为5个区域:菜单和快捷按钮,左侧面板(组件面板、工程面板)、中间的流程代码编写区域、右侧的控件管理,底部面板(日志、数据视图、参数面板)。菜单。主要包括:文件:可新建、打开、保存和关闭工程,...

Serverless Spark提交PySpark任务

使用EMR Serverless Spark提交PySpark流式任务 适用客户 全网用户 新增功能/规格 EMR Serverless Spark提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用EMR ...

使用老版DataWorks

步骤五:管理数据 用户画像分析任务流程完成后,在Spark内将创建对应数据表。生成的数据表可在数据地图模块进行查看,可通过数据地图查看表血缘。步骤六:消费数据 用户画像分析完成后,使用数据分析模块,将加工后的 数据可视化展现,便于...

使用新版DataWorks

步骤五:管理数据 用户画像分析任务流程完成后,在EMR内将创建对应数据表。生成的数据表可在 数据地图模块 进行查看,可通过数据地图查看表血缘。步骤六:消费数据 用户画像分析完成后,使用数据分析模块,将加工后的 数据可视化展现,便于...

OpenLDAP

OpenLDAP是LDAP协议(Lightweight Directory Access Protocol)的开源实现,在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中,Knox服务默认与OpenLDAP服务对接。当您通过EMR控制台的 访问链接与端口 功能访问...

EMR与自建Hadoop集群对比优势

与自建Hadoop集群相比,开源大数据开发平台EMR提供弹性资源管理和自动化运维,降低运维复杂度,通过用户管理、数据加密和权限管理等为数据安全保驾护航,同时EMR集成了丰富的开源组件并打通开源生态与阿里云生态,便于快速搭建大数据处理和...

访问Web UI

由于ACK控制台上 访问链接与端口 不可用,您可通过以下配置访问开源组件的Web UI。登录 容器服务管理控制台。在 集群列表 页面,单击EMR on ACK所关联集群的 集群名称。鼠标悬浮在左边菜单栏 网络,单击 服务,在服务页面更新YAML文件。...

使用Hudi

操作流程 步骤一:创建SQL会话 进入会话管理页面。登录 E-MapReduce控制台。在左侧导航栏,选择 EMR Serverless Spark。在 Spark 页面,单击目标工作空间名称。在 EMR Serverless Spark 页面,单击左侧导航栏中的 会话管理。在 SQL会话 ...

Spark Submit开发快速入门

EMR Serverless Spark兼容spark-submit命令行参数,简化了任务执行流程。本文通过一个示例,为您演示如何进行Spark Submit开发,确保您能够快速上手。前提条件 已创建工作空间,详情请参见 管理工作空间。已提前完成业务应用程序开发,并...

PySpark开发快速入门

在EMR Serverless Spark页面,单击左侧导航栏中的 文件管理。在 文件管理 页面,单击 上传文件。在 上传文件 对话框中,单击待上传文件区域选择Python文件,或直接拖拽Python文件到待上传文件区域。本文示例是上传DataFrame.py。上传数据...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce(Elastic MapReduce)是运行在阿里云平台上的一种大数据处理的系统解决方案。

使用OpenAPI

本文为您介绍使用开源大数据平台E-MapReduce OpenAPI的基本信息。关于使用阿里云OpenAPI的详细介绍,请参见 使用OpenAPI。基本信息 版本说明 E-MapReduce 版本号 说明 2021-03-20 推荐使用。EMR Workbench 版本号 说明 2024-04-30 推荐使用...

管理SQL会话

会话是指EMR Serverless Spark工作空间中可用的Spark Session。您需要访问SQL会话来运行SQL查询和进行数据科学分析。本文主要为您介绍如何创建SQL会话。创建SQL 会话 SQL会话创建...SQL任务完整的开发流程示例,请参见 SparkSQL开发快速入门。

管理日志

日志管理功能将EMR与日志服务SLS相结合,允许您在EMR控制台直接查询开源组件的日志。前提条件 已在EMR控制台上创建集群,具体操作请参见 创建集群。已 开通日志服务。使用限制 本文操作仅适用于数据湖(DataLake)、实时数据流(DataFlow)...

ClickHouse

EMR ClickHouse完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础上优化了ClickHouse的读写性能,提升了ClickHouse与EMR其他组件快速集成的能力。特性 特性 描述 列式...

配置管理

通过集中化管理配置信息,该功能简化了任务执行过程中的配置流程,确保一致性和灵活性,同时支持动态更新以满足多样化的业务需求。配置管理功能提供了两种方式来管理和应用配置:管理Spark配置模板:用于定义全局默认配置,支持创建、编辑...

概述

整体介绍开发自动化流程中涉及的概念、主要过程。1.前提条件 说明 开发自动化流程需要使用到编辑器客户端。准备开发环境主要包括:已经完成开发人员的分配(添加成员账号、编辑器授权分配),可参考 创建并授权一个RPA子账号。已经完成客户...

产品形态选型

EMR 利用 ECS 的弹性实例将开源 Hadoop 生态安装部署到云服务器中,并提供集群创建、扩缩容、服务配置和监控等管理功能。主要特点 组件丰富:集成 Hadoop、Spark、Hive、Flink、Presto 等开源组件以及自研的 OSS‑HDFS、JindoCache、DLF‑...

入门概览

认识阿里云RPA 阿里云RPA由三部分构成:编辑器、机器人和控制台,其中:编辑器主要用于开发您希望能自动化执行的业务流程(即RPA应用)。我们支持可视化与编码两种开发模式,可以灵活赋能各类技术背景的开发者,内置300+个可视化组件与700+...

SSH隧道访问开源组件Web界面

除了通过EMR控制台提供的链接地址访问开源组件Web界面外,还可通过SSH隧道方式进行安全访问。通过SSH隧道和SOCKS代理,您可在不暴露集群内部网络结构的情况下访问开源组件Web界面。说明 开源组件Web界面访问方式选择,请参见 查看开源组件 ...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用