数据开发套件

_相关内容

概述

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供 数据集成、数据开发、数据地图、数据质量 和 数据服务 等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件,包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等...

配置训练数据和代码

ACK Pro版集群已安装云原生AI套件开发控制台 和 调度组件,且集群Kubernetes版本不低于1.20。集群管理员在 RAM控制台 创建子账号(即RAM用户),并为该子账号分配和关联配额组。具体操作,请参见 步骤一:为用户配置配额组。创建存储卷...

大数据开发治理平台 DataWorks

数据开发治理平台 DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万...

API概览

本产品(大数据开发治理平台 DataWorks/2024-05-18)的OpenAPI采用 RPC 签名风格,签名细节参见 签名机制说明。我们已经为开发者封装了常见编程语言的SDK,开发者可通过 下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能...

概述

如果您在2022年2月21日21点前使用过数据开发功能,需要继续在EMR上使用数据开发功能,建议您尽快迁移到EMR Workflow,详情请参见 EMR旧版数据开发迁移公告。您也可以迁移到大数据开发治理平台DataWorks,详情请参见 EMR数据开发停止更新...

HoloStudio一键迁移至DataStudio

为给您提供一致的开发体验,HoloStudio产品能力将整合至DataStudio中,届时您可使用DataStudio相关功能继续进行Hologres的数据开发。在指定时间内,您可参考本文手动迁移HoloStudio的已有文件至DataStudio;超过该时间,系统将自动为您完成...

数据开发与运维中心:数据加工

DataWorks的 数据开发(DataStudio)是数据加工的开发平台,运维中心 是智能运维平台,基于这两个功能模块,您可以在DataWorks上规范、高效地构建和运维数据开发工作流。功能概述 DataWorks的数据开发的亮点功能如下。DataStudio支持...

开发前准备:绑定数据源或集群

若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务,需先将已创建的数据源或集群绑定至数据开发(DataStudio)模块。绑定后,才可读取数据源或集群中的数据,并进行相关开发操作。前提条件 您需根据后续要开发和调度...

数据下载

在DataWorks的数据开发(DataStudio)、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能,您可将所需历史下载文件重新下载至本地使用,也可追溯历史下载记录的操作详情。前提条件 已通过如下模块...

MaxCompute资源管理

您可以通过MaxCompute资源面板,查看在MaxCompute计算引擎中存在的资源、资源的变更历史,并可以一键添加资源文件至数据开发面板的业务流程中。使用限制 仅支持MaxCompute客户端(odpscmd)上传的不超过200M的资源通过MaxCompute资源功能...

配置基础属性

进入数据开发节点的编辑页面,单击右侧导航栏的 调度配置,在 基础属性 区域配置调度节点的基本信息。参数 描述 名称 新建数据开发节点时输入的节点名称,不可以修改。节点ID 数据开发节点提交后会生成唯一的节点ID,不可以修改。节点类型 ...

ETL工作流快速体验

电商漏斗模型分析 DataWorks MaxCompute 数据开发 基于漏斗模型,使用DataStudio 数据开发 模块完成从原始数据获取购买商品的用户路径数据,并计算从用户的浏览、点击、购买环节流量的转化情况。智慧城市人口财产主题分析 DataWorks ...

MaxCompute函数管理

您可以通过MaxCompute函数面板,查看在MaxCompute计算引擎中存在的函数、函数的变更历史,并可以一键添加函数至数据开发面板的业务流程中。查看函数 进入 数据开发 页面。登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据...

EMR数据开发停止更新公告

2022年2月21日21点起,E-MapReduce(简称EMR)数据开发功能停止更新,进入维护状态,会影响创建项目、新建和运行作业、工作流、数据开发运维等功能。如果您还在使用数据开发功能,请尽快迁移到DataWorks构建数据开发平台。本文为您介绍数据...

代码搜索

登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据建模与开发 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。在数据开发目录树区域,单击顶部菜单栏的 图标,进入代码搜索页面。配置搜索条件并查看搜索结果。...

入门概述

本模块将指引您快速完成一个完整的数据开发和运维操作。说明 如果您是第一次使用DataWorks,请确认已经根据 准备工作 模块的操作,准备好账号和工作空间角色等内容后,登录DataWorks控制台,单击相应工作空间后的 进入数据开发,即可进行...

查看数据开发操作记录

数据开发DataStudio界面中,您可在 操作历史 界面通过操作类型、操作人、操作时间进行筛选,查看人员在当前工作空间中的操作记录。使用说明 仅支持查看DataStudio中以下几类操作记录:任务责任人变更操作、任务调度属性变更操作、任务及...

API概览

创建数据开发作业 调用 CreateFlowJob接口,创建数据开发作业。创建项目空间 调用CreateFlowProject,根据传入的地域、名称和描述创建项目空间,并返回创建好的项目空间的ID。删除工作流 调用DeleteFlow接口,删除工作流。删除数据开发项目...

操作指南

您可以在Dataphin工作台进行数据开发、数据治理等操作。功能 文档 Dataphin共享模式(全托管版)数仓规划概述 数据引入概述 数据开发概述 发布中心概述 运维中心概述 分析平台概述 标签工厂概述 资产清单概述 数据标准概述 资产质量概述 ...

DataWorks HoloStudio下线公告

尊敬的DataWorks用户:为给您提供一致的开发体验,DataWorks HoloStudio 产品能力将整合至 DataWorks 数据开发(DataStudio)中,从 2024年2月29日 开始,HoloStudio将不再提供服务,届时您可使用DataStudio相关功能继续进行Hologres的数据...

概述

HoloStudio的数据开发模块与DataWorks无缝连接,提供一站式稳定高效的ETL(Extract-Transform-Load)服务,帮助您使用可视化方式周期性调度作业、创建外部表、同步外部表数据以及上传本地文件。数据开发 的核心功能如下:文件夹 用于存放并...

数据集成实时任务配置Check节点

登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与治理 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。新建节点,选择 实时同步,自定义节点名称。拖拽 输入 和 输出,配置实时同步相关参数,详情请参见 ...

执行冒烟测试

登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据建模与开发 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。开启强制冒烟测试 空间管理员可开启工作空间强制进行冒烟测试,开启强制冒烟测试功能后,当前工作...

数据开发概述

进入数据开发 登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据建模与开发 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发数据开发主要功能 数据开发(DataStudio)的主要功能介绍如下。您可参考 数据开发相关...

通用参考:切换资源组

登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据建模与开发 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。修改数据集成资源组。离线同步任务 单个任务修改 在左侧导航栏,单击 数据开发,找到目标离线同步...

概述

DataWorks为您提供了多个实验教程,帮助您从前期的环境准备、数据采集,到后期的数据开发、结果展示,端到端了解DataWorks使用的全流程,更加熟悉产品的核心功能。综合示例:用户画像分析 本教程通过一个实战案例——网站用户画像分析,全...

HoloStudio(即将下线)

为给您提供一致的开发体验,DataWorks HoloStudio 产品能力将整合至 DataWorks 数据开发(DataStudio)中,从 2024年2月29日 开始,HoloStudio将不再提供服务,届时您可使用DataStudio相关功能继续进行Hologres的数据开发。针对已存在于...

技术架构选型

在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

通用开发流程

DataWorks将不同类型引擎任务封装为不同节点,通过创建节点来生成数据开发任务。同时,数据开发(DataStudio)支持使用资源、函数、以及不同的逻辑处理节点开发复杂任务。本文将为您介绍数据开发任务的通用开发流程。前提条件 已绑定所需...

场景教程

数据集成 数据开发 简单开发应用教程 本教程将指引您完成一个完整的数据开发和周期调度运维操作,适用于各种数据开发场景。MaxCompute 数据集成 数据开发 运维中心 数据分析与可视化 相关教程 说明 教程使用的计算引擎 涉及模块 使用公开...

创建数据脱敏场景

登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与治理 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。单击左上方的 图标,选择 全部产品 数据治理 数据保护伞,单击 立即体验,进入数据保护伞。说明 若...

创建临时查询

背景信息 若您仅需在数据开发(DataStudio),即开发环境,查询数据及相关SQL代码、测试代码的实际运行情况与期望值是否相符,或验证代码的正确性,而无需将数据或SQL代码发布至生产环境并操作生产环境引擎,则可通过 新建临时查询文件 ...

创建解决方案

数据开发模式全面升级,包括工作空间 解决方案 业务流程三级结构,抛弃陈旧的目录组织方式。背景信息 DataWorks对数据开发模式进行全面升级,按照业务种类组织相关的不同类型的节点,让您能够更好地以业务为单元、连接多个业务流程进行开发...

DataWorks新版数据源公告

若想使用创建的数据源进行数据开发,则数据源创建完成后还需进入数据开发(DataStudio)进行模块绑定。已绑定的计算引擎:已绑定的计算引擎迁移至 数据开发 数据源 管理。编辑计算引擎:不再支持直接编辑计算引擎,如需编辑可直接通过编辑...

应用示例:数据开发过程触发事件检查

本文将为您介绍数据开发DataStudio中支持的扩展点事件,以及使用扩展点触发扩展程序的操作过程。前提条件 已开启消息订阅操作,详情请参见 开启消息订阅。已完成扩展程序的开发部署操作,详情请参见 开发部署扩展程序。背景信息 启动扩展...

场景:数据开发定制化展示

角色 模块展示 空间管理员 项目所有者 安全管理员 模型设计师 开发 运维 数据开发(周期调度)数据开发(手动触发)表管理 临时查询 运行历史 回收站 发布任务 运维中心 说明 安全管理员、模型设计师、运维 角色在DataStudio界面只有只读...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

Shell类型节点运行Python脚本

登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与治理 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。新建MaxCompute Python资源。在数据开发页面右键单击目标业务流程,选择 新建资源,在 MaxCompute ...

运行历史

运行历史面板为您展示最近三天您在数据开发界面运行过的所有任务记录,单击相应的任务,即可查看运行日志。说明 运行历史 界面只展示当前账号在数据开发(DataStudio)最近三天的运行记录。如您需查看调度任务每日运行情况,请前往 运维...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用