数据资产治理(原数据治理中心)可根据预先配置的治理计划,自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题,并通过健康分量化评估,从全局、工作空间、个人等多个视角,以治理报告及排行榜呈现治理...
DataWorks支持注册EMR(E-MapReduce)的DataLake(新版数据湖)集群为EMR计算引擎,创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、定时调度和元数据管理等功能,帮助EMR用户更好地产出数据。本文为您介绍在DataWorks上...
分区缓存队列大小 分区缓存队列大小越大,对内存的消耗也会越大,如果源端根据分区字段数据乱序比较严重,建议您调大该值,并相应调大内存。作业类型 包括 重放 和 插入 两种类型:重放 表示镜像功能。即源端 INSERT 一条记录,Hologres中...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。鼠标悬停至 图标,单击 新建节点 数据集成 实时同步。您也可以展开业务流程,右键单击目标业务流程...
数据源 检查节点对象为数据源时的配置项可参考以下表格:配置项 配置内容 Check对象 数据源 数据源类型 支持数据源如下:MaxCompute OSS FTP HDFS OSS_HDFS 数据源名称 可选择与数据源类型对应的数据源,若没有可选择的目标数据源,可单击...
本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。本教程使用 数据开发(Data Studio)(新版)进行数据加工。OSS对象存储环境准备 本案例将使用自定义函数,注册函数所用资源将上传至...
在 数据服务 的左侧导航栏中,单击 服务开发 数据推送 切换到 数据推送 页下,单击 选择 新建数据推送,设置数据推送任务名称后,单击 确定,进入数据推送任务配置页面。步骤三:配置实践 本文为您提供了七个实践场景,您可按需求选择不同...
为适应云原生技术演进、满足日益复杂的数据处理场景需求,并应对现有架构在可扩展性、维护性及用户体验方面的挑战,DataWorks数据开发(Data Studio)正在进行一次全面的架构升级。本次升级旨在构建一个面向未来的、高性能、高可用的数据...
开发数据服务API时,数据服务将访问该数据源获取数据表的Schema信息,帮助您进一步设置请求和返回参数。调用数据服务API时,数据服务将访问该数据源来执行查询请求。数据服务支持的数据源请参见 数据服务数据源列表。重要 如果连通性测试...
完成数据源、网络、资源的准备配置后,您可创建实时同步任务,将多种输入及输出数据源搭配组成同步链路,进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务,并在创建完成后查看任务运行情况。准备...
数据分类分级是保障数据安全的重要前提。它为各行业提供对敏感数据类型及其级别的识别与划分能力,能够有效检测组织数据资产中是否存在敏感信息,并根据其敏感程度进行等级划分。分类分级不仅有助于准确掌握数据资产中的敏感内容,还为后续...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。右键单击目标业务流程,选择 新建节点 CDH CDH Spark SQL。在 新建节点 对话框输入节点 名称,单击 ...
当需要实现更精细化的离线任务配置时,可以使用 脚本模式,通过编写数据同步的JSON脚本并结合DataWorks调度参数,将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务的常见配置,各数据源...
创建资源 Flink资源 支持本地上传,创建好的资源可直接在数据开发中引用,也可以创建为函数使用。在资源管理页面,创建资源打开 新建资源和函数 弹窗时,配置资源的 类型、存储的 路径 以及资源 名称。完成新建资源后,需要在资源内 上传...
说明 节点名称必须是大小写字母、中文、数字、下划线(_)和英文句号(.),且不能超过128个字符。单击 确认。单击节点编辑区域右侧的 调度配置,配置节点的调度属性。调度属性包括 基础属性、时间属性、资源属性 和 调度依赖,详情请参见 ...
运维中心是一站式大数据运维监控平台,支持实时查看任务运行状态,提供智能诊断、重跑等运维操作,帮助您对异常任务进行基础运维;提供智能基线,帮助您解决重要任务产出时间不可控,海量任务监控难的问题,保障任务产出的时效性;提供引擎...
DataWorks作为数据加工的开发平台,提供了便捷的可视化建表方式,当需要创建多个Hologres外部表时,可参考 一键MaxCompute表结构同步节点。同时,也可直接使用Hologres通过DDL语句建表,详情请参见 CREATE FOREIGN TABLE。使用限制 目前仅...
运维中心是一站式大数据运维监控平台,支持实时查看任务运行状态,提供智能诊断、重跑等运维操作,帮助您对异常任务进行基础运维;提供智能基线,帮助您解决重要任务产出时间不可控,海量任务监控难的问题,保障任务产出的时效性;提供引擎...
目前仅支持对数据开发(Data Studio)、数据质量、数据分析、运维中心模块设置全局YARN资源队列。前提条件 已注册EMR集群至DataWorks,详情请参见 新版数据开发:绑定EMR计算资源。设置全局YARN资源队列 进入全局YARN资源队列配置页面。...
登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据建模,在下拉框中选择对应工作空间后单击 进入数据建模。在 智能数据建模 页面,单击顶部导航栏的 数据指标,然后在左侧导航栏单击 修饰词,进入 修饰词 ...
DataWorks支持丰富的数据开发配置,您可以在安全设置与其他页面控制是否脱敏展示返回结果中的敏感信息;是否安全隔离代码与日志;是否进行代码强制评审,把控开发任务的代码质量;是否强制执行冒烟测试,保障任务的正确性。本文为您介绍...
进入迁移助手 登录 DataWorks控制台,切换至目标地域后,单击左侧导航栏的 数据开发与运维 数据开发,在下拉框中选择对应工作空间后单击 进入数据开发。单击左上方的 图标,选择 全部产品 更多 迁移助手,进入迁移助手 首页。创建导入任务 ...
随着业务的快速发展,企业数据呈几何倍增长,数据量庞大、复杂、各类数据间标准不一致,往往会出现数据难以管理的现象。DataWorks智能数据建模服务,将无序、杂乱、繁琐、庞大且难以管理的数据,进行结构化有序的管理。使企业中的数据产生...
随着业务的快速发展,企业数据呈几何倍增长,数据量庞大、复杂、各类数据间标准不一致,往往会出现数据难以管理的现象。DataWorks智能数据建模服务,将无序、杂乱、繁琐、庞大且难以管理的数据,进行结构化有序的管理。使企业中的数据产生...
DataWorks的数据质量监控节点可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。同时,支持您自定义调度策略,周期性执行监控任务进行数据校验。本文为您介绍如何使用数据质量监控节点进行任务监控。背景...
数据同步任务开发 数据同步任务的配置入口和通用配置流程可参见下文的配置指导。单表离线同步任务配置指导 操作流程请参见 通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。脚本模式配置的全量参数和脚本Demo请参见下文的 ...
代码来源 采集口径 触发采集方式 数据开发 数据开发-创建节点并编辑代码 自动采集 数据开发(旧版)数据开发(旧版)-创建节点并编辑代码 数据分析 数据分析-新建SQL查询并编辑代码 数据服务 数据服务-新建API数据推送服务 API资产 数据...
Data Studio支持可视化创建并管理CDH Jar和File资源,创建的资源可用于创建自定义函数或在数据开发。本文将介绍如何通过资源管理来创建CDH不同类型的资源和函数。前提条件 已 注册CDH集群至DataWorks,创建资源与函数均基于Flink计算资源...
Data Studio的资源管理功能支持创建并管理MaxCompute、EMR、CDH、Flink的资源与函数,在数据开发或SQL查询中使用。功能介绍 Data Studio的资源管理功能支持对资源和函数进行统一管理,不仅支持将存储在OSS对象存储或本地存储中的资源上传并...
Data Studio支持可视化创建并管理EMR Jar和File资源,创建的资源可用于创建自定义函数或在数据开发。本文将为您介绍如何创建并使用资源与函数。前提条件 已 注册EMR集群至DataWorks,创建资源与函数均基于EMR计算资源进行相关操作。已完成...
虚拟节点属于控制类节点,它是不产生任何数据的空跑节点(即调度到该节点时,系统直接返回成功,不会真正执行、不会占用资源或阻塞下游节点运行),通常作为业务流程的统筹起始节点,或业务流程中多个分支节点的汇总输出节点使用。...
Data Studio支持管理MaxCompute项目资源,包括从本地或OSS文件创建资源,并且可以将这些创建的资源注册为函数,以便在数据开发节点中使用。本文将详细介绍如何通过资源管理创建MaxCompute不同类型的资源和函数的具体操作事项。前提条件 已 ...
DataWorks的数据质量监控节点可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。同时,支持您自定义调度策略,周期性执行监控任务进行数据校验。本文为您介绍如何使用数据质量监控节点进行任务监控。背景...
调度依赖场景选择与配置 在任务实际调度时,产出数据的代码中会使用 调度参数 来指定依赖哪个周期实例的数据,具体确认逻辑如下。说明 调度参数会根据任务调度的业务日期、定时时间及参数的取值格式自动替换为具体的值,实现在任务调度时间...
创建MaxCompute数据源并绑定至DataWorks数据开发后,您可以直接在数据地图进行MaxCompute表的相关操作。包括数据检索、数据预览、查看元数据详情、查看数据血缘关系、分类分组管理数据表、数据洞察等操作。本文为您介绍如何在数据地图查看...
配置项 说明 spark版本 Spark2.x 语言 Python 选择主python资源 在下拉列表中选择上述已创建的python资源 spark_is_number.py 进入开发环境的运维中心,执行补数据,具体操作请参见 执行补数据并查看补数据实例(新版)。说明 由于数据开发...
只有当一份数据完整地经历了以上三个步骤的处理,您后续从数据分析、数据开发等模块查询并导出的这份 已脱敏且含水印 的数据文件(如CSV),才能被 数据溯源 功能成功解析,最终追查到其原始的泄露路径。限制说明 适用用户:开通DataWorks...
Data Studio个人开发环境是账号级云端开发实例,集成OSS/NAS存储、Git代码管理及Python/Notebook生态,支持本地脚本执行、在线调试与任务提交,通过灵活的自定义镜像和外部服务扩展能力,为数据处理、模型训练及协作开发提供高效、可定制的...
MaxCompute Hologres EMR Spark 数据分析 大数据AI公共数据集分析 本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,...
各个分层的功能介绍如下:数据引入层 ODS(Operational Data Store)ODS层用于接收并处理需要存储至数据仓库系统的原始数据,其数据表的结构与原始数据所在的数据系统中的表结构一致,是数据仓库的数据准备区。ODS层对原始数据的操作具体...