软件开发个大数据哪个好-软件开发个大数据哪个好文档介绍内容-移动阿里云

数据资产治理

数据资产治理（原数据治理中心）可根据预先配置的治理计划，自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题，并通过健康分量化评估，从全局、工作空间、个人等多个视角，以治理报告及排行榜呈现治理...

DataWorks on EMR集群配置最佳实践

DataWorks支持注册EMR（E-MapReduce）的DataLake（新版数据湖）集群为EMR计算引擎，创建Hive、MR、Presto和Spark SQL等节点，实现EMR任务工作流的配置、定时调度和元数据管理等功能，帮助EMR用户更好地产出数据。本文为您介绍在DataWorks上...

配置Hologres输出

分区缓存队列大小分区缓存队列大小越大，对内存的消耗也会越大，如果源端根据分区字段数据乱序比较严重，建议您调大该值，并相应调大内存。作业类型包括重放和插入两种类型：重放表示镜像功能。即源端 INSERT 一条记录，Hologres中...

配置Elasticsearch输出

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。鼠标悬停至图标，单击新建节点数据集成实时同步。您也可以展开业务流程，右键单击目标业务流程...

Check节点

数据源检查节点对象为数据源时的配置项可参考以下表格：配置项配置内容 Check对象数据源数据源类型支持数据源如下：MaxCompute OSS FTP HDFS OSS_HDFS 数据源名称可选择与数据源类型对应的数据源，若没有可选择的目标数据源，可单击...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。OSS对象存储环境准备本案例将使用自定义函数，注册函数所用资源将上传至...

最佳实践：数据推送定时推播Hologres Query诊断信息

在数据服务的左侧导航栏中，单击服务开发数据推送切换到数据推送页下，单击选择新建数据推送，设置数据推送任务名称后，单击确定，进入数据推送任务配置页面。步骤三：配置实践本文为您提供了七个实践场景，您可按需求选择不同...

Data Studio 升级指南

为适应云原生技术演进、满足日益复杂的数据处理场景需求，并应对现有架构在可扩展性、维护性及用户体验方面的挑战，DataWorks数据开发（Data Studio）正在进行一次全面的架构升级。本次升级旨在构建一个面向未来的、高性能、高可用的数据...

数据服务入门

开发数据服务API时，数据服务将访问该数据源获取数据表的Schema信息，帮助您进一步设置请求和返回参数。调用数据服务API时，数据服务将访问该数据源来执行查询请求。数据服务支持的数据源请参见数据服务数据源列表。重要如果连通性测试...

DataStudio侧实时同步任务配置

完成数据源、网络、资源的准备配置后，您可创建实时同步任务，将多种输入及输出数据源搭配组成同步链路，进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务，并在创建完成后查看任务运行情况。准备...

数据分类分级

数据分类分级是保障数据安全的重要前提。它为各行业提供对敏感数据类型及其级别的识别与划分能力，能够有效检测组织数据资产中是否存在敏感信息，并根据其敏感程度进行等级划分。分类分级不仅有助于准确掌握数据资产中的敏感内容，还为后续...

创建CDH Spark SQL节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点 CDH CDH Spark SQL。在新建节点对话框输入节点名称，单击 ...

脚本模式配置

当需要实现更精细化的离线任务配置时，可以使用脚本模式，通过编写数据同步的JSON脚本并结合DataWorks调度参数，将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务的常见配置，各数据源...

Flink资源与函数

创建资源 Flink资源支持本地上传，创建好的资源可直接在数据开发中引用，也可以创建为函数使用。在资源管理页面，创建资源打开新建资源和函数弹窗时，配置资源的类型、存储的路径以及资源名称。完成新建资源后，需要在资源内上传...

FTP Check节点

说明节点名称必须是大小写字母、中文、数字、下划线（_）和英文句号（.），且不能超过128个字符。单击确认。单击节点编辑区域右侧的调度配置，配置节点的调度属性。调度属性包括基础属性、时间属性、资源属性和调度依赖，详情请参见 ...

运维中心

运维中心是一站式大数据运维监控平台，支持实时查看任务运行状态，提供智能诊断、重跑等运维操作，帮助您对异常任务进行基础运维；提供智能基线，帮助您解决重要任务产出时间不可控，海量任务监控难的问题，保障任务产出的时效性；提供引擎...

创建Hologres外部表

DataWorks作为数据加工的开发平台，提供了便捷的可视化建表方式，当需要创建多个Hologres外部表时，可参考一键MaxCompute表结构同步节点。同时，也可直接使用Hologres通过DDL语句建表，详情请参见 CREATE FOREIGN TABLE。使用限制目前仅...

运维中心概述

运维中心是一站式大数据运维监控平台，支持实时查看任务运行状态，提供智能诊断、重跑等运维操作，帮助您对异常任务进行基础运维；提供智能基线，帮助您解决重要任务产出时间不可控，海量任务监控难的问题，保障任务产出的时效性；提供引擎...

设置全局YARN资源队列

目前仅支持对数据开发（Data Studio）、数据质量、数据分析、运维中心模块设置全局YARN资源队列。前提条件已注册EMR集群至DataWorks，详情请参见新版数据开发：绑定EMR计算资源。设置全局YARN资源队列进入全局YARN资源队列配置页面。...

修饰词

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维数据建模，在下拉框中选择对应工作空间后单击进入数据建模。在智能数据建模页面，单击顶部导航栏的数据指标，然后在左侧导航栏单击修饰词，进入修饰词 ...

安全设置与其他

DataWorks支持丰富的数据开发配置，您可以在安全设置与其他页面控制是否脱敏展示返回结果中的敏感信息；是否安全隔离代码与日志；是否进行代码强制评审，把控开发任务的代码质量；是否强制执行冒烟测试，保障任务的正确性。本文为您介绍...

创建和查看DataWorks导入任务

进入迁移助手登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。单击左上方的图标，选择全部产品更多迁移助手，进入迁移助手首页。创建导入任务 ...

数据建模

随着业务的快速发展，企业数据呈几何倍增长，数据量庞大、复杂、各类数据间标准不一致，往往会出现数据难以管理的现象。DataWorks智能数据建模服务，将无序、杂乱、繁琐、庞大且难以管理的数据，进行结构化有序的管理。使企业中的数据产生...

数据建模概述

随着业务的快速发展，企业数据呈几何倍增长，数据量庞大、复杂、各类数据间标准不一致，往往会出现数据难以管理的现象。DataWorks智能数据建模服务，将无序、杂乱、繁琐、庞大且难以管理的数据，进行结构化有序的管理。使企业中的数据产生...

数据质量监控节点

DataWorks的数据质量监控节点可通过配置数据质量监控规则，监控相关数据源表的数据质量（例如，是否存在脏数据）。同时，支持您自定义调度策略，周期性执行监控任务进行数据校验。本文为您介绍如何使用数据质量监控节点进行任务监控。背景...

DB2数据源

数据同步任务开发数据同步任务的配置入口和通用配置流程可参见下文的配置指导。单表离线同步任务配置指导操作流程请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。脚本模式配置的全量参数和脚本Demo请参见下文的 ...

元数据采集

代码来源采集口径触发采集方式数据开发数据开发-创建节点并编辑代码自动采集数据开发（旧版）数据开发（旧版）-创建节点并编辑代码数据分析数据分析-新建SQL查询并编辑代码数据服务数据服务-新建API数据推送服务 API资产数据...

CDH资源与函数

Data Studio支持可视化创建并管理CDH Jar和File资源，创建的资源可用于创建自定义函数或在数据开发。本文将介绍如何通过资源管理来创建CDH不同类型的资源和函数。前提条件已注册CDH集群至DataWorks，创建资源与函数均基于Flink计算资源...

资源管理

Data Studio的资源管理功能支持创建并管理MaxCompute、EMR、CDH、Flink的资源与函数，在数据开发或SQL查询中使用。功能介绍 Data Studio的资源管理功能支持对资源和函数进行统一管理，不仅支持将存储在OSS对象存储或本地存储中的资源上传并...

EMR资源与函数

Data Studio支持可视化创建并管理EMR Jar和File资源，创建的资源可用于创建自定义函数或在数据开发。本文将为您介绍如何创建并使用资源与函数。前提条件已注册EMR集群至DataWorks，创建资源与函数均基于EMR计算资源进行相关操作。已完成...

虚拟节点

虚拟节点属于控制类节点，它是不产生任何数据的空跑节点（即调度到该节点时，系统直接返回成功，不会真正执行、不会占用资源或阻塞下游节点运行），通常作为业务流程的统筹起始节点，或业务流程中多个分支节点的汇总输出节点使用。...

MaxCompute资源与函数

Data Studio支持管理MaxCompute项目资源，包括从本地或OSS文件创建资源，并且可以将这些创建的资源注册为函数，以便在数据开发节点中使用。本文将详细介绍如何通过资源管理创建MaxCompute不同类型的资源和函数的具体操作事项。前提条件已 ...

质量监控

DataWorks的数据质量监控节点可通过配置数据质量监控规则，监控相关数据源表的数据质量（例如，是否存在脏数据）。同时，支持您自定义调度策略，周期性执行监控任务进行数据校验。本文为您介绍如何使用数据质量监控节点进行任务监控。背景...

调度依赖配置指引

调度依赖场景选择与配置在任务实际调度时，产出数据的代码中会使用调度参数来指定依赖哪个周期实例的数据，具体确认逻辑如下。说明调度参数会根据任务调度的业务日期、定时时间及参数的取值格式自动替换为具体的值，实现在任务调度时间...

MaxCompute表数据

创建MaxCompute数据源并绑定至DataWorks数据开发后，您可以直接在数据地图进行MaxCompute表的相关操作。包括数据检索、数据预览、查看元数据详情、查看数据血缘关系、分类分组管理数据表、数据洞察等操作。本文为您介绍如何在数据地图查看...

开发ODPS Spark任务

配置项说明 spark版本 Spark2.x 语言 Python 选择主python资源在下拉列表中选择上述已创建的python资源 spark_is_number.py 进入开发环境的运维中心，执行补数据，具体操作请参见执行补数据并查看补数据实例（新版）。说明由于数据开发...

数据溯源

只有当一份数据完整地经历了以上三个步骤的处理，您后续从数据分析、数据开发等模块查询并导出的这份已脱敏且含水印的数据文件（如CSV），才能被数据溯源功能成功解析，最终追查到其原始的泄露路径。限制说明适用用户：开通DataWorks...

个人开发环境

Data Studio个人开发环境是账号级云端开发实例，集成OSS/NAS存储、Git代码管理及Python/Notebook生态，支持本地脚本执行、在线调试与任务提交，通过灵活的自定义镜像和外部服务扩展能力，为数据处理、模型训练及协作开发提供高效、可定制的...

产品教程

MaxCompute Hologres EMR Spark 数据分析 大数据AI公共数据集分析本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，...

数仓分层

各个分层的功能介绍如下：数据引入层 ODS（Operational Data Store）ODS层用于接收并处理需要存储至数据仓库系统的原始数据，其数据表的结构与原始数据所在的数据系统中的表结构一致，是数据仓库的数据准备区。ODS层对原始数据的操作具体...