大数据开发平台功能-大数据开发平台功能文档介绍内容-移动阿里云

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。MaxCompute环境准备一、开通MaxCompute产品本教程基于MaxCompute实现，...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用 数据开发（Data Studio）（新版）进行数据加工。EMR环境准备本教程需要您创建一个EMR集群并集成到DataWorks，以便在...

资产360

资产360功能从任务、表的重要基础信息、对应的治理项问题状态、关联的基线列表及基线执行情况、实例运行情况信息、用户对任务或表所做的治理操作等多个维度辅助您对任务、表进行360全景信息了解。权限控制选择任意工作空间需要具备如下...

同步数据

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据，并且只支持在数据集成模块读取数据。进入数据开发 登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维数据...

准备环境

本案例提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本案例使用 数据开发（DataStudio）（旧版）进行数据加工。EMR环境准备创建EMR集群本教程需要您创建一个EMR集群，用于集成到...

客户案例

价值体现基于飞天大数据平台产品，快狗打车不仅机器成本节约30%以上，数据开发效率提升100%。从Java Storm迁移到Flink SQL使实时计算开发周期大大减少，维护更加容易，数据一致性得到更好地保障，提升了业务监控大屏的准确性和实时性，...

配置检查项

在进行数据发布前，可通过检查项对数据开发功能相关的约束进行检查，当检查出不符合约束规范的内容时，系统会生成影响开发流程正常执行的问题事件，您可基于该事件处理暴露的问题，以保障数据开发流程可以正常执行。本文为您介绍如何查看并...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

快速体验

数据开发与调度：大数据开发治理平台 DataWorks数据开发（必选）、DataWorks运维中心（必选），基础版DataWorks已包含数据开发和运维中心功能。数据治理：大数据开发治理平台 DataWorks数据质量（必选）、大数据开发治理平台 DataWorks数据...

Paimon

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

开发流程管控

校验流程如果您使用开放平台功能，配置了对DataStudio中关键操作的事件订阅与事件校验，则当用户进行对应操作时会触发校验流程，以运行前管控为例，管控校验流程如下。配置入口与指导您需要在开放平台中配置订阅DataStudio的事件，并自行...

发布记录

本文系统梳理了产品的完整更新历史，深入解析了每个版本的功能新增、性能优化与关键变更，助您全面掌握其演进脉络，精准评估版本升级的影响。

操作检查

如果您使用开放平台功能，配置了对Data Studio中关键操作的事件订阅与事件校验，则当用户进行对应操作时会触发校验流程，以运行前管控为例，管控校验流程如下。配置入口与指导您需要在开放平台中配置订阅Data Studio的事件，并自行开发...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

基于MaxCompute UDF分析IP来源

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。在 DataStudio（数据开发）页面的 数据开发 页签下，右键单击目标业务流程，选择新建节点 ...

创建EMR Presto节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。新建EMR Presto节点。右键单击目标业务流程，选择新建节点 EMR EMR Presto。说明您也可以鼠标悬停...

创建EMR Hive节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。新建EMR Hive节点。右键单击目标业务流程，选择新建节点 EMR EMR Hive。说明您也可以鼠标悬停至 ...

互联网、电商行业离线大数据分析

概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标、销售排名和订单地区分布等业务指标数据。DataV大屏支持可视化动态展示销售数据，触控大屏支持您自助查询数据，极大地提高数据的可读性。应用场景电商...

Vertica节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点数据库 Vertica。在新建节点对话框输入节点名称，单击 ...

DB2节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点数据库 DB2。在新建节点对话框输入节点名称，单击确认。...

配置MaxCompute输出

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。鼠标悬停至图标，单击新建节点数据集成实时同步。您也可以展开业务流程，右键单击目标业务流程...

SelectDB节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点数据库 Selectdb。在新建节点对话框输入节点名称，单击 ...

KingbaseES（人大金仓）节点

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。右键单击目标业务流程，选择新建节点数据库 KingbaseES。在新建节点对话框输入节点名称，单击 ...

EMR Hive节点

DataWorks提供的EMR（E-MapReduce）Hive节点支持云端大规模数据的批处理分析，能够操作存储在分布式系统中的数据，简化大数据处理流程并提高开发效率。在EMR Hive节点中，您可以使用类SQL语句读取、写入和管理大数据集，从而高效地完成海量...

数据服务

数据推送：数据推送是阿里云大数据开发治理平台DataWorks提供的一项数据服务功能，允许用户通过编写SQL查询数据源（如MySQL、PostgreSQL、Hologres、MaxCompute、ClickHouse等），将查询结果结合富文本或表格内容，定期自动推送至钉钉群、...

数据服务概述

数据推送：数据推送是阿里云大数据开发治理平台DataWorks提供的一项数据服务功能，允许用户通过编写SQL查询数据源（如MySQL、PostgreSQL、Hologres、MaxCompute、ClickHouse等），将查询结果结合富文本或表格内容，定期自动推送至钉钉群、...

执行冒烟测试

登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据开发与运维 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。开启强制冒烟测试空间管理员可开启工作空间强制进行冒烟测试，开启强制冒烟测试功能后，当前工作...

基于MaxCompute UDF分析IP来源

在 Data Studio（数据开发）页面左侧导航栏单击按钮，进入 数据开发 页面的项目目录。单击项目目录右侧的，选择新建节点 MaxCompute MaxCompute SQL。在新建节点对话框中输入节点名称，并单击确认。在 MaxCompute SQL 节点编辑页面...

EMR Presto节点

操作详情请参见新版数据开发：绑定EMR计算资源。（可选，RAM账号需要）进行任务开发的RAM账号已被添加至对应工作空间中，并具有开发或空间管理员（权限较大，谨慎添加）角色权限，添加成员的操作详情请参见为工作空间添加空间成员。...

研发规范

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

调度周期：周调度

配置示例配置路径您需要进入数据开发节点的编辑页面，单击右侧导航栏的调度配置，在调度配置时间属性区域配置节点的调度周期。场景示例配置详情目标任务配置在每周一、周五两天定时运行，则在周一、周五生成的实例会正常调度执行，...

使用数据集

在节点（Shell节点、Python节点、Notebook节点）中使用数据集，以便在数据开发过程中读写NAS或OSS存储中的数据。也可以在创建个人开发环境时，将数据集作为个人开发环境实例的存储。重要建议优先阅读管理数据集，了解如何创建数据集。...

调度周期：月调度

配置示例配置路径您需要进入数据开发节点的编辑页面，单击右侧导航栏的调度配置，在调度配置时间属性区域配置节点的调度周期。场景示例配置详情目标任务配置在每月最后一天运行，则每月最后一天生成的实例会正常调度执行，而其它...

Trino

支持丰富的数据源：Hive Cassandra Kafka MongoDB MySQL PostgreSQL SQL Server Redis Redshift 本地文件支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器 ...

MaxCompute单表离线同步至ClickHouse

操作步骤说明本文以 数据开发（Data Studio）（新版）界面操作为例，演示离线同步任务配置。一、创建离线同步节点进入 DataWorks工作空间列表页，在顶部切换至目标地域，找到已创建的工作空间，单击操作列的快速进入 Data Studio，...

Presto

支持高级数据结构，具体如下：数组和Map数据 JSON数据 GIS（Geographic Information System）数据颜色数据功能扩展能力强，提供了多种扩展机制：扩展数据连接器自定义数据类型自定义SQL函数流水线：基于Pipeline处理模型数据在处理...

节点/工作流发布

当发布流程执行到从开发环境下线时，数据开发目录树会保留节点，但节点ID会被移除，并且生成从开发下线的版本记录。当发布流程执行到从生产环境下线时，节点删除操作将发布至生产环境，同步下线生产环境中的任务，您可在生产环境下线...

资产注册

操作步骤登录数据资源平台控制台。在页面左上角，单击图标，选择运营。在顶部菜单栏，单击资产注册。说明若已在资产注册页面，请跳过该步骤。将鼠标悬停至数据表卡片上，单击来源配置。说明鼠标悬停至数据表卡片上，单击 ...

Amazon Redshift数据源

Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍Amazon Redshift数据同步能力支持情况。支持的Amazon Redshift版本 Amazon Redshift使用的驱动...