系统数据集成-系统数据集成文档介绍内容-移动阿里云

产品教程

综合示例：用户画像分析本教程通过一个实战案例——网站用户画像分析，全方位展示从数据集成、数据开发（数仓搭建）到数据治理的端到端流程。基于DataWorks平台，实现网站用户信息及用户行为日志数据的高效同步与精细化清洗，进而构建起...

Oracle数据导入

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案。说明数据...

概述

本文为您介绍如何通过Tunnel、DataHub、LogHub以及DataWorks数据集成将日志数据迁移至MaxCompute。方案说明适用场景 Tunnel 通过MaxCompute的Tunnel功能，将日志数据上传至MaxCompute。详情请参见通过Tunnel迁移日志数据至MaxCompute。...

数据库实时导入DataHub

为了更加方便让数据库数据实时导入到DataHub，联合数据集成一起开发了“数据库实时导入到DataHub”，尽量简化数据流入DataHub的流程。整体流程如下：使用图解主账号使用方式：打开公有云DataHub Console，选择对应的Project，点击右上角的...

实时同步字段格式

本文为您介绍数据集成实时同步字段的格式及附加列。数据集成实时同步MySQL数据的记录格式如下。sequence_id_operation_type_execute_time_before_image_after_image_字段1 字段2 字段3 增量事件的记录 ID，值唯一且递增。操作类型（I/D/U）...

基本操作

MaxCompute无缝集成了上下游生态产品，支持多种丰富的数据集成工具，并进行了深度的定制开发与优化。例如MaxCompute定制开发的Flink Connector和DataWorks的数据集成等，用于支持高并发、可扩展的高效近实时增量数据导入。SQL批式写入Delta...

【新功能/规格】RDS PostgreSQL支持无感数据集成...

本文为您介绍无感数据集成（Zero-ETL）功能的简介、优势、上线时间及费用等。简介云数据库RDS提供无感数据集成（Zero-ETL）功能，用于将RDS数据同步至数据仓库（AnalyticDB PostgreSQL），您无需搭建或维护数据同步链路，且数据同步链路不...

SQL Server集成至OSS

本文以自建SQL Server数据库为例，为您介绍如何将SQL Server的数据集成到阿里云对象存储OSS（Object Storage Service）的指定存储空间（Bucket）中。前提条件 SQL Server数据库已开通公网访问权限或已通过专有网络VPC接入到阿里云。说明 ...

MaxCompute作业概述

MaxCompute中数据开发作业主要存在以下三种类型：周期性调度作业、数据集成作业、数据分析作业。典型场景创建作业：创建ODPS SQL节点、数据传输作业：数据集成、数据分析作业。查看作业运行信息：使用Logview查看作业运行信息、在...

单表实时同步任务

支持的数据源重要数据开发和数据集成支持的数据源有部分重叠，如您需要使用的类型在数据集成侧已支持，更推荐在 数据集成 侧创建实时同步任务。数据集成侧支持的数据源的源端和目的端并非任意组合，具体支持类型见配置来源和去向数据源时...

通过DataWorks导入

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案。说明数据...

通过DataWorks导入数据

您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案。说明数据...

迁移ECS自建MySQL数据库至MaxCompute

本文为您介绍如何使用独享数据集成资源，将您在ECS上自建的MySQL数据库中的数据，迁移到MaxCompute。前提条件已拥有至少一个绑定专有网络VPC的ECS（请勿使用经典网络），并在ECS上安装好MySQL数据库，数据库中已创建好用户和测试数据。...

MySQL集成至OSS

本文以自建MySQL数据库为例，为您介绍如何将MySQL的数据集成到阿里云对象存储OSS（Object Storage Service）的指定存储空间（Bucket）中。前提条件 MySQL数据库已开通公网访问权限或已通过专有网络VPC接入到阿里云。说明通过专有网络VPC将...

DataWorks访问DLF

如何在阿里云DataWorks数据集成服务通过Paimon REST将数据导入至DLF Catalog。前提条件已创建DataWorks工作空间。如未创建，详情请参见创建工作空间。创建DLF Catalog 详情请参见 DLF 快速入门。创建数据源进入数据源页面。登录 ...

迁移ECS自建MySQL数据库至MaxCompute

本文为您介绍如何使用独享数据集成资源，将您在ECS上自建的MySQL数据库中的数据，迁移到MaxCompute。前提条件已拥有至少一个绑定专有网络VPC的ECS（请勿使用经典网络），并在ECS上安装好MySQL数据库，数据库中已创建好用户和测试数据。...

MongoDB（副本集架构）集成至OSS

本文以自建MongoDB（副本集架构）为例，为您介绍如何将MongoDB（副本集架构）的数据集成到阿里云对象存储OSS（Object Storage Service）的指定存储空间（Bucket）中。前提条件 MongoDB（副本集架构）数据库已通过专有网络VPC接入到阿里云。...

ListDIProjectConfig-查看数据集成项目默认配置

查看当前工作空间中数据集成同步解决方案任务默认的全局配置。接口说明当前 DataWorks 仅支持为同步解决方案任务中的实时同步 DDL 消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务，则配置 DDL 消息处理规则时...

配置PolarDB输入

鼠标悬停至图标，单击新建节点 数据集成 实时同步。您也可以展开业务流程，右键单击目标业务流程，选择新建节点 数据集成 实时同步。在新建节点对话框中，选择同步方式为单表（Topic）到单表（Topic）ETL，输入名称，并选择路径...

资源组管理

它统一调度、数据集成和数据服务等所有场景的计算资源。本文档将解释其核心概念、优势及与旧版资源组的区别。重要 DataWorks推荐使用Serverless资源组。旧版资源组将逐步下线，不再对新用户开放。新用户：请直接学习和使用Serverless资源组...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时，您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

DataStudio侧实时同步任务配置

您需要在数据集成同步任务配置前，配置需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。实时同步支持的数据源及其配置详情请参见支持的数据源及同步方案。已购买合适...

查看运维大屏

运维大屏为您展示周期任务的运维稳定性评估、关键运维指标、调度资源使用概况，以及手动任务和数据集成同步任务的运行详情。这有助于您从宏观角度快速了解整个空间任务的总体情况，及时发现并处理异常任务，从而提升运维效率。使用说明运...

连接同主账号同地域数据源

验证网络连通性登录 DataWorks控制台，切换至目标地域后，单击左侧导航栏的 数据集成 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。在左侧导航栏单击数据源，然后在数据源列表单击新增数据源，根据实际情况选择数据源并...

ListDIJobs-获取数据集成同步任务配置列表

查询数据集成新版任务列表，包括整库同步实时任务，整库同步离线任务，单表同步实时任务等数据集成任务。接口说明需要购买 DataWorks 基础版及以上版本才能使用。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。...

核心收费场景解析

数据集成场景费用进行 数据集成 与运维的相关费用如下：DataWorks侧收费（费用在DataWorks相关账单中）资源组费用：数据同步任务依赖资源组进行。根据资源组不同，将产生 Serverless资源组费用或独享数据集成资源组费用。同步过程中若...

发布数据流

在顶部菜单栏中，选择 Data+AI 数据集成 离线集成。说明若您使用的是极简模式的控制台，请单击控制台左上角的图标，选择全部功能 Data+AI 数据集成 离线集成。单击数据流名称，进入数据流详情页面。可选：试运行数据流。单击画布左上方...

使用实时集成的Kafka数据源进行实时研发

操作步骤步骤一：实时集成MySQL数据源至 Kafka数据源在Dataphin首页，单击顶部菜单栏的研发-数据集成。按照以下操作指引，进入新建实时集成任务对话框。选择项目（Dev-Prod模式需要选择环境）-单击实时集成-单击新建图标-单击实时...

配置数据过滤转换

鼠标悬停至图标，单击新建节点 数据集成 实时同步。您也可以展开业务流程，右键单击目标业务流程，选择新建节点 数据集成 实时同步。在新建节点对话框中，选择同步方式为单表（Topic）到单表（Topic）ETL，输入名称，并选择路径...

数据脱敏

DataWorks数据集成单表实时任务支持在来源与去向组件间新增数据脱敏组件，对来源的数据指定字段进行脱敏，并将脱敏后的数据写入目标表。步骤一：配置单表实时任务新建数据源，详情请参见：数据源管理。新建数据集成任务，详情请参见：...

数据流运维

单击控制台左上角的图标，选择全部功能 Data+AI 数据集成 离线集成。说明若您使用的是非极简模式的控制台，在顶部菜单栏中，选择 Data+AI 数据集成 离线集成。单击数据流名称，进入数据流详情页面。单击画布右上方前往运维。在数据流运...

配置MySQL输入

DataWorks的数据集成实时同步MySQL数据是基于实时订阅MySQL实现的，实时同步MySQL数据目前仅支持配置MySQL数据源为RDS的 5.x 或 8.x 版本的MySQL，如果需要同步DRDS的MySQL，请不要将DRDS的MySQL配置为MySQL数据源，您可以参考配置DRDS...

离线同步写入MongoDB数据

DataWorks的数据集成为您提供MongoDB Writer插件，可从其他数据源中读取数据，并将数据同步至MongoDB。本文以一个具体的示例，为您演示如何通过数据集成将MaxCompute的数据离线同步至MongoDB。前提条件本实践进行操作时，需满足以下条件。...

操作指南

您可以在Dataphin工作台进行数据开发、数据治理等操作。功能文档 Dataphin共享模式（全托管版）数仓规划概述数据引入...数据集成概述数据开发概述发布中心运维中心分析平台概述资产清单概述数据标准概述资产质量概述资产安全概述

实时数据消费

实时数据源消费 Kafka数据集成是实时分析功能的另一个组件，它允许 AnalyticDB PostgreSQL版数据库实时地从Kafka Topic中消费数据。为您提供了一个强大的工具，用于结合流处理和批处理的数据分析。更多信息，请参见实时消费Kafka数据。...

配置字符串替换

鼠标悬停至图标，单击新建节点 数据集成 实时同步。您也可以展开业务流程，右键单击目标业务流程，选择新建节点 数据集成 实时同步。在新建节点对话框中，选择同步方式为单表（Topic）到单表（Topic）ETL，输入名称，并选择路径...

DataWorks数据集成服务关联角色

数据集成支持RAM角色授权模式。本文为您介绍如何获取DataWorks数据集成相关的RAM角色列表、删除服务关联角色，以及子账号如何创建服务关联角色所需要的权限。应用场景当您通过RAM角色授权模式创建DataWorks数据源时，请选择相关的自定义...

通用配置：添加白名单

当DataWorks功能模块（如数据集成、数据服务、元数据采集、数据分析等）需要访问您的数据源时，部分数据源会通过白名单机制限制访问来源。为确保各功能模块的正常运行，您需要将对应模块的出口IP地址或网段加入数据源的白名单。背景信息 ...

数据传输服务（上传）场景与工具

说明对于离线数据的同步，推荐您优先使用数据集成，详情请参见 数据集成概述。流式数据通道写入 MaxCompute流式数据通道服务提供了以流式的方式将数据写入MaxCompute的能力，使用与原批量数据通道服务不同的一套全新的API及后端服务。流式...