大数据教程流程-大数据教程流程文档介绍内容-移动阿里云

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将...MaxCompute处理业务数据和日志数据后，可以通过Quick BI快速地以可视化方式展现数据处理结果，详情请参见基于MaxCompute的大数据BI分析。

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

支持的云服务

数据集成 MaxCompute可以通过数据集成功能加载不同数据源（例如MySQL数据库）的数据，也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已集成在DataWorks上，您可以直接在DataWorks上配置MaxCompute数据源并读写...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

准备环境

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR Serverless Spark空间、DataWorks工作空间，并进行相关的环境...

数据保护伞

使用流程数据保护伞为您提供敏感数据规则配置、识别敏感数据、查看识别结果、处理敏感数据等管控流程，帮助您在敏感数据产生的事件前、中、后各阶段管控梳理项目中的敏感数据，保障数据安全。具体流程及相关功能介绍如下。步骤一：事前...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

数据开发流程引导

开发流程数据开发任务的通用开发流程如下。步骤描述相关文档步骤一：新建业务流程 DataWorks数据开发基于业务流程组织与开发代码，您需先新建业务流程，才可进行后续的开发工作。创建业务流程步骤二：新建数据表 DataWorks支持使用...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用数据开发（Data Studio）（新版）进行数据加工。MaxCompute环境准备一、开通MaxCompute产品本教程基于MaxCompute实现，...

准备环境

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的MaxCompute项目、DataWorks工作空间，以及数据来源、计算、存储的...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用数据开发（Data Studio）（新版）进行数据加工。MaxCompute环境准备一、开通MaxCompute产品本教程基于MaxCompute实现，...

准备环境

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的MaxCompute项目、DataWorks工作空间，以及数据来源、计算、存储的...

外部表概述

但这两种方法都有不足之处：第一种方法需要在MaxCompute系统外部做一次中转，如果OSS数据量太大，还需要考虑如何并发来加速，无法充分利用MaxCompute的大规模计算能力。第二种方法通常需要申请UDF网络访问权限，还需要开发者自己控制作业...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

组件数据源配置

数据源适配组件数据源方式接入业务数据流程如下：先接入数据，再通过数据响应结果观察业务数据和组件数据的结构差距，通过数据映射或过滤器进行数据的适配处理，最终得到适配数据。本示例基于一份关键数据字段为 category 产品类别...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用数据开发（Data Studio）（新版）进行数据加工。EMR环境准备本教程需要您创建一个EMR集群并集成到DataWorks，以便在...

准备环境

本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。本教程使用数据开发（Data Studio）（新版）进行数据加工。OSS对象存储环境准备本案例将使用自定义函数，注册函数所用资源将上传至...

任务调试流程

调试运行业务流程数据开发概述，在左侧导航栏的数据开发或手动业务流程模块，双击目标业务流程，进入该业务流程面板。调试运行业务流程。单击业务流程面板工具栏的运行（图标），即可按照依赖关系，依次运行整个业务流程中的任务。说明当...

准备环境

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR Serverless Spark空间、DataWorks工作空间，并进行相关的环境...

如何处理数据倾斜

在云数据库 Tair（兼容 Redis）集群架构实例中，若个别数据分片节点（Data Node）的内存使用率、CPU使用率或带宽使用率等性能指标远远高于其他数据分片，该集群可能已产生数据倾斜。数据倾斜严重时，会导致实例在整体内存使用率不高的情况...

创建业务流程

创建周期业务流程数据开发基于业务流程下对应的开发组件进行具体开发操作，所以您创建节点前需要先新建业务流程。创建业务流程前，您可以参考下文的设计业务流程章节，结合自身的业务情况，先规划设计好符合自身业务诉求的业务流程。...

准备环境

本教程以用户画像分析为例，演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR集群、DataWorks工作空间，并做好相关的环境配置。业务背景为了更好地制定企业...

准备环境

本教程以用户画像分析为例，演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR集群、DataWorks工作空间，并做好相关的环境配置。业务背景为了更好地制定企业...

ClickHouse数据源

支持创建数据源在进行数据同步任务开发时，您需要在DataWorks上创建一个对应的数据源，操作流程请参见创建并管理数据源，详细的配置参数解释可在配置界面查看对应参数的文案提示。数据同步任务开发数据同步任务的配置入口和通用配置...

RAG Agent

当您创建数据集并配置Supabase Storage作为存储时，RAG Agent会自动扫描并同步文件更新，并完成后续的智能分块（Chunking）、向量嵌入以及知识图谱构建等所有流程，极大简化了数据接入流程。多模态文档解析具备强大的文档解析能力，支持...

配置DataV数据源

本文档为您介绍在DataV中使用RDS MySQL数据源的方法。操作步骤登录 Datav控制台。选择我的数据添加数据。填写您已经创建完成的数据库的相关信息，单击确定。说明进入云数据库RDS控制台，单击RDS MySQL实例链接，进入实例的基本信息 ...

数据分析及报告制作

操作流程数据准备。进行数据分析及报告制作前，您需先将您的数据库、数据仓库及本地文件数据接入DataV-Note，作为DataV-Note的原始数据集，供分析单元进行查询分析。详情请参见数据源管理。数据分析及报告制作。数据预处理。您可按需创建...

功能介绍

推送流程数据订阅功能将云数据库HBase增强版（云原生多模数据库Lindorm）表格的增量数据消息主动推送至下游Kafka，推送流程如下。功能特点实时数据订阅功能的信息投递方式有以下特点：支持主键级别保序，对于同一个主键的更新操作，会...

进阶：商品订单畅销类目分析

重要本教程提供的数据仅作为阿里云大数据开发治理平台 DataWorks数据应用实操使用，所有数据均为测试数据，并且仅支持在数据集成模块读取数据。数据库名称配置为 retail_e_commerce。用户名输入用户名 workshop。密码输入密码 workshop...

通过Push模式创建数据订阅

推送流程数据订阅功能将云原生多模数据库 Lindorm 表格的增量数据消息主动推送至下游Kafka，推送流程如下。前提条件已将客户端IP添加至白名单中，具体操作请参见设置白名单。确保源实例、目标实例和LTS服务网络互通，详细信息请参见 ...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

产品教程

MaxCompute Hologres EMR Spark 数据分析 大数据AI公共数据集分析本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，...

导出至OSS

未做分区的普通外表语法支持使用 INSERT INTO 或 INSERT OVERWRITE SELECT 导入数据时，默认是同步执行流程，如果数据量较大达到几百GB，客户端到 AnalyticDB for MySQL 服务端的连接会中断，导致数据导入失败。因此，如果您的数据量较大...

准备环境

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的 EMR Serverless Spark空间、DataWorks工作空间，并进行相关的环境...

准备环境

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的 EMR Serverless Spark空间、DataWorks工作空间，并进行相关的环境...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...