做大数据平台-做大数据平台文档介绍内容-移动阿里云

准备环境

为保证您可以顺利完成本次实验，请您首先确保自己云账号已开通大数据计算服务MaxCompute、数据工场DataWorks和人工智能平台 PAI。前提条件注册阿里云账号，详情请参见注册阿里云账号。实名认证，详情请参见个人实名认证背景信息本次...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

选择地域和存储

使用场景在EMR控制台的节点组配置中，当附录：ECS实例类型选择 大数据型、本地SSD 时，其数据盘为物理直连的本地盘，直接挂载于服务器，提供极低延迟与高吞吐性能。说明本地盘仅适用于核心节点（Core）或任务节点（Task）。本地盘有...

测试案例

背景介绍 TPC-DS是一套决策支持系统的基准测试，它对决策支持系统的几个通用方面进行建模，包括查询和数据维护，用于衡量大数据产品的分析性能。TPC-DS模拟了零售企业三种销售渠道（实体店、互联网、目录）的销售和退货业务，除了建立相关...

数据质量

DataWorks 数据质量（DQC）是一个强大的数据监控和保障平台。它能帮助您在数据生产链路中主动发现并拦截不符合预期的“脏数据”，避免问题数据向下游扩散，从而保障业务决策的准确性，并显著降低问题排查与资源重跑的成本。核心概念与工作...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

配置MaxCompute输出

大数据计算服务MaxCompute（原名ODPS）为您提供完善的数据导入方案，能够快速解决海量数据的计算问题。前提条件配置MaxCompute输出节点前，您需要先配置好相应的输入或转换数据源，详情请参见实时同步能力说明。背景信息写入数据不支持...

Vertica节点

背景信息 Vertica是一个高性能的列式存储数据库管理系统（DBMS），可高速处理和查询大规模数据集，主要用于大数据分析和实时查询。更多介绍请参见 Vertica官网。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程执行不同引擎...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群，基于业务需求进行相关任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和...

Celeborn介绍

Apache Celeborn是阿里云开源的中间数据服务，旨在提升大数据计算引擎的性能、稳定性和灵活性。Celeborn设计独立于具体引擎，支持Spark、Flink、MapReduce(MR)和 Tez，并且是目前最流行的Remote Shuffle Service的实现。Celeborn架构 ...

DB2节点

背景信息 DB2是一款关系型数据库管理系统（RDBMS），用于存储、检索及管理数据，适用于处理高吞吐量、大数据集以及数据仓库的复杂查询和事务处理。更多介绍请参见 DB2官网。前提条件已创建业务流程。数据开发（DataStudio）基于业务流程...

DLF Catalog数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

SelectDB节点

背景信息 SelectDB是基于Apache Doris打造的新一代多云原生实时数据仓库，聚焦于满足企业级大数据实时分析需求，为您提供极致性价比、简单易用的数据分析服务。更多介绍，请参见 SelectDB。前提条件已创建业务流程。数据开发（DataStudio...

数据同步至MaxCompute

DataWorks的数据同步至MaxCompute节点支持将Hologres中的单表数据迁移到MaxCompute，帮助您高效存储大数据。本文将详细介绍配置流程，让您轻松迁移数据并充分利用MaxCompute的高性能处理能力。前提条件已创建MaxCompute项目和 Hologres...

GBase 8a节点

背景信息 GBase 8a是一款关系型数据库管理系统（RDBMS），支持大数据量存储和高并发读写能力，通常用于政府、金融、电信、能源等领域。GBase 8a支持SQL标准，并提供了一系列的企业级功能（例如，数据分区、负载均衡、灾备备份等）。更多...

数据同步至Hologres

DataWorks的数据同步节点支持将MaxCompute中的单表数据同步到Hologres，帮助您更高效地进行大数据分析和实时查询。本文将详细介绍配置流程，让您轻松迁移数据并充分利用Hologres的高性能查询能力。背景信息在使用此功能将MaxCompute的内部...

SQL查询（新版）

对象存储OSS：将查询结果以指定格式（如CSV、Parquet）导出至阿里云对象存储OSS（Object Storage Service）空间，适用于大数据量归档或与其他云产品集成的场景。首次使用时，您需要为DataWorks进行授权，以允许其访问您的OSS资源。请在 ...

SelectDB数据源

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47，驱动能力详情请参见 MySQL Connectors。...

Hologres数据管理

通过DataWorks数据源：如需管理当前工作空间中已创建的Hologres数据源，可在 DataWorks数据源页签找到对应的数据源，单击操作栏的添加为数据目录按钮完成添加。也可在 DataWorks数据源页签勾选多个Hologres数据源，单击列表下方的 ...

管理元数据

元数据管理功能主要展示当前实例的所有数据库、数据表、分区及各种任务等信息，同时支持创建数据库和数据表，并定义其列及相关属性。前提条件已创建StarRocks实例，详情请参见创建实例。使用限制普通用户无法查看数据库大小、缓存数据...

SQL查询（旧版）

对象存储OSS：将查询结果以指定格式（如CSV、Parquet）导出至阿里云对象存储OSS（Object Storage Service）空间，适用于大数据量归档或与其他云产品集成的场景。首次使用时，您需要为DataWorks进行授权，以允许其访问您的OSS资源。请在 ...

DataWorks On MaxCompute使用说明

DataWorks基于云原生大数据计算服务MaxCompute 轻松构建离线数仓分析系统。MaxCompute可通过DataWorks提供的可视化方式配置任务工作流、周期性调度执行任务及元数据管理，保障数据生产及管理的高效稳定。本文为您介绍在DataWorks上开发...

DataWorks On Hologres使用说明

数据地图概述安全中心数据保护伞审批中心安全中心是集数据资产分级分类、敏感数据识别、数据授权管理、敏感数据脱敏、敏感数据访问审计、风险识别与响应于一体的一站式数据安全治理界面，帮助用户落地数据安全治理事项。安全中心概述 ...

资源组操作及网络连通

数据同步网络连通问题在做离线同步时，我们需要先了解哪些DataWorks及其网络能力？同步ECS自建的数据库的数据时，如何保障数据库与DataWorks的网络连通？数据库和DataWorks不在同一个地域（Region）下，进行数据同步时如何保障数据库与...

产品简介

该产品为企业提供了一站式的数据平台服务，包括任务开发、调试、调度及运维等功能，显著简化了数据处理与模型训练的全流程。同时，它100%兼容开源Spark生态，能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark，企业可以...

数据推送节点

数据推送节点可将Data Studio业务流程中其他节点产生的数据查询结果，通过新建数据推送目标，将数据推送至钉钉群、飞书群、企业微信群、Teams以及邮件，便于团队成员及时接收和关注最新数据情况。背景信息数据推送节点可以通过节点上下文...

大数据安全治理的难点

存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）著称，某些巨头组织一天就能新增数十万甚至数百万张表，如此体量给数据分级分类带来了极大挑战，通过人工进行数据分级分类显然是不现实的，...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

功能简介

极大降低使用数据门槛：几乎每个业务每天都存在业务决策，需要大量的分析报告做决策支撑，传统人工性质的商业分析已远远满足不了巨量的需求。利用智能算法能力自动生成洞察报告，极大降低业务人员分析数据的门槛。智能化深度诊断和建议：...

数据导入

如果单表的数据量特别大，或者需要做为全局数据字典来精确去重可以考虑使用 Spark Load。实时数据导入：日志数据和业务数据库的Binlog同步到Kafka后，优先推荐通过 Routine Load 导入StarRocks。如果导入过程中有复杂的多表关联和ETL预处理...

Append Delta Table数据组织优化

即使用户对表的数据规模在当下做了准确的评估，但是随着业务自身的演进，实际的数据规模也会持续变化，之前适用的Bucket数量设置在未来也可能不再适用。综上所述，静态的Bucket数量配置无论是在大规模数据迁移场景，还是在业务快速变化的...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

AI辅助处理

该功能在DataWorks数据集成链路中，原生集成了AI大模型处理能力。它将传统的数据同步从简单的“搬运”升级为智能的“加工”，允许用户在数据从源到端的传输过程中，实时调用AI模型对流经的数据进行内容分析、处理与增强，在数据流转的过程...

API调用特殊参数说明

使用场景交管云控平台使用数据资源平台统一服务作为数据服务发布、管理的平台，交通行业线的API开发者在为API服务编写查询SQL时，会选择使用比较基础的语法，例如只包含SELECT和WHERE条件做一些简单的查询逻辑。等到API开发完成上线后，...

数据开发概述

Data Studio是阿里巴巴基于15年大数据经验打造的智能湖仓一体数据开发平台，兼容阿里云多项计算服务，提供智能化ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持Python开发、Notebook分析与Git集成，Data Studio...

数据开发（Data Studio）（新版）

Data Studio是阿里巴巴基于15年大数据经验打造的智能湖仓一体数据开发平台，兼容阿里云多项计算服务，提供智能化ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持Python开发、Notebook分析与Git集成，Data Studio...

产品服务等级协议

本服务等级协议（Service Level Agreement，以下简称“SLA”）约定了阿里云向客户提供的数据资源平台的服务可用性等级...如您不同意阿里云对SLA所做的修改，您有权停止使用数据资源平台，如您继续使用数据资源平台，则视为您接受修改后的SLA。

Flume

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

向量化处理

NULL值转为空字符串由于大模型做向量化时不允许传入的数据为NULL，因此如果源表数据存在NULL，支持将其转为空字符串处理，避免向量化异常。默认不勾选。是否拼接字段名称做向量化时，是否需要拼接字段名称到文本中一起做向量化。选中时，...