平台大数据-平台大数据文档介绍内容-移动阿里云

层次调用规范

在完成数据仓库的分层后，您需要对各层次的数据之间的调用关系作出约定。层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据，不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

配置敏感数据分类分级

数据分类分级支持您按照数据的价值、内容敏感程度、影响和分发范围对数据进行敏感级别和类型的划分，不同敏感级别的数据其管控原则和数据开发要求存在差异，划分分类分级后，后续可通过分类分级管控不同程度的敏感数据。本文为您介绍如何...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为中获取...

使用新版数据开发体验

通过本教程，您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站行为...

使用旧版数据开发体验

通过本教程，您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从用户网站...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

AI Catalog数据管理

如需更新删除自定义数据集，可通过人工智能平台PAI管理数据集进行操作。管理模型注册模型单击AI Catalog数据目录左侧的图标，在数据目录中找到模型。单击模型右侧的图标，进入 PAI控制台。您可在 AI资产管理模型中注册模型。...

ChatBI会话

注意事项使用MySQL数据源时，ChatBI根据提问生成的SQL可能会进行全表扫描，如果表中数据量较大，将会对数据库造成负载，建议将备库作为数据集，避免对生产环境造成影响。使用Hologres数据源时，请合理规划数据表，推荐使用分区表，避免因...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

Kudu

使用场景典型的应用场景如下：近实时计算场景时间序列数据的场景预测建模与存量数据共存通常生产环境中会有大量的存量数据，数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据，可以使用Impala访问和查询，而...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

Flume

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

应用场景

适用场景 OLAP多维分析用户行为分析用户画像、标签分析、圈人高维业务指标报表自助式报表平台业务问题探查分析跨主题业务分析财务报表系统监控分析实时数仓电商大促数据分析教育行业的直播质量分析物流行业的运单分析金融行业...

规划概述

数据集市：是面向具体业务场景的数据出口，如运营平台集市。主题域：将数据集市按照分析视角进行主题划分，如商品分析域、用户行为域等，一个数据集市下可以有多个主题域。技术视角规划 DataWorks默认预置业界通用的五层数仓（ODS、DIM、...

导入

DataWorks智能数据建模的导入工具，为您提供了数据模型、数据标准等多种类型的对象模板，您可基于不同模板批量创建相应对象。该功能无需多次重复执行创建操作，即可快速生成多个对象，节省大量时间成本。本文为您介绍如何通过批量导入功能...

结果验证

本教程中提供的测试数据也需要进行对应的结构调整，方便您完成数据的导入。在重新创建表并导入数据后，您需要重新测试数仓性能。您可以通过下列表格记录相关数据，并与性能基准进行比对，性能基准详情请参见建立性能基准。测试项测试值 ...

建立性能基准

测试项测试值数据同步时间无占用存储大小无查询执行时间无查询费用预估无记录数据同步时间在您执行数据同步任务后，可以在运维中心周期实例页面右键查看用户任务运行时间，如下图所示。记录占用存储大小登录 DataWorks控制...

配置数据过滤转换

数据过滤插件可以对数据进行规则过滤，例如过滤字段的大小等，符合规则的数据才会被保留。前提条件配置数据过滤节点前，您需要先配置好相应的输入节点，详情请参见实时同步支持的数据源。操作步骤进入数据开发页面。登录 DataWorks控制...

配置DataHub输出

DataHub是流式数据（Streaming Data）的处理平台，为您提供发布、订阅和分发流式数据的功能，让您可以轻松构建基于流式数据的分析和应用。前提条件配置DataHub输出节点前，您需要先配置好相应的输入或转换数据源，实时同步支持的数据源。...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...

DataWorks ChatBI概述

DataWorks的ChatBI基于自然语言处理与智能分析技术，通过对话交互实现从需求解析、数据抽取、代码自动生成到可视化报告输出的全流程自动化分析，能够显著提升数据分析效率与决策精准度。功能介绍 ChatBI能够扮演专业的数据分析师角色。在...

DataWorks ChatBI

DataWorks的ChatBI基于自然语言处理与智能分析技术，通过对话交互实现从需求解析、数据抽取、代码自动生成到可视化报告输出的全流程自动化分析，能够显著提升数据分析效率与决策精准度。功能介绍 ChatBI能够扮演专业的数据分析师角色。在...

配置Hologres输出

分区缓存队列大小分区缓存队列大小越大，对内存的消耗也会越大，如果源端根据分区字段数据乱序比较严重，建议您调大该值，并相应调大内存。作业类型包括重放和插入两种类型：重放表示镜像功能。即源端 INSERT 一条记录，Hologres中...

测试API

如果延迟较大，则需要考虑进行查询逻辑或数据源优化。如果测试失败，请仔细查看错误提示，进行相应的修改并重新测试。测试已发布的API 测试已发布的API是指在服务管理页面（即生产环境）进行测试，您需要先发布API。详情请参见发布API。...

热点视频

DataWorks 数据集成产品演示 DataWorks Data Studio产品演示 DataWorks Notebook 产品演示 DataWorks Copilot产品演示 DataWorks 运维中心产品演示 DataWorks 数据资产治理产品演示 DataWorks 安全中心产品演示

数据源通用属性

访问身份名称类型示例值描述和注意点 authType String Executor 数据源访问身份，枚举值（忽略大小写）：Executor：执行者。TaskOwner：任务责任人。PrimaryAccount：主账号。SubAccount：指定的某一个子账号。RamRole：指定的RAM角色...

数据源列表

Amazon S3数据源 Graph Database（GDB）数据源 PolarDB数据源 Amazon Redshift数据源 HDFS数据源 PolarDB-X 2.0数据源 AnalyticDB for MySQL 2.0数据源 Hive数据源 PostgreSQL数据源 AnalyticDB for MySQL 3.0数据源 Hologres数据源 Redis...

操作指南

您可以在E-Mapreduce控制台创建和管理集群或实例等操作。形态文档 EMR on ECS 创建集群克隆集群新增服务管理配置项 ...数据开发与查询数据导入快速实现向量检索 EMR Serverless Spark SQL开发 Notebook开发 Application开发管理工作流

实践教程

EMR on ECS 手工缩容节点组更换集群损坏的本地盘为集群配置弹性伸缩规则 EMR Serverless StarRocks 存算分离模式下借助本地缓存提升查询性能基于DataFlow集群的Flink服务使用CTAS语句同步MySQL数据至StarRocks 基于实时计算Flink使用...

DataWorks HoloStudio下线公告

尊敬的DataWorks用户：为给您提供一致...如您仍未手动迁移文件，平台将按照默认迁移逻辑，将HoloStudio中的开发成果自动迁移至数据开发（DataStudio）。联系我们如您存在相关疑问，请扫码加入DataWorks公共服务钉钉群进行反馈，二维码如下：

2025-07-31版本

平台侧功能分类功能更新说明相关文档数据目录支持同时添加多个 DLF（之前称为DLF 2.5）数据目录，以便进行联邦查询。在添加DLF数据目录之前，请确保移除所有DLF 1.0的数据目录。管理数据目录 Livy Gateway 默认适配DLF，通过Livy提交...

任务空跑

任务空跑现象说明包含指定执行日期的周、月、年调度节点，在不真实跑数据的日期内，同样会按照调度周期的调度时间启动调度。但该实例的状态为空跑状态（即不会真实跑数据）。当调度到空跑状态的实例时，其空跑表现如下：系统直接返回运行...

Partition

名称类型描述示例值 object 数据表的分区对象 TableId string 所属数据表 ID，可参考 Table 对象。maxcompute-table:project_name:[schema_name]:table_name Name string 名称 ds=20250101 CreateTime long 创建时间（毫秒级时间戳）...

数据治理能力解读

以下为您系列讲解阿里云数据治理能力解读。数据治理的产品介绍主要产品：DataWorks 课程时长：25分钟 DataWorks数据治理能力的最佳实践主要产品：DataWorks、MaxCompute 课程时长：19分钟

同步数据至Kafka

支持的同步类型单表离线支持数据来源：数据集成模块数据来源支持的所有数据源类型配置指导：离线同步任务配置单表实时支持数据来源：DataHub、Hologres 配置指导：数据集成侧同步任务配置整库实时支持数据来源：MySQL、Oracle、...

计费简介

任务调度计费独享资源组（不再推荐）平台托管类型的资源组，包括独享调度资源、独享数据集成资源、独享数据服务资源。仅支持包年包月。旧版资源组计费新用户不再支持购买旧版资源组。公共资源组（不再推荐）DataWorks提供的共享资源，...

数据建模新能力解读

数据建模的发展背景主要产品：DataWorks 课程时长：5分钟当前主流的数据建模方法论主要产品：DataWorks 课程时长：4分钟数据建模的主要能力解读主要产品：DataWorks 课程时长：22分钟相关文档：数仓规划与业务分类逆向建模：物理表...

DatasetLabel

名称类型描述示例值 object PAI 数据集标签 Key string 数据集标签键 key1 Value string 数据集标签值 value1