平台大数据

_相关内容

层次调用规范

在完成数据仓库的分层后,您需要对各层次的数据之间的调用关系作出约定。层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据,不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据...

使用旧版数据开发体验

通过本教程,您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为...

配置敏感数据分类分级

数据分类分级支持您按照数据的价值、内容敏感程度、影响和分发范围对数据进行敏感级别和类型的划分,不同敏感级别的数据其管控原则和数据开发要求存在差异,划分分类分级后,后续可通过分类分级管控不同程度的敏感数据。本文为您介绍如何...

使用旧版数据开发体验

通过本教程,您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为中...

使用旧版数据开发体验

通过本教程,您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为中获取...

使用新版数据开发体验

通过本教程,您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为...

使用旧版数据开发体验

通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站...

使用老版DataWorks

通过本教程,您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从...

AI Catalog数据管理

如需更新删除自定义数据集,可通过 人工智能平台PAI管理数据集 进行操作。管理 模型 注册模型 单击AI Catalog数据目录左侧的 图标,在数据目录中找到模型。单击 模型 右侧的 图标,进入 PAI控制台。您可在 AI资产管理 模型 中 注册模型。...

ChatBI会话

注意事项 使用MySQL数据源时,ChatBI根据提问生成的SQL可能会进行全表扫描,如果表中数据量较,将会对数据库造成负载,建议将备库作为数据集,避免对生产环境造成影响。使用Hologres数据源时,请合理规划数据表,推荐使用分区表,避免因...

使用新版DataWorks

通过本教程,您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从...

Kudu

使用场景 典型的应用场景如下:近实时计算场景 时间序列数据的场景 预测建模 与存量数据共存 通常生产环境中会有大量的存量数据数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据,可以使用Impala访问和查询,而...

数据集成

数据源支持情况 数据集成目前支持40种以上的数据源类型(包括关系型数据库、非结构化存储、大数据存储、消息队列等),通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、...

Flume

Flume最终会将数据落地到实时计算平台(例如Flink、Spark Streaming和Storm)、离线计算平台上(例如MR、Hive和Presto),也可仅落地到数据存储系统中(例如HDFS、OSS、Kafka和Elasticsearch),为后续分析数据和清洗数据做准备。...

应用场景

适用场景 OLAP多维分析 用户行为分析 用户画像、标签分析、圈人 高维业务指标报表 自助式报表平台 业务问题探查分析 跨主题业务分析 财务报表 系统监控分析 实时数仓 电商大促数据分析 教育行业的直播质量分析 物流行业的运单分析 金融行业...

规划概述

数据集市:是面向具体业务场景的数据出口,如运营平台集市。主题域:将数据集市按照分析视角进行主题划分,如商品分析域、用户行为域等,一个数据集市下可以有多个主题域。技术视角规划 DataWorks默认预置业界通用的五层数仓(ODS、DIM、...

导入

DataWorks智能数据建模的导入工具,为您提供了数据模型、数据标准等多种类型的对象模板,您可基于不同模板批量创建相应对象。该功能无需多次重复执行创建操作,即可快速生成多个对象,节省大量时间成本。本文为您介绍如何通过批量导入功能...

结果验证

本教程中提供的测试数据也需要进行对应的结构调整,方便您完成数据的导入。在重新创建表并导入数据后,您需要重新测试数仓性能。您可以通过下列表格记录相关数据,并与性能基准进行比对,性能基准详情请参见 建立性能基准。测试项 测试值 ...

建立性能基准

测试项 测试值 数据同步时间 无 占用存储大小 无 查询执行时间 无 查询费用预估 无 记录数据同步时间 在您执行数据同步任务后,可以在 运维中心 周期实例 页面右键查看用户任务运行时间,如下图所示。记录占用存储大小 登录 DataWorks控制...

配置数据过滤转换

数据过滤插件可以对数据进行规则过滤,例如过滤字段的大小等,符合规则的数据才会被保留。前提条件 配置数据过滤节点前,您需要先配置好相应的输入节点,详情请参见 实时同步支持的数据源。操作步骤 进入数据开发页面。登录 DataWorks控制...

配置DataHub输出

DataHub是流式数据(Streaming Data)的处理平台,为您提供发布、订阅和分发流式数据的功能,让您可以轻松构建基于流式数据的分析和应用。前提条件 配置DataHub输出节点前,您需要先配置好相应的输入或转换数据源,实时同步支持的数据源。...

数据下载

在DataWorks的数据开发(DataStudio)、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能,您可将所需历史下载文件重新下载至本地使用,也可追溯历史下载记录的操作详情。前提条件 已通过如下模块...

DataWorks ChatBI概述

DataWorks的ChatBI基于自然语言处理与智能分析技术,通过对话交互实现从需求解析、数据抽取、代码自动生成到可视化报告输出的全流程自动化分析,能够显著提升数据分析效率与决策精准度。功能介绍 ChatBI能够扮演专业的数据分析师角色。在...

DataWorks ChatBI

DataWorks的ChatBI基于自然语言处理与智能分析技术,通过对话交互实现从需求解析、数据抽取、代码自动生成到可视化报告输出的全流程自动化分析,能够显著提升数据分析效率与决策精准度。功能介绍 ChatBI能够扮演专业的数据分析师角色。在...

配置Hologres输出

分区缓存队列大小 分区缓存队列大小越,对内存的消耗也会越,如果源端根据分区字段数据乱序比较严重,建议您调该值,并相应调内存。作业类型 包括 重放 和 插入 两种类型:重放 表示镜像功能。即源端 INSERT 一条记录,Hologres中...

测试API

如果延迟较,则需要考虑进行查询逻辑或数据源优化。如果测试失败,请仔细查看错误提示,进行相应的修改并重新测试。测试已发布的API 测试已发布的API是指在 服务管理 页面(即生产环境)进行测试,您需要先发布API。详情请参见 发布API。...

热点视频

DataWorks 数据集成产品演示 DataWorks Data Studio产品演示 DataWorks Notebook 产品演示 DataWorks Copilot产品演示 DataWorks 运维中心产品演示 DataWorks 数据资产治理产品演示 DataWorks 安全中心产品演示

数据源通用属性

访问身份 名称 类型 示例值 描述和注意点 authType String Executor 数据源访问身份,枚举值(忽略小写):Executor:执行者。TaskOwner:任务责任人。PrimaryAccount:主账号。SubAccount:指定的某一个子账号。RamRole:指定的RAM角色...

数据源列表

Amazon S3数据源 Graph Database(GDB)数据源 PolarDB数据源 Amazon Redshift数据源 HDFS数据源 PolarDB-X 2.0数据源 AnalyticDB for MySQL 2.0数据源 Hive数据源 PostgreSQL数据源 AnalyticDB for MySQL 3.0数据源 Hologres数据源 Redis...

操作指南

您可以在E-Mapreduce控制台创建和管理集群或实例等操作。形态 文档 EMR on ECS 创建集群 克隆集群 新增服务 管理配置项 ...数据开发与查询 数据导入 快速实现向量检索 EMR Serverless Spark SQL开发 Notebook开发 Application开发 管理工作流

实践教程

EMR on ECS 手工缩容节点组 更换集群损坏的本地盘 为集群配置弹性伸缩规则 EMR Serverless StarRocks 存算分离模式下借助本地缓存提升查询性能 基于DataFlow集群的Flink服务使用CTAS语句同步MySQL数据至StarRocks 基于实时计算Flink使用...

DataWorks HoloStudio下线公告

尊敬的DataWorks用户:为给您提供一致...如您仍未手动迁移文件,平台将按照 默认迁移逻辑,将HoloStudio中的开发成果自动迁移至数据开发(DataStudio)。联系我们 如您存在相关疑问,请扫码加入DataWorks公共服务钉钉群进行反馈,二维码如下:

2025-07-31版本

平台侧 功能分类 功能更新说明 相关文档 数据目录 支持同时添加多个 DLF(之前称为DLF 2.5)数据目录,以便进行联邦查询。在添加DLF数据目录之前,请确保移除所有DLF 1.0的数据目录。管理数据目录 Livy Gateway 默认适配DLF,通过Livy提交...

任务空跑

任务空跑现象说明 包含指定执行日期的周、月、年调度节点,在不真实跑数据的日期内,同样会按照调度周期的调度时间启动调度。但该实例的状态为空跑状态(即不会真实跑数据)。当调度到空跑状态的实例时,其空跑表现如下:系统直接返回运行...

Partition

名称 类型 描述 示例值 object 数据表的分区对象 TableId string 所属数据表 ID,可参考 Table 对象。maxcompute-table:project_name:[schema_name]:table_name Name string 名称 ds=20250101 CreateTime long 创建时间(毫秒级时间戳)...

数据治理能力解读

以下为您系列讲解阿里云数据治理能力解读。数据治理的产品介绍 主要产品:DataWorks 课程时长:25分钟 DataWorks数据治理能力的最佳实践 主要产品:DataWorks、MaxCompute 课程时长:19分钟

同步数据至Kafka

支持的同步类型 单表离线 支持数据来源:数据集成模块数据来源支持的所有数据源类型 配置指导:离线同步任务配置 单表实时 支持数据来源:DataHub、Hologres 配置指导:数据集成侧同步任务配置 整库实时 支持数据来源:MySQL、Oracle、...

计费简介

任务调度计费 独享资源组(不再推荐)平台托管类型的资源组,包括独享调度资源、独享数据集成资源、独享数据服务资源。仅支持 包年包月。旧版资源组计费 新用户不再支持购买旧版资源组。公共资源组(不再推荐)DataWorks提供的共享资源,...

数据建模新能力解读

数据建模的发展背景 主要产品:DataWorks 课程时长:5分钟 当前主流的数据建模方法论 主要产品:DataWorks 课程时长:4分钟 数据建模的主要能力解读 主要产品:DataWorks 课程时长:22分钟 相关文档:数仓规划与业务分类 逆向建模:物理表...

DatasetLabel

名称 类型 描述 示例值 object PAI 数据集标签 Key string 数据集标签键 key1 Value string 数据集标签值 value1
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用