在完成数据仓库的分层后,您需要对各层次的数据之间的调用关系作出约定。层次调用规范 ADS应用层优先调用数据仓库公共层数据。如果已经存在CDM层数据,不允许ADS应用层跨过CDM中间层从ODS层重复加工数据。CDM中间层应该积极了解应用层数据...
通过本教程,您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为...
数据分类分级支持您按照数据的价值、内容敏感程度、影响和分发范围对数据进行敏感级别和类型的划分,不同敏感级别的数据其管控原则和数据开发要求存在差异,划分分类分级后,后续可通过分类分级管控不同程度的敏感数据。本文为您介绍如何...
通过本教程,您可以了解如何使用DataWorks和Spark产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为中...
通过本教程,您可以了解如何使用DataWorks和EMR产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为中获取...
通过本教程,您可以了解如何使用DataWorks和StarRocks产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站行为...
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从用户网站...
通过本教程,您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从...
如需更新删除自定义数据集,可通过 人工智能平台PAI管理数据集 进行操作。管理 模型 注册模型 单击AI Catalog数据目录左侧的 图标,在数据目录中找到模型。单击 模型 右侧的 图标,进入 PAI控制台。您可在 AI资产管理 模型 中 注册模型。...
注意事项 使用MySQL数据源时,ChatBI根据提问生成的SQL可能会进行全表扫描,如果表中数据量较大,将会对数据库造成负载,建议将备库作为数据集,避免对生产环境造成影响。使用Hologres数据源时,请合理规划数据表,推荐使用分区表,避免因...
通过本教程,您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍 为了更好地制定企业经营策略,现需要从...
使用场景 典型的应用场景如下:近实时计算场景 时间序列数据的场景 预测建模 与存量数据共存 通常生产环境中会有大量的存量数据,数据可能存储在HDFS、RDBMS或Kudu中。如果您只是想访问和查询这些存量数据,可以使用Impala访问和查询,而...
数据源支持情况 数据集成目前支持40种以上的数据源类型(包括关系型数据库、非结构化存储、大数据存储、消息队列等),通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、...
Flume最终会将数据落地到实时计算平台(例如Flink、Spark Streaming和Storm)、离线计算平台上(例如MR、Hive和Presto),也可仅落地到数据存储系统中(例如HDFS、OSS、Kafka和Elasticsearch),为后续分析数据和清洗数据做准备。...
适用场景 OLAP多维分析 用户行为分析 用户画像、标签分析、圈人 高维业务指标报表 自助式报表平台 业务问题探查分析 跨主题业务分析 财务报表 系统监控分析 实时数仓 电商大促数据分析 教育行业的直播质量分析 物流行业的运单分析 金融行业...
数据集市:是面向具体业务场景的数据出口,如运营平台集市。主题域:将数据集市按照分析视角进行主题划分,如商品分析域、用户行为域等,一个数据集市下可以有多个主题域。技术视角规划 DataWorks默认预置业界通用的五层数仓(ODS、DIM、...
DataWorks智能数据建模的导入工具,为您提供了数据模型、数据标准等多种类型的对象模板,您可基于不同模板批量创建相应对象。该功能无需多次重复执行创建操作,即可快速生成多个对象,节省大量时间成本。本文为您介绍如何通过批量导入功能...
本教程中提供的测试数据也需要进行对应的结构调整,方便您完成数据的导入。在重新创建表并导入数据后,您需要重新测试数仓性能。您可以通过下列表格记录相关数据,并与性能基准进行比对,性能基准详情请参见 建立性能基准。测试项 测试值 ...
测试项 测试值 数据同步时间 无 占用存储大小 无 查询执行时间 无 查询费用预估 无 记录数据同步时间 在您执行数据同步任务后,可以在 运维中心 周期实例 页面右键查看用户任务运行时间,如下图所示。记录占用存储大小 登录 DataWorks控制...
数据过滤插件可以对数据进行规则过滤,例如过滤字段的大小等,符合规则的数据才会被保留。前提条件 配置数据过滤节点前,您需要先配置好相应的输入节点,详情请参见 实时同步支持的数据源。操作步骤 进入数据开发页面。登录 DataWorks控制...
DataHub是流式数据(Streaming Data)的处理平台,为您提供发布、订阅和分发流式数据的功能,让您可以轻松构建基于流式数据的分析和应用。前提条件 配置DataHub输出节点前,您需要先配置好相应的输入或转换数据源,实时同步支持的数据源。...
在DataWorks的数据开发(DataStudio)、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能,您可将所需历史下载文件重新下载至本地使用,也可追溯历史下载记录的操作详情。前提条件 已通过如下模块...
DataWorks的ChatBI基于自然语言处理与智能分析技术,通过对话交互实现从需求解析、数据抽取、代码自动生成到可视化报告输出的全流程自动化分析,能够显著提升数据分析效率与决策精准度。功能介绍 ChatBI能够扮演专业的数据分析师角色。在...
DataWorks的ChatBI基于自然语言处理与智能分析技术,通过对话交互实现从需求解析、数据抽取、代码自动生成到可视化报告输出的全流程自动化分析,能够显著提升数据分析效率与决策精准度。功能介绍 ChatBI能够扮演专业的数据分析师角色。在...
分区缓存队列大小 分区缓存队列大小越大,对内存的消耗也会越大,如果源端根据分区字段数据乱序比较严重,建议您调大该值,并相应调大内存。作业类型 包括 重放 和 插入 两种类型:重放 表示镜像功能。即源端 INSERT 一条记录,Hologres中...
如果延迟较大,则需要考虑进行查询逻辑或数据源优化。如果测试失败,请仔细查看错误提示,进行相应的修改并重新测试。测试已发布的API 测试已发布的API是指在 服务管理 页面(即生产环境)进行测试,您需要先发布API。详情请参见 发布API。...
DataWorks 数据集成产品演示 DataWorks Data Studio产品演示 DataWorks Notebook 产品演示 DataWorks Copilot产品演示 DataWorks 运维中心产品演示 DataWorks 数据资产治理产品演示 DataWorks 安全中心产品演示
访问身份 名称 类型 示例值 描述和注意点 authType String Executor 数据源访问身份,枚举值(忽略大小写):Executor:执行者。TaskOwner:任务责任人。PrimaryAccount:主账号。SubAccount:指定的某一个子账号。RamRole:指定的RAM角色...
Amazon S3数据源 Graph Database(GDB)数据源 PolarDB数据源 Amazon Redshift数据源 HDFS数据源 PolarDB-X 2.0数据源 AnalyticDB for MySQL 2.0数据源 Hive数据源 PostgreSQL数据源 AnalyticDB for MySQL 3.0数据源 Hologres数据源 Redis...
您可以在E-Mapreduce控制台创建和管理集群或实例等操作。形态 文档 EMR on ECS 创建集群 克隆集群 新增服务 管理配置项 ...数据开发与查询 数据导入 快速实现向量检索 EMR Serverless Spark SQL开发 Notebook开发 Application开发 管理工作流
EMR on ECS 手工缩容节点组 更换集群损坏的本地盘 为集群配置弹性伸缩规则 EMR Serverless StarRocks 存算分离模式下借助本地缓存提升查询性能 基于DataFlow集群的Flink服务使用CTAS语句同步MySQL数据至StarRocks 基于实时计算Flink使用...
尊敬的DataWorks用户:为给您提供一致...如您仍未手动迁移文件,平台将按照 默认迁移逻辑,将HoloStudio中的开发成果自动迁移至数据开发(DataStudio)。联系我们 如您存在相关疑问,请扫码加入DataWorks公共服务钉钉群进行反馈,二维码如下:
平台侧 功能分类 功能更新说明 相关文档 数据目录 支持同时添加多个 DLF(之前称为DLF 2.5)数据目录,以便进行联邦查询。在添加DLF数据目录之前,请确保移除所有DLF 1.0的数据目录。管理数据目录 Livy Gateway 默认适配DLF,通过Livy提交...
任务空跑现象说明 包含指定执行日期的周、月、年调度节点,在不真实跑数据的日期内,同样会按照调度周期的调度时间启动调度。但该实例的状态为空跑状态(即不会真实跑数据)。当调度到空跑状态的实例时,其空跑表现如下:系统直接返回运行...
名称 类型 描述 示例值 object 数据表的分区对象 TableId string 所属数据表 ID,可参考 Table 对象。maxcompute-table:project_name:[schema_name]:table_name Name string 名称 ds=20250101 CreateTime long 创建时间(毫秒级时间戳)...
以下为您系列讲解阿里云数据治理能力解读。数据治理的产品介绍 主要产品:DataWorks 课程时长:25分钟 DataWorks数据治理能力的最佳实践 主要产品:DataWorks、MaxCompute 课程时长:19分钟
支持的同步类型 单表离线 支持数据来源:数据集成模块数据来源支持的所有数据源类型 配置指导:离线同步任务配置 单表实时 支持数据来源:DataHub、Hologres 配置指导:数据集成侧同步任务配置 整库实时 支持数据来源:MySQL、Oracle、...
任务调度计费 独享资源组(不再推荐)平台托管类型的资源组,包括独享调度资源、独享数据集成资源、独享数据服务资源。仅支持 包年包月。旧版资源组计费 新用户不再支持购买旧版资源组。公共资源组(不再推荐)DataWorks提供的共享资源,...
数据建模的发展背景 主要产品:DataWorks 课程时长:5分钟 当前主流的数据建模方法论 主要产品:DataWorks 课程时长:4分钟 数据建模的主要能力解读 主要产品:DataWorks 课程时长:22分钟 相关文档:数仓规划与业务分类 逆向建模:物理表...
名称 类型 描述 示例值 object PAI 数据集标签 Key string 数据集标签键 key1 Value string 数据集标签值 value1