数据库设计与开发:提供多种数据设计与开发工具,如无锁变更、数据导入、结构同步、表一致性修复、数据库分组、数据追踪等。数据传输与加工:提供数据同步、数据迁移、数据订阅、数据集成、编排调度等低代码工具。数据应用:提供数据服务、...
大数据与数据库一体化:早期大数据技术以牺牲一定程度一致性为基础提供分布式能力,解决了传统单机数据库的扩展性不足问题,在MapReduce基础上提供了标准SQL接口,架构上也逐步采用了部分MPP数据库技术;另一方面,分布式数据库也快速发展...
交互式分析:交互式分析(Interactive Analytics)是一种全面兼容PostgreSQL协议,并与大数据生态无缝打通的实时交互式分析产品。交互式分析支持对万亿级数据进行高并发、低延时、多维分析透视和业务探索,可以让您快速对接现有的BI工具。...
实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...
通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...
DLA Ganos是基于云原生数据湖分析(Data Lake Analytics,DLA)系统设计开发的,面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化(Serverless)数据湖分析服务与内置的Spark计算引擎,DLA Ganos提供了不同级别的数据分析模型,...
DLA Ganos是基于云原生数据湖分析(Data Lake Analytics,DLA)系统设计开发的,面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化(Serverless)数据湖分析服务与内置的Spark计算引擎,DLA Ganos提供了不同级别的数据分析模型,...
DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...
DLA Ganos是基于云原生数据湖分析(Data Lake Analytics,DLA)系统设计开发的,面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化(Serverless)数据湖分析服务与内置的Spark计算引擎,DLA Ganos打通了阿里云各个存储系统,如...
在数据库备份场景下,有4个概念:数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量 说明 数据库磁盘空间 由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为:购买时选择的存储...
背景信息 在海量大数据场景下,随着业务和数据量的不断增长,性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案,推出了数据流入、数据组织管理、数据查询和数据流出等特性,同时提供了数据的ACID和CRUD操作...
本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...
本文介绍数据库备份DBS中备份数据量的概念。名词解释 备份数据量,是指通过DBS备份链路的数据量。常见概念 在数据库备份DBS业务场景下,含有常见以下几个概念:数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念 说明 数据库...
数据源 单击 配置数据源,可在 设置数据源 面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果,详情请参见 配置资产数据。数据过滤器 数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击 添加过滤器...
应用场景 敏感数据识别 云端OSS中存储了大量的数据与文件,但无法准确获知这些OSS数据中是否包含敏感信息以及敏感数据所在的位置。您可以使用 DSC 内置算法规则,或根据其行业特点自定义规则,对其存储在OSS中的数据进行整体扫描、分类、...
数据安全保护原则 基于安全责任共担模型,数据安全的体系建设同样划分为租户和云平台,租户侧建立数据安全保护体系建议参考如下原则进行设计:数据的分类分级原则:企业应结合实际应用和业务特性,有意识的建立数据分类分级制度和体系,...
模型设计师设置好 数据模型设计空间 与 数据研发工作空间 的关系后,模型设计师在进行模型(汇总表、维度表、明细表、应用表)发布时,可以选择将模型物化到被关联的某一个研发空间,后续数据开发工程师即可在对应的工作空间进行数据开发...
根据规范设计工作流(即业务流程):基于数据流设计工作流:DataWorks上任务上下游关系遵循节点名与表名一一对应原则,基于数据流设计工作流。节点命名规范详情请参见:配置同周期调度依赖。新增业务流程管理设计:由于OSS同步任务(ods_...
根据规范设计工作流(即业务流程):基于数据流设计工作流:DataWorks上任务上下游关系遵循节点名与表名一一对应原则,基于数据流设计工作流。节点命名规范详情请参见:配置同周期调度依赖。新增业务流程管理设计:由于OSS同步任务(ods_...
系统兼容开源GeoMesa、GeoServer等生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力,广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...
事实表设计原则 尽可能包含所有与业务过程相关的事实。设计事实表的目的是度量业务过程,所以分析哪些事实与业务过程有关,是事实表设计中至关重要的。在事实表中应该尽量包含所有与业务过程相关的事实,即使存在冗余,但是因为事实通常为...
本文为您介绍CDM明细层的表、数据存储与生命周期管理和各种事实表的设计规范。表命名规范 命名规则:{project_name}.dwd{业务缩写/pub}{数据域缩写}{业务过程缩写}[{自定义表命名标签缩写}]{刷新周期标识}{单分区增量全量标识}。命名说明:...
如果应用经常访问较大结果集的数据(例如100条),建议将数据聚合成1条,例如经常要按ID访问此ID的数据,建议定期按ID聚合数据,查询时返回的记录数越少响应越快。管理 建议开启SQL洞察和审计,该功能支持查询并导出SQL语句执行历史及其...
使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...
索引预处理 基于索引列的元信息将新插入或者更新的原始数据转换为索引数据,并且针对不同的场景可以选择与之匹配的Mutability属性,比较典型的例如日常监控,数据写入后不更新,可以选择Immutable模式,直接生成索引原始数据;而那些有状态...
QueryPublicModelEngine 2023.10.20 新增功能 上传与下载 DataWorks的上传与下载模块,提供了便捷的数据上传功能,支持将多种来源(例如,本地文件、OSS文件)的数据上传至MaxCompute大数据引擎中进行分析处理及相关管理操作,致力于为您...
DataWorks数据建模的设计与实现解耦,在设计过程中,您无需考虑各个大数据引擎的实现方式,建模引擎会根据FML语言定义的Schema去驱动底层各个数据引擎的执行和操作,仅在实际物化(即把设计的逻辑表转换为底层引擎的物理表)阶段,建模引擎...
PRIMARY KEY设计的最佳实践 数据库会根据PRIMARY KEY进行存储分片与查询优化,指定PRIMARY KEY的查询请求将会非常高效,强烈建议建表时指定。说明 单机版实例不支持PRIMARY KEY。通常建议选择数据源的唯一标识作为PRIMARY KEY,场景示例...
时序引擎 LindormTSDB 是面向海量时序数据设计的分布式时序引擎,兼容开源OpenTSDB等标准接口,其基于时序数据特点和查询方式,采用Timerange+hash结合的分区算法,时序专向优化的LSM架构和文件结构,支持海量时序数据的低成本存储、预降...
数据记录数较大的维度表(例如商品表),可以适当冗余一些子集合,以减少下游扫描数据量:可以根据当天是否有行为,产出一个有活跃行为的相关维表,以减少应用的数据扫描量。可根据所属业务扫描数据范围大小的不同,进行适当子集合冗余。表...
在过去网络IO还是一大瓶颈的年代,分布式系统设计以及优化的一大原则就是尽量使得计算存储本地化,避免昂贵的网络开销。然而share nothing架构对于跨分片的数据访问不是很友好,比如事务,比如全局索引,实现起来十分复杂,效率也要打上...
在保证常用数据访问性能不下降的基础上,混合存储型能够大幅度降低用户成本,实现性能与成本的平衡,同时使单个Redis实例的数据量不再受内存大小的限制。内存数据:内存中存放了热数据的Key和Value,同时为快速确认要操作的Key是否存在,...
由于主备数据同步存在一定的时间差,特别在于某些特定情况,例如网络延迟等问题,导致备库同步恢复的数据与主库有较大差别,从备库同步的数据不是一份当前时间的完整镜像。一致性约束 PostgreSQL在数据存储划分中属于RDBMS系统,对外可以...
背景信息 表操作原则 创建与操作MaxCompute表,遵循MaxCompute表操作的基本要求。例如,表创建成功后不支持产出字段。详情请参见 MaxCompute表操作使用限制。表物理属性变更 MaxCompute表的物理属性变更操作,均可通过MaxCompute SQL命令...
背景信息 表操作原则 创建与操作MaxCompute表,遵循MaxCompute表操作的基本要求。例如,表创建成功后不支持产出字段。详情请参见 MaxCompute表操作使用限制。表物理属性变更 MaxCompute表的物理属性变更操作,均可通过MaxCompute SQL命令...
DM(达梦)数据源作为数据中枢,为您提供读取和写入DM数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DM数据同步的能力支持情况。使用限制 离线同步支持读取视图表。DM Reader和DM Writer仅支持使用 独享数据...
AnalyticDB for PostgreSQL数据源...否 无 batchSize 一次性批量提交的记录数大小,该值可以极大减少数据集成与AnalyticDB for PostgreSQL的网络交互次数,并提升整体吞吐量。但是该值设置过大可能会造成数据集成运行进程OOM情况。否 1,024
本文为您介绍MaxCompute数据开发规范,包括项目空间、表、视图、工作流节点和编码规范。在进行数据开发前,请做好数据仓库研发流程的阶段规划,了解各种角色及其职责,具体内容请参见 数据仓库研发规范概述。项目空间管理规范 关于项目划分...
大数据体系的特点与安全治理难点 由于大数据系统在“存储、用户、入口、流转、交付”等多方面的特点,想要回答好上述问题,存在诸多难点。存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据量大(动辄PB级别)...
设计资源管理的功能可以帮助用户更好地管理自己的设计资源,实现资产的分类、复用和分享,并提升数据看板设计的效率与效果。组件收藏:在画布编辑器中可收藏数据看板中的任意组件,方便后期有需要时,随时调用收藏栏中的组件,收藏后的组件...