大数据 与 设计原则

_相关内容

产品架构

数据库设计开发:提供多种数据设计与开发工具,如无锁变更、数据导入、结构同步、表一致性修复、数据库分组、数据追踪等。数据传输加工:提供数据同步、数据迁移、数据订阅、数据集成、编排调度等低代码工具。数据应用:提供数据服务、...

数据分析整体趋势

大数据与数据库一体化:早期大数据技术以牺牲一定程度一致性为基础提供分布式能力,解决了传统单机数据库的扩展性不足问题,在MapReduce基础上提供了标准SQL接口,架构上也逐步采用了部分MPP数据库技术;另一方面,分布式数据库也快速发展...

DataWorks V3.0

交互式分析:交互式分析(Interactive Analytics)是一种全面兼容PostgreSQL协议,并与大数据生态无缝打通的实时交互式分析产品。交互式分析支持对万亿级数据进行高并发、低延时、多维分析透视和业务探索,可以让您快速对接现有的BI工具。...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集存储、数据分析处理、数据提取和数据展现分享。说明 上图中,虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示:数据产生:业务系统每天会产生大量结构化的...

Spark集成分析

DLA Ganos是基于云原生数据湖分析(Data Lake Analytics,DLA)系统设计开发的,面向时空大数据存储计算的数据引擎产品。基于DLA无服务器化(Serverless)数据湖分析服务内置的Spark计算引擎,DLA Ganos提供了不同级别的数据分析模型,...

Spark集成分析

DLA Ganos是基于云原生数据湖分析(Data Lake Analytics,DLA)系统设计开发的,面向时空大数据存储计算的数据引擎产品。基于DLA无服务器化(Serverless)数据湖分析服务内置的Spark计算引擎,DLA Ganos提供了不同级别的数据分析模型,...

相关的云服务

DataWorks作为阿里云一站式大数据开发治理平台,通常会计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

产品简介

DLA Ganos是基于云原生数据湖分析(Data Lake Analytics,DLA)系统设计开发的,面向时空大数据存储计算的数据引擎产品。基于DLA无服务器化(Serverless)数据湖分析服务内置的Spark计算引擎,DLA Ganos打通了阿里云各个存储系统,如...

数据

数据库备份场景下,有4个概念:数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量 说明 数据库磁盘空间 由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为:购买时选择的存储...

冷热分层

背景信息 在海量大数据场景下,随着业务和数据量的不断增长,性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案,推出了数据流入、数据组织管理、数据查询和数据流出等特性,同时提供了数据的ACID和CRUD操作...

大数据AI公共数据集分析

本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面最基础的数据分析能力。DataWorks的更...

什么是备份数据

本文介绍数据库备份DBS中备份数据量的概念。名词解释 备份数据量,是指通过DBS备份链路的数据量。常见概念 在数据库备份DBS业务场景下,含有常见以下几个概念:数据库磁盘空间、数据文件空间、备份数据量、存储数据量等。概念 说明 数据库...

轮播页面

数据源 单击 配置数据源,可在 设置数据源 面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果,详情请参见 配置资产数据数据过滤器 数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击 添加过滤器...

OSS数据安全防护最佳实践

应用场景 敏感数据识别 云端OSS中存储了大量的数据与文件,但无法准确获知这些OSS数据中是否包含敏感信息以及敏感数据所在的位置。您可以使用 DSC 内置算法规则,或根据其行业特点自定义规则,对其存储在OSS中的数据进行整体扫描、分类、...

安全设计原则

数据安全保护原则 基于安全责任共担模型,数据安全的体系建设同样划分为租户和云平台,租户侧建立数据安全保护体系建议参考如下原则进行设计数据的分类分级原则:企业应结合实际应用和业务特性,有意识的建立数据分类分级制度和体系,...

建模空间

模型设计师设置好 数据模型设计空间 数据研发工作空间 的关系后,模型设计师在进行模型(汇总表、维度表、明细表、应用表)发布时,可以选择将模型物化到被关联的某一个研发空间,后续数据开发工程师即可在对应的工作空间进行数据开发...

需求分析

根据规范设计工作流(即业务流程):基于数据设计工作流:DataWorks上任务上下游关系遵循节点名表名一一对应原则,基于数据设计工作流。节点命名规范详情请参见:配置同周期调度依赖。新增业务流程管理设计:由于OSS同步任务(ods_...

需求分析

根据规范设计工作流(即业务流程):基于数据设计工作流:DataWorks上任务上下游关系遵循节点名表名一一对应原则,基于数据设计工作流。节点命名规范详情请参见:配置同周期调度依赖。新增业务流程管理设计:由于OSS同步任务(ods_...

简介

系统兼容开源GeoMesa、GeoServer等生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力,广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

明细数据层(DWD)

事实表设计原则 尽可能包含所有业务过程相关的事实。设计事实表的目的是度量业务过程,所以分析哪些事实业务过程有关,是事实表设计中至关重要的。在事实表中应该尽量包含所有业务过程相关的事实,即使存在冗余,但是因为事实通常为...

CDM明细层设计规范

本文为您介绍CDM明细层的表、数据存储生命周期管理和各种事实表的设计规范。表命名规范 命名规则:{project_name}.dwd{业务缩写/pub}{数据域缩写}{业务过程缩写}[{自定义表命名标签缩写}]{刷新周期标识}{单分区增量全量标识}。命名说明:...

开发运维建议

如果应用经常访问较结果集的数据(例如100条),建议将数据聚合成1条,例如经常要按ID访问此ID的数据,建议定期按ID聚合数据,查询时返回的记录数越少响应越快。管理 建议开启SQL洞察和审计,该功能支持查询并导出SQL语句执行历史及其...

数仓规划概述

使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...

深度解析Lindorm搜索索引(SearchIndex)特性

索引预处理 基于索引列的元信息将新插入或者更新的原始数据转换为索引数据,并且针对不同的场景可以选择之匹配的Mutability属性,比较典型的例如日常监控,数据写入后不更新,可以选择Immutable模式,直接生成索引原始数据;而那些有状态...

文档修订记录

QueryPublicModelEngine 2023.10.20 新增功能 上传下载 DataWorks的上传下载模块,提供了便捷的数据上传功能,支持将多种来源(例如,本地文件、OSS文件)的数据上传至MaxCompute大数据引擎中进行分析处理及相关管理操作,致力于为您...

代码模式建模

DataWorks数据建模的设计与实现解耦,在设计过程中,您无需考虑各个大数据引擎的实现方式,建模引擎会根据FML语言定义的Schema去驱动底层各个数据引擎的执行和操作,仅在实际物化(即把设计的逻辑表转换为底层引擎的物理表)阶段,建模引擎...

如何设计时序数据

PRIMARY KEY设计的最佳实践 数据库会根据PRIMARY KEY进行存储分片查询优化,指定PRIMARY KEY的查询请求将会非常高效,强烈建议建表时指定。说明 单机版实例不支持PRIMARY KEY。通常建议选择数据源的唯一标识作为PRIMARY KEY,场景示例...

产品架构

时序引擎 LindormTSDB 是面向海量时序数据设计的分布式时序引擎,兼容开源OpenTSDB等标准接口,其基于时序数据特点和查询方式,采用Timerange+hash结合的分区算法,时序专向优化的LSM架构和文件结构,支持海量时序数据的低成本存储、预降...

CDM公共维度层设计规范

数据记录数较的维度表(例如商品表),可以适当冗余一些子集合,以减少下游扫描数据量:可以根据当天是否有行为,产出一个有活跃行为的相关维表,以减少应用的数据扫描量。可根据所属业务扫描数据范围大小的不同,进行适当子集合冗余。表...

技术面临的挑战革新

在过去网络IO还是一瓶颈的年代,分布式系统设计以及优化的一大原则就是尽量使得计算存储本地化,避免昂贵的网络开销。然而share nothing架构对于跨分片的数据访问不是很友好,比如事务,比如全局索引,实现起来十分复杂,效率也要打上...

混合存储型(已停售)

在保证常用数据访问性能不下降的基础上,混合存储型能够幅度降低用户成本,实现性能成本的平衡,同时使单个Redis实例的数据量不再受内存大小的限制。内存数据:内存中存放了热数据的Key和Value,同时为快速确认要操作的Key是否存在,...

PostgreSQL数据

由于主备数据同步存在一定的时间差,特别在于某些特定情况,例如网络延迟等问题,导致备库同步恢复的数据与主库有较差别,从备库同步的数据不是一份当前时间的完整镜像。一致性约束 PostgreSQL在数据存储划分中属于RDBMS系统,对外可以...

创建并使用MaxCompute表

背景信息 表操作原则 创建操作MaxCompute表,遵循MaxCompute表操作的基本要求。例如,表创建成功后不支持产出字段。详情请参见 MaxCompute表操作使用限制。表物理属性变更 MaxCompute表的物理属性变更操作,均可通过MaxCompute SQL命令...

创建并使用MaxCompute表

背景信息 表操作原则 创建操作MaxCompute表,遵循MaxCompute表操作的基本要求。例如,表创建成功后不支持产出字段。详情请参见 MaxCompute表操作使用限制。表物理属性变更 MaxCompute表的物理属性变更操作,均可通过MaxCompute SQL命令...

DM(达梦)数据

DM(达梦)数据源作为数据中枢,为您提供读取和写入DM数据库的双向通道,能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DM数据同步的能力支持情况。使用限制 离线同步支持读取视图表。DM Reader和DM Writer仅支持使用 独享数据...

AnalyticDB for PostgreSQL数据

AnalyticDB for PostgreSQL数据源...否 无 batchSize 一次性批量提交的记录数大小,该值可以极减少数据集成AnalyticDB for PostgreSQL的网络交互次数,并提升整体吞吐量。但是该值设置过可能会造成数据集成运行进程OOM情况。否 1,024

MaxCompute数据开发规范

本文为您介绍MaxCompute数据开发规范,包括项目空间、表、视图、工作流节点和编码规范。在进行数据开发前,请做好数据仓库研发流程的阶段规划,了解各种角色及其职责,具体内容请参见 数据仓库研发规范概述。项目空间管理规范 关于项目划分...

大数据安全治理的难点

大数据体系的特点安全治理难点 由于大数据系统在“存储、用户、入口、流转、交付”等多方面的特点,想要回答好上述问题,存在诸多难点。存储 众所周知,大数据系统以数据类型多(结构化、非结构化、半结构化)、数据(动辄PB级别)...

从这里开始

设计资源管理的功能可以帮助用户更好地管理自己的设计资源,实现资产的分类、复用和分享,并提升数据看板设计的效率效果。组件收藏:在画布编辑器中可收藏数据看板中的任意组件,方便后期有需要时,随时调用收藏栏中的组件,收藏后的组件...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用