数据仓库专题(3)-分布式数据仓库事实表设计思考

简介:

一、前言

  最近在设计数据仓库的数据逻辑模型,考虑到海量数据存储在分布式数据仓库中的技术架构模式,需要针对传统的面相关系型数据仓库的数据存储模型进行技术改造。设计出一套真正适合分布式数据仓库的数据存储模型。

二、事实表设计基础

      事实表记录发生在现实世界中的操作型事件,其所产生的可度数值。事实表的设计完全依赖于物理活动,不受可能产生的最终报表的影响。事实表中,除数字度量外,事实表总是包含外键,用于关联与之相关的维度,也可以包含退化的维度键日期/时间戳

三、传统模式

  以FS-LDM数据存储模型Event主题域数据存储模型设计为例,其事件主题域数据逻辑模型结构如下图所示:

   传统模式的主要问题如下:如果数据量很小的情况下,执行多表关联,没有问题,但是当在分布式数据仓库,单表存储海量数据的情况下,很明显模式将面临挑战。

三、分布式模式-维度建模新原则

  (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值;

      (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount Ind,Finance Ind等,用来扩展表的通用性,试图把所有的数据都存储到一张表 中。分布式数据仓库的设计,恰恰相反,因为单表数据规模的问题,如果要满足分析和处理的性能,合理的按照业务进行数据的分表存储。如财务相关事件、账户相关事件,单独成表。更有利于数据的计算和分析。 

四、分布式维度模型实例

序号 字段英文 字段中文 字段解释 字段映射 字段加工逻辑 指标字段
1 event_id 事件ID 记录标识     标识
2 tm 时间 时间戳     维度
3 domain       维度-值
4 ip IP地址 IP地址     维度-值
5 os 操作系统 操作系统     维度-值
6 user_id 用户ID 用户ID     维度-FK
7 date 日期 日期(新增)     维度-值
8 from 来源 访问来源系统     维度-值

 五、未完待续

       分布式数据仓库数据存储模型设计进行中,后续会持续更新,请关注QQ群:分布式数据仓库建模 398419457。

目录
相关文章
|
25天前
|
存储 数据采集 数据挖掘
【软件设计师备考 专题 】数据仓库和分布式数据库基础知识
【软件设计师备考 专题 】数据仓库和分布式数据库基础知识
194 0
|
6月前
|
存储 数据挖掘 关系型数据库
数仓学习---6、数据仓库概述、 数据仓库建模概述、维度建模理论之事实表、维度建模理论之维度表
数仓学习---6、数据仓库概述、 数据仓库建模概述、维度建模理论之事实表、维度建模理论之维度表
|
3月前
|
数据挖掘 数据库
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
106 0
|
4月前
|
存储 大数据 数据管理
数据仓库(08)数仓事实表和维度表技术
所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发
50 1
|
10月前
|
SQL 存储 HIVE
数据仓库系列--维度表技术
数据仓库系列--维度表技术
105 0
|
数据采集 监控 Android开发
网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)|学习笔记
快速学习网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)
356 0
网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)|学习笔记
|
SQL 关系型数据库 数据库
【笔记】开发指南—透明分布式—变更表类型及拆分规则
PolarDB-X新增支持变更表的类型(即在单表、拆分表和广播表三者间进行相互转换),和变更拆分表的拆分规则(包括拆分函数或拆分列)。本文介绍相关语法和示例。
119 0
【笔记】开发指南—透明分布式—变更表类型及拆分规则
|
SQL 数据库 索引
开发指南—透明分布式—变更表类型及拆分规则
PolarDB-X新增支持变更表的类型(即在单表、拆分表和广播表三者间进行相互转换),和变更拆分表的拆分规则(包括拆分函数或拆分列)。本文介绍相关语法和示例。
开发指南—透明分布式—变更表类型及拆分规则
|
1月前
|
NoSQL 算法 安全
Redlock 算法-主从redis分布式锁主节点宕机锁丢失的问题
Redlock 算法-主从redis分布式锁主节点宕机锁丢失的问题
152 0
|
1月前
|
NoSQL 关系型数据库 MySQL
分布式锁(redis/mysql)
分布式锁(redis/mysql)
55 1

热门文章

最新文章