北京年会和关于数据仓库板块的思考

简介:
   说实话我认为是一个喜欢研究技术的人,虽然我的 Oracle 、 Sybase 、 SQLServer 等数据库 水平实在很菜,甚至 Powerbuilder,VB,Java 水平也不过尔耳;在火车上是和 hanson 、 yxyup 、 yeahy 三位 Oracle 高手一起入住的;在 08 年会 上新认识的 warehouse 、 zhouwf0726 、赵宇;包括 ningoo 、 blue_prince 、 xzh2000 、 piner 在内的淘宝的一系列的 DBA ; yangtingkun 、 D.C.B.A 、 rollingpig 这样的牛人;其他 DBA 像老朱、 diablo2 虽然是 DB2 或者已经不做数据库了;还有棉花糖这个好学生; ora-600 这个职业讲师兼自由人;已经当了官的 QQ 小鸟; HP 的 yanggq 、 fusnow 、 skyjiang ;当然还有 eygle 和 biti 这两位超级牛人,虽然他们不一定认识我; Oracle 板块的斑竹我应该认识一半有余了;总的来说给我的感觉他们的数据库功底非常的深厚, Oracle 的 DBA 队伍越来越庞大,人才济济;这一点看看数据库的分会场就知道了,这一块也是 itpub 安身立命的基础 ,也是打败各个其他论坛的基石,衷心希望 itpub 能够坚持下去, DBA 能够一代一代的传承下去;环顾过去数据仓库只有我和 flywolf2000 两个人参会,未免太形单影只了,当然数据仓库并不是我们两个可以代表的。
 
当然除了 itpub 之外还有一些其他活跃的论坛和群组,像 TTNN 、 dwway 、 ChinaBI 、 BI 立方体-商业智能社区、 CSDN 的子板块。
 
http://www.dwway.com/ 好像那里需要发表原创文档才能成为正式会员,反正我发了一篇之后就没去过了,要求门槛太高,变成阳春白雪了,对于普及和发展阶段的 BI/DW 并非什么好事。
http://www.ChinaBI.com/ 网站口气很大,不过似乎并不活跃,那里的文章转载居多(当然也包括我的,曾向我约稿过,后来就没怎么谈了),所有的博客访问量比我多一些,以介绍案例为主
http://www.bicubes.com 是个刚成立的网站,最近折腾的比较厉害,刚开始在 itpub 上做广告,还因为转载文章的缘故,在数据仓库板块 PK 了一阵子,着是热闹了一阵子,没理会他,最近联合 TTNN 组织过两次 BIER 的聚会。曾经想注册看看虚实,无奈新浪邮箱注册不了也就算了,不过更新很慢。
http://groups.google.com/group/ttnn 算是个比较火的 BI/DW 讨论群组了,每个月定期会出一本电子杂志,创办人独立支撑了两年 ( 确实很不容易 ) ,务虚和耍嘴皮子的太多而真正做架构的很少,很多东西流于概念 ,谈不到一起,后来我也就是定期去下载杂志,不怎么发言了。道不同不相为谋,没准别人认为我层次太低呢。上面的数据仓库板块可以忽略不谈了
 
itpub 的数据仓库板块现状又如何呢?
只能说数据仓库板块依托于 itpub 数据库板块和社区功能情况还不至于太糟糕;搞数据库的往往自以为数据库和性能优化可以解决一切数据仓库问题,自然不屑于这些有些理想化和过于理论化的东西,像盛大好像就是如此花了很多时间请外面的人讲解数据仓库基本知识; ebay 倒是有一批专职数据仓库人员的,可相当部分是 HP 过去的,因为 ebay 的数据仓库就是 HP 的人在维护和实施的;呵呵,不知道淘宝的数据仓库如何; itpub 上讨论具体工具使用的太多,还处于初级阶段,当然这和数据仓库自身的特点很有关系, BI/DW 包括了数据库、 OLAP 、报表展现工具、 ETL 工具等等,每种又包括若干主流工具,数据仓库解决方案可能由几十种组合方式,大家疲于奔命只好学习 工具而不能自拔了;稍微有些数据仓库工作经验的就开始务虚了,讨论这个概念那个概念的,以为概念能解决任何问题;有些人过分拘泥于数据仓库的概念,对数据仓库、数据库、 OLAP 、 BI 本身的概念纠缠不休,殊不知数据仓库本身就在不断的发展过程中;有些人还对业务驱动还是技术驱动的第一驱动力产生了兴趣,曾经在数据仓库板块发动了一场轰轰烈烈的辩论;新概念只能是为了吸引新的用户群体发展客户群来用的,不管怎么数据仓库的本质没有改变。
 
说了这么多,那数据仓库究竟是什么呢?
数据仓库定义为 “ 一个面向主题的、集成的、随时间变化的、非易变的用于支持管理 的决策过程的数据集合 ” 。也就是说数据仓库是个数据集合,它的载体依然是数据库,不过和大多数联机在线系统( OLTP )在目标用途特性上已经有了本质的区别。
联机事务 处理系统 (OLTP) ,也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间。 OLTP 系统的主要特点就是事务处理、面向应用、反映当前情况。
    数据仓库的目的则是为了解决在信息技术 (IT) 发展中存在的拥有大量数据、然而有用信息贫乏 (Data rich-Information poor) 的问题。如何把数据转换成信息,进一步把信息转换成知识的过程。数据仓库的特点则是面向主题、集成性—企业数据框架、历史性、稳定性。
   说到底数据仓库不是一门纯粹的技术,不是数据库不是 OLAP 不是 ETL 甚至不是 BI 工具,从数据库角度来看,良好的物理设计和性能优化只是其手段而不是目的,数据仓库允许数据的冗余允许长时间的运行;它应该是一种体系结构,它的核心是在于对于数据的整合,通过抽丝剥茧把企业原始数据进行集成、归类、分析,从而提供了企业决策分析需要的 KPI ;同样它也是一个过程 ETL 对数据进行集成、整合、清洗、转换和加载,并在实践和与用户确认中不断的校验,其最终目标是为了达到整合企业信息信息,提供决策支持。
 
    因此数据仓库本身应该包括两个问题:逻辑结构和物理结构物理的就是数据仓库架构问题,一套好的解决方案应该是有弹性的, ODS 区、明细数据数据区、汇总数据区(也叫事实表);以及数据库、 OLAP 、报表工具、 ETL 处理一个都不能少;数据库作为数据仓库的载体,而且是超大数据集合的存储,其性能和分层设计自然是重中之重; OLAP 关系到多维立方体和数据的展现效率和效果;报表工具是用户的门户,良好的用户体验也是系统的关键; ETL 呢是数据仓库最为关键的地方。 ETL 既可以是纯粹的数据库脚本也可以是 ETL 工具本身的可视化界面, ETL 工具本身提供了屏蔽各个异构系统之间的复杂接口,提供了集成转化抽取装载的一致化接口,甚至提供了性能优化的途径,也相应的也减化和弱化了 DBA 的工作。当然 ETL 工具的优化无论如何也比不上 DBA 的优化结果。某种程度上仍然需要数据仓库 DBA 的参与。
 
    逻辑的主要是指业务问题,如果只是数据迁移和数据的集中,达不到决策支持的目标,便失去了数据仓库的意义,因此业务问题才是数据仓库项目成败最重要的关键环节,所以必须有商务领域知识专家、 IT 专家的角色 ( 就是通常所说的咨询顾问 ) 和甲方的积极参与,这些人往往具备比较资深的行业背景,具备丰富的独立实施该行业信息系统建设的经验,了解该行业最先进和通用的标准和规范,同时在结合现有企业信息系统的基础上,以及融合企业发展战略的基础上,提出当前企业的业务模型,来帮助企业提高决策支持分析能力。这一点我不是行业专家,不敢谈及太多。
 
    年会的时候, Sybase 公司的卢总找 flywolf2000 和我谈起邀请 Ralph Kimball 来华授教的问题,想通过 itpub 了解和调查一下用户可接受的前景,毕竟邀请大师来也是一笔不小的费用。如果能和 it168 联合举办也不失为宣传 it168 和 itpub 的一种策略,至于其他的论坛还没有足够的财力来支撑这笔联办费用。 Infosys 曾经邀请过数据仓库的鼻祖 Bill Inmon 到印度培训了两周,留下了很多的宝贵资料。在我看来他们没有什么本质的区别,只是细节和实施方法上有些差别而以,大概是因为我读的书确实不够多的缘故。
 
    尽管数据库和数据仓库本质上和要求是不同的,而令我感到惭愧的是我工作了很多年, Oracle 从使用到现在也经历了 8 个春秋了,却还不如那些论坛里面学了 2 年 Oracle 的人厉害,也许 Oracle 数据库管理确实不是我的专长,但是学好数据库无论如何对数据仓库的物理架构设计还是有着至关重要的影响的,有一技之长总是好的,像我总是飘忽在博而不精、杂而不专的陷阱之中;我希望能够像各位 Oracle 牛人学习,并在此再向那些深耕于 Oracle 的 DBA 表示深深的敬意!
 





本文转自baoqiangwang51CTO博客,原文链接:http://blog.51cto.com/baoqiangwang/309747 ,如需转载请自行联系原作者
相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
|
存储 人工智能 NoSQL
杭州悦数成立「悦数图技术陆家嘴数据智能研究院」入驻上海「双城辉映」平台
2023年12月15日,杭州悦数科技有限公司(以下简称“杭州悦数”)在上海成立悦数图技术陆家嘴数据智能研究院,正式入驻陆家嘴金融城双城辉映会客厅。杭州悦数将与陆家嘴双城辉映会客厅深度合作,依托平台方陆家嘴金融城和张江科学城在科技、产业、金融方面的高水平支持,打造基于图技术(Graph Technology)和人工智能(AI)的前沿数据技术研究院,研究和构建下一代数据智能技术,赋能企业和机构的数据价值生产能力。
|
4月前
|
人工智能 安全 大数据
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
喜报|瓴羊Dataphin入选上海市经信委2023创新攻关成果、IDC企业大数据治理研究代表产品
|
数据采集 分布式计算 DataWorks
阿里云DataWorks荣获DAMA中国数据治理优秀产品奖
2022年12月3日,2022 DAMA中国数据管理峰会(线上部分)成功举行,汇聚多位世界级数据大咖分享,阿里云DataWorks凭借全链路数据治理产品体系,丰富的行业客户最佳实践案例,获得“DAMA中国数据治理优秀产品奖”。
1596 0
|
存储 Cloud Native OLAP
喜报!阿里云自研云原生数据仓库AnalyticDB获颁浙江省科学技术奖成果产业化奖励
2021年4月28日,杭州市制造业高质量发展大会召开,并公布《2020年全市制造业高质量发展重点奖项目录》。阿里云自研云原生数据仓库AnalyticDB因曾荣获2019年浙江省科技进步一等奖,再次入选科技创新类省级科学技术奖成果产业化项目。
1231 0
喜报!阿里云自研云原生数据仓库AnalyticDB获颁浙江省科学技术奖成果产业化奖励
|
分布式计算 DataWorks Cloud Native
阿里云云原生一体化数仓入选 2022数博会“十佳大数据案例”
2022年5月26日,中国国际大数据产业博览会(以下简称“数博会”)在贵阳召开,数博会“十佳大数据案例”揭晓,阿里云云原生一体化数仓入选。阿里云云原生一体化数仓可以解决企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理,通过精简的架构,支撑分析决策、异构大数据平台之上的全域数据分析需求。
|
存储 Cloud Native 数据管理
【预约直播】2022全球数据湖峰会盛大启幕
【预约直播】2022年3月31日 全球数据湖峰会盛大启幕
878 0
【预约直播】2022全球数据湖峰会盛大启幕
|
数据可视化 大数据
袋鼠云助力福州市行政(市民)服务中心建设数据可视化大屏展映第二届数字中国建设峰会
5月6日,第二届数字中国建设峰会在福建省福州市召开。 此次峰会以“以信息化培育新动能,用新动能推动新发展,以新发展创造新辉煌”为主题,多部门将在峰会期间发布信息化政策和报告,中央网信办将发布《中国数字建设报告(2018)》,众多国内外相关领域的专家、学者、产业代表出席,各界嘉宾1500多人参会。
2300 0
|
监控 大数据
【数道云大数据】大数据平台哪一个好用?武汉2019年大数据平台排行版?
企业在选择大数据平台的时候考虑的第一要素就是—符合我们企业自身的内在需求,能够帮助企业在这个互联网的时代站住脚步,能够帮助企业对已存在的批量数据进行一个集中地存储、分析、管理。
1757 0
|
新零售 监控 大数据
从方法论到零售客户实践 解码阿里巴巴数据中台——2018上海云栖大会
一、数据中台之道 6月8日,上海云栖大会进入了第二天的议程,数据中台专场论坛座无虚席,数据中台总架构师邓中华女士向在场的观众介绍了数据中台的衍生发展之道。 基于OneID、OneData、OneService的方法论,在阿里巴巴大数据平台上云过程中,提出了云上大数据解决方案——数据中台业务模式,孵化输出Dataphin和Quick BI两款大数据平台型产品。
7415 0
|
大数据 流计算
洞察数据,洞见未来——6.15流计算杭州峰会重磅来袭
阿里云流计算(Alibaba Cloud StreamCompute)是一个一站式、高性能、稳定、易用的流式大数据处理平台,通过它,您可以快速搭建具有亿级QPS处理能力的流式大数据系统。 流计算团队将于6月15日(13:10-17:00点)在西溪园区举办阿里云流计算杭州峰会,聚焦实时大数据处理,邀请阿里云流计算客户和阿里集团内客户深入分享基于阿里云进行大数据处理的解决方案、最佳实践、开发实战等内容,并侧重交流阿里云流计算产品以及业务场景,解决遇到的计算难题。
1913 0