大数据和传统BI

简介:

对于传统企业内部,更多的应该是使用了大数据技术的传统BI平台,或者是融合了传统BI+大数据的混合平台,而不能单纯说是大数据平台。在谈大数据平台的时候,一味去否定传统BI是不合适的。

在没有和互联网打通的传统企业内部,更多接触的仍然是结构化数据,优先要解决的是围绕企业核心价值链的数据建模和企业战略,各业务域KPI体系的建立,决策支持和分析这些内容。在整个数据建模和分析过程中,还要考虑去解决数据不一致性,重复等问题,建立数据管控和治理体系。36大数据(http://www.36dsj.com/)

传统BI平台在发展过程中会遇到问题和瓶颈,使用传统的技术架构无法解决,需要我们在传统BI技术架构的构建中引入大数据相关技术和工具,从这意义上更多应该叫使用了大数据技术的传统BI平台。36大数据(http://www.36dsj.com/)

使用了大数据技术的传统BI平台

在数据存储和查询效率层面,传统BI遇到瓶颈,可以看到在大量的上千万即上亿数据量的结构化数据表中,要进行查询统计分析输出KPI指标性能下降非常明显。为了解决查询效率问题,有两个思路,一个是引入了MPP数据库来解决,一个则是引入Hadoop平台进行存储,虽然是结构化数据但是仍然引入Hadoop平台,重点是解决分布式存储和查询性能问题。36大数据(http://www.36dsj.com/)

其次,虽然传统企业以结构化数据为主,但是仍然出现对大数据量的非结构化数据的采集和处理,这个时候我们可能引入了Hadoop平台,将数据采集,清理存储后最终还是再导入我们的结构化数据仓库。可以看到在这个过程中大数据技术解决了对非结构化数据的处理和整合问题。36大数据(http://www.36dsj.com/)

融合传统BI能力的大数据平台

对于原来没有规划建设BI系统的企业,在构建BI系统的时候更多考虑的就是直接构建大数据平台同时完全融合传统BI应该具备的能力。即既保留了传统BI,又实现了远期对大数据平台和应用的扩展能力。

数据采集层-》数据存储层-》数据处理层-》数据整合层-》数据分析层-》数据展现层

数据采集:大数据在传统ETL基础上增加了对HDFS,非结构化数据,流数据,互联网数据的支持能力

数据存储:增加了HDFS,HBASE等数据存储方式

数据处理:传统BI在ETL过程中可以完成清洗,大数据平台是存采集不处理,处理用单独定制脚本。

数据整合:整合了结构化+非结构化数据,提供统一数据开放接口

数据分析:HIVE+Impala+Spark,大批量和即席交互查询能力并存

数据展现:传统的BI报表功能仍然适用,也可以引入大数据可视化技术

可以看到要融合传统BI能力,则数据整合层需要能够整合结构化数据和非结构化数据,同时提供统一的大数据开放能力服务接口。尽量让前端报表通过大数据服务接口获取数据以隔离底层大数据平台的数据源。即数据展现层和数据整合层通过服务层进行解耦和隔离。

如果企业已有传统BI平台,那么底层的BI平台可以共存,即可以将底层BI平台的ODS库或EDW数据导入到大数据平台进行存储和整合。大数据平台存储一定是混合存储模式,即有些通过Hadoop平台处理后的中间结果数据我们仍然导入到结构化数据库进行存储,遵从传统BI数据建模技术构建星型模型,方便后续对数据进行维度分析和上钻下钻。对于self service BI,我们仍然开放Hadoop平台原始数据接口能力。

一开始就构建大数据目标平台

如果企业在构建平台的时候,一开始目标就很明确是大数据类分析和应用,如采集海量的互联网数据进行某行业的客户行为分析,用户画像,同时结合企业内部经营数据进行针对性营销的辅助决策。那么一开始构建就会以Hadoop平台为主,同时兼容能够采集企业已有的结构化数据。

这类平台在构建过程中可以看到不会是传统BI数据建模和分析那套方法,而更多是新的大数据分析和挖掘技术,则完全可能是以Impala+Hive+Hdfs为主线,以Tableau,Qlic View为前段展现,通过R语言或KNIME进行数据挖掘和分析等。即脱离传统BI,大数据整套框架仍然是完整的。但是弱化了传统BI中的数据建模,数据质量管理,数据治理等方面的能力。


本文作者:人月神话

来源:51CTO

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
SQL 数据可视化 数据建模
大数据分析利器之Power BI,你是否已经掌握?
大数据分析利器之Power BI,你是否已经掌握?
49 0
|
4月前
|
数据可视化 BI Apache
大数据可视化BI分析工具Apache Superset实现公网远程访问
大数据可视化BI分析工具Apache Superset实现公网远程访问
|
9月前
|
移动开发 运维 监控
低代码开发云平台源码,支持多种企业应用场景,快速构建CRM、ERP、OA、BI、IoT、大数据应用程序
基于 moleculer 微服务架构开发,提供微服务的应用开发、配置管理、服务注册与发现、服务认证与授权、服务网关、服务监控、统一日志分析等,提供微服务应用的开发、部署、监控、运维等应用生命周期管理。
低代码开发云平台源码,支持多种企业应用场景,快速构建CRM、ERP、OA、BI、IoT、大数据应用程序
|
11月前
|
数据可视化 Cloud Native 大数据
带你读《企业级云原生白皮书项目实战》——5.4.1 背景
带你读《企业级云原生白皮书项目实战》——5.4.1 背景
144 0
|
11月前
|
人工智能 数据可视化 Cloud Native
带你读《企业级云原生白皮书项目实战》——5.4.2 产品介绍
带你读《企业级云原生白皮书项目实战》——5.4.2 产品介绍
136 0
|
11月前
|
存储 Cloud Native 数据挖掘
带你读《企业级云原生白皮书项目实战》——5.4.3 版本选择
带你读《企业级云原生白皮书项目实战》——5.4.3 版本选择
151 0
|
11月前
|
Cloud Native 大数据 关系型数据库
带你读《企业级云原生白皮书项目实战》——5.4.4 开始使用(1)
带你读《企业级云原生白皮书项目实战》——5.4.4 开始使用(1)
147 0
|
11月前
|
SQL 存储 数据可视化
带你读《企业级云原生白皮书项目实战》——5.4.4 开始使用(2)
带你读《企业级云原生白皮书项目实战》——5.4.4 开始使用(2)
|
11月前
|
数据可视化 Cloud Native 数据挖掘
带你读《企业级云原生白皮书项目实战》——5.4.4 开始使用(3)
带你读《企业级云原生白皮书项目实战》——5.4.4 开始使用(3)
|
2月前
|
传感器 数据可视化 搜索推荐
瓴羊Quick BI助力深圳光明环境水务公司举办水务数据应用大会暨第二届“光环杯”BI应用大赛
瓴羊Quick BI助力深圳光明环境水务公司举办水务数据应用大会暨第二届“光环杯”BI应用大赛