大数据和传统BI-阿里云开发者社区

大数据和传统BI

2017-08-01 2142

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

对于传统企业内部，更多的应该是使用了大数据技术的传统BI平台，或者是融合了传统BI+大数据的混合平台，而不能单纯说是大数据平台。在谈大数据平台的时候，一味去否定传统BI是不合适的。

在没有和互联网打通的传统企业内部，更多接触的仍然是结构化数据，优先要解决的是围绕企业核心价值链的数据建模和企业战略，各业务域KPI体系的建立，决策支持和分析这些内容。在整个数据建模和分析过程中，还要考虑去解决数据不一致性，重复等问题，建立数据管控和治理体系。36大数据(http://www.36dsj.com/)

传统BI平台在发展过程中会遇到问题和瓶颈，使用传统的技术架构无法解决，需要我们在传统BI技术架构的构建中引入大数据相关技术和工具，从这意义上更多应该叫使用了大数据技术的传统BI平台。36大数据(http://www.36dsj.com/)

使用了大数据技术的传统BI平台

在数据存储和查询效率层面，传统BI遇到瓶颈，可以看到在大量的上千万即上亿数据量的结构化数据表中，要进行查询统计分析输出KPI指标性能下降非常明显。为了解决查询效率问题，有两个思路，一个是引入了MPP数据库来解决，一个则是引入Hadoop平台进行存储，虽然是结构化数据但是仍然引入Hadoop平台，重点是解决分布式存储和查询性能问题。36大数据(http://www.36dsj.com/)

其次，虽然传统企业以结构化数据为主，但是仍然出现对大数据量的非结构化数据的采集和处理，这个时候我们可能引入了Hadoop平台，将数据采集，清理存储后最终还是再导入我们的结构化数据仓库。可以看到在这个过程中大数据技术解决了对非结构化数据的处理和整合问题。36大数据(http://www.36dsj.com/)

融合传统BI能力的大数据平台

对于原来没有规划建设BI系统的企业，在构建BI系统的时候更多考虑的就是直接构建大数据平台同时完全融合传统BI应该具备的能力。即既保留了传统BI，又实现了远期对大数据平台和应用的扩展能力。

数据采集层-》数据存储层-》数据处理层-》数据整合层-》数据分析层-》数据展现层

数据采集：大数据在传统ETL基础上增加了对HDFS，非结构化数据，流数据，互联网数据的支持能力

数据存储：增加了HDFS，HBASE等数据存储方式

数据处理：传统BI在ETL过程中可以完成清洗，大数据平台是存采集不处理，处理用单独定制脚本。

数据整合：整合了结构化+非结构化数据，提供统一数据开放接口

数据分析：HIVE+Impala+Spark，大批量和即席交互查询能力并存

数据展现：传统的BI报表功能仍然适用，也可以引入大数据可视化技术

可以看到要融合传统BI能力，则数据整合层需要能够整合结构化数据和非结构化数据，同时提供统一的大数据开放能力服务接口。尽量让前端报表通过大数据服务接口获取数据以隔离底层大数据平台的数据源。即数据展现层和数据整合层通过服务层进行解耦和隔离。

如果企业已有传统BI平台，那么底层的BI平台可以共存，即可以将底层BI平台的ODS库或EDW数据导入到大数据平台进行存储和整合。大数据平台存储一定是混合存储模式，即有些通过Hadoop平台处理后的中间结果数据我们仍然导入到结构化数据库进行存储，遵从传统BI数据建模技术构建星型模型，方便后续对数据进行维度分析和上钻下钻。对于self service BI，我们仍然开放Hadoop平台原始数据接口能力。

一开始就构建大数据目标平台

如果企业在构建平台的时候，一开始目标就很明确是大数据类分析和应用，如采集海量的互联网数据进行某行业的客户行为分析，用户画像，同时结合企业内部经营数据进行针对性营销的辅助决策。那么一开始构建就会以Hadoop平台为主，同时兼容能够采集企业已有的结构化数据。

这类平台在构建过程中可以看到不会是传统BI数据建模和分析那套方法，而更多是新的大数据分析和挖掘技术，则完全可能是以Impala+Hive+Hdfs为主线，以Tableau，Qlic View为前段展现，通过R语言或KNIME进行数据挖掘和分析等。即脱离传统BI，大数据整套框架仍然是完整的。但是弱化了传统BI中的数据建模，数据质量管理，数据治理等方面的能力。

本文作者：人月神话

来源：51CTO

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

大数据和传统BI

热门文章

最新文章

相关课程

相关电子书

相关实验场景