多源数据融合：大数据分析的瓶颈-阿里云开发者社区

多源数据融合：大数据分析的瓶颈

2017-08-01 3219

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

数据处理新工具使数据科学家从数据准备的繁琐工作中解放出来，但如何根据每个数据分析项目量体定制，融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。

利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神，好像它能成为万能药。其实，这只是大数据应用中的很小一部分。作为智能决策的支持手段之一，大数据在企业、事业、政府、社会管理和发展上的应用是更重要的挑战。在这里，多源数据的融合就成为大数据分析中的瓶颈。

每个亲身参加过大数据项目的数据科学家、数据分析师、数据库管理员都会告诉你，项目的80%的时间和经费花在数据的准备工作上。这其中多源数据的融合是最耗费资源的任务之一。难怪最近纽约时报惊呼：“数据科学家把高达 80%的时间用于数据准备而不是用来发现新的商业智能”。

传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代，数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据，将它们梳理后进行挖掘和分析。在这个过程中，数据融合(data blending)就成为不可或缺的一步。

数据融合与数据仓库(Data Warehouse)、数据一体化(Data Integration)不同。它的目的不是将一个企业(Enterprise)或组织的所有数据集中在一起并标准化而产生唯一的真相(Single Truth)。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集(Analytic Dataset)。这个分析数据集是个独立的和灵活的实体，可随数据源的变化重组、调整和更新。数据融合胜于数据仓库和数据一体化的另一点是它能包容多源数据。

数据融合有六个基本步骤：

连接所需多源数据库并获取相关数据
研究和理解所获得的数据
梳理和清理数据
数据转换和建立结构
数据组合
建立分析数据集

这个过程的每一步都需要数据工作者认真细致的思考、辨认、测试、清理、最后产生可信赖、有意义的分析数据库。在过去，这个数据准备过程很大程度上是通过手动，十分费时和艰辛。即使有数据处理的软件(如Excel, SAS, SPSS等)，每个数据工作者也都是自己使用所熟悉的工具，形成个性化的，充其量是半自动的数据准备程序。最近几年，大数据技术公司将数据处理整合过程中相关技术集合，组合，提升后开发出专门用于数据融合的新工具。应用这些直观、可视、高效的软件工具，数据准备的过程的工效大大提高，在一定程度上解决了数据融合的技术瓶颈。

数据融合的另一瓶颈是思维。打个比方，数据融合就像水泥的现场合成。水泥制作可以从人工搅拌变为机械合成，提高了工效。但水泥配置仍需要正确的配方;沙、石、混凝土的比例，以及相关化学成份的添加对达到水泥的质量标准至关重要。数据处理新工具使数据科学家从数据准备的繁琐工作中解放了出来，但如何根据每个数据分析项目量体定制，融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。

多源的数据可以归纳为三大类：

一手数据(Primary Data)，包括企业或组织直接采集掌控的内部运行数据和营销数据，
二级数据(Secondary Data)，第三者采集、整理、和提供的二手数据，如经济指标、人口普查、民意调查、网路数据等，
科学数据(Scientific Data)，包括科学研究的成果、指数、算法、模型等。

这三类数据为数据为驱动的智能决策提供了不同的观察角度。一手数据具体、灵活、快速积累能够实时或接近实时地为决策者提供监测、追踪、描述信息。二级数据一般是定期公布的数据，它能提供国家、地区、行业的状况信息，成为数据分析中的可比性坐标。科学数据的更新是不定时的，但它代表着目前科研成果，对数据分析的建模和算法提供科学基础。在大数据分析项目中，数据科学家需要针对具体研究课题同时收集、整理、融合相关的三类数据。数据科学家的水平就体现在将三类数据合理、有效、有意义的融合上。

数据融合是目前大数据应用和智能决策过程中一个瓶颈。这个挑战引发了新一轮大数据工具的快速发展。根据2016年高德纳公司数据管理和分析软件工具的评估报告，自我服务式数据准备软件(Self-service Data Preparation)已成为发展最快的工具之一。这一发展趋势应引起我们的关注。同时，数据融合的思维瓶颈仍是所有数据科学家必须面对的更高层次的挑战。

本文作者：张小彦

来源：51CTO

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

多源数据融合：大数据分析的瓶颈

热门文章

最新文章

相关课程

相关电子书

相关实验场景