《大数据管理概论》一第2章‖大数据融合2.1 引言

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第2章‖

大数据融合

2.1 引言

大数据时代人们面临的最根本挑战是从数据中凝练可领悟的知识[10,11],
其关键技术是数据的集成或融合[12]。进入21世纪以来,这些技术已经取得了重大进展,如深网(Deep Web)数据集成技术[13]、知识库(Knowledge Base,KB)技术[14,15]、关联数据(Linked Data)集成技术[16]、大数据集成技术[17]等。这些技术在结构化、半结构化、非结构化等各种类型的数据处理上已形成优势,并广泛应用于各个领域:①商业领域,如Google搜索引擎借助Google知识图谱[14]、微软的必应搜索引擎借助知识库Satori[18]提高检索质量和检索效率;②科学领域,如IBM的Watson问答系统借助DBpedia[15]、YAGO[19]、Freebase[20]提供语义感知的问答服务;③专业领域,如生命科学利用Bio2RDF[21]、Neurocommons [22]等知识图谱作问答和决策。
然而,在使用这些已有技术获取知识时出现了如下问题:①获取的知识规模宏大,但缺乏可理解性和可实用性。以知识库为例,如Google知识图谱[14]目前包含多于5亿实体和350亿条实体间的关系信息,至少囊括几千种谓词,这些谓词还在不断增加和变化。要想让用户掌握这些谓词和模式不太现实,所以,当他们面对这些千丝万缕的关系时,很难从本质上理解和消化这些知识,从而降低了大数据应有的价值。②得到的知识品质有差别[17],存在不一致性甚至冲突,尤其是时态型数据,知识的品质更难以有效甄别。并且融合的结果缺乏可解释性,从而导致其可靠性受到质疑。③缺乏与领域知识的结合,并且获取的知识只处于表层理解,导致融合结果与实际应用需求存在鸿沟,例如,一些已被发现的表层现象、规律等没有进一步形成普适机理,使得这种规律性的发现不能有效反馈给融合
过程。
经研究发现,引发这些问题的关键是大数据在不断动态演化,并且需要从多个维度、多种粒度进行解释。此外,数据的组织方式不同得到的知识品质也会有差异,犹如碳原子既可以构成钻石,也可以构成石墨。所以我们认为当下面临的一个突出问题是如何有效地融合知识使大数据的价值最大化,此即大数据融合问题,其关键是突破上述局限——需要把目标聚焦于大数据新的特征和融合方式。
为此,2.2节给出了大数据融合的概念,并分析了融合需求和融合对象的独特性。2.3节总结归纳了现有融合范式,并分析对比了这些融合范式的共同点和各自的优缺点,以及面对大数据,这些融合范式存在的共同缺陷,提出适合大数据的新型融合方法论——动态演化的数据融合与多维度、多粒度的知识融合双环驱动的大数据融合。2.4至2.6节分别探讨大数据融合中数据融合、知识融合和驱动枢纽的内涵、实现方法和技术
难点。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
分布式计算 Kubernetes 大数据
为什么说大数据和云计算的深度融合是大势所趋?
为什么说大数据和云计算的深度融合是大势所趋?
为什么说大数据和云计算的深度融合是大势所趋?
|
5月前
|
机器学习/深度学习 人工智能 Cloud Native
软件开发的未来已来:大数据、AI和云原生的终极融合如何引爆市场
大数据、人工智能(AI)和云原生技术的终极融合正在软件开发领域引发巨大的变革和市场机遇。这个融合的未来已经来临,并将引爆市场的原因如下
112 0
|
7月前
|
存储 大数据 Java
大数据技术之大数据概论
大数据技术之大数据概论
138 0
|
8月前
|
存储 人工智能 分布式计算
Hadoop基础学习---1、大数据概论
Hadoop基础学习---1、大数据概论
|
10月前
|
存储 大数据
大数据技术之大数据概论
大数据技术之大数据概论
99 0
|
城市大脑 人工智能 大数据
《城市大脑—面向智慧城市的融合大数据和AI综合解决方案》电子版地址
城市大脑—面向智慧城市的融合大数据和AI综合解决方案
254 0
《城市大脑—面向智慧城市的融合大数据和AI综合解决方案》电子版地址
|
分布式计算 安全 机器人
融合大数据和云计算是机器人技术的未来
融合大数据和云计算是机器人技术的未来
508 0
融合大数据和云计算是机器人技术的未来
|
人工智能 安全 大数据
天津市大数据管理中心公布百个大数据优秀解决方案,紫光云、浪潮云、中科曙光等企业入选
天津市大数据管理中心公布百个大数据优秀解决方案,紫光云、浪潮云、中科曙光等企业入选
天津市大数据管理中心公布百个大数据优秀解决方案,紫光云、浪潮云、中科曙光等企业入选
融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系
本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flink、Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景。
融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系
|
存储 机器学习/深度学习 人工智能
业内首次融合数据仓库与数据湖 阿里云推出下一代大数据平台 “湖仓一体”
2020年9月18日,阿里云在云栖大会正式推出大数据平台的下一代架构——“湖仓一体”,打通数据仓库和数据湖两套体系,让数据和计算在湖与仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。为企业提供兼具数据湖的灵活性和数据仓库的成长性的新一代大数据平台,降低企业构建大数据平台的整体成本。
9700 0
业内首次融合数据仓库与数据湖  阿里云推出下一代大数据平台 “湖仓一体”