《大数据管理概论》一2.5 知识融合技术

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.5 知识融合技术

知识融合是将数据融合阶段获得的笼统的知识转化为可领悟知识,面向需求提供知识服务。它需要挖掘隐含知识,寻找潜在知识关联,进而实现知识的深层次理解,以便更好地解释数据。为此,我们给出知识融合的实现步骤:①对知识进行抽象和建模,为后续知识融合提供方便;②通过对表层知识的推理、理解,得出显式深度知识,如通过多路径关系推理得到间接知识;③通过推理、归纳等方法发现隐式深度知识,如类比关系等;④对知识资源、深度知识等剖析、解释、归纳出普适机理。

2.5.1 知识抽象与建模

知识抽象与建模是指根据数据的分布规律归纳出数据的结构规则进而抽象出数据之间的关联模式来表示知识的过程。知识可以以非结构化的XML、JSON、CSV形式表示,也可以直接用关系数据库形式表示。但是目前主流表示方式是RDF——<主语,谓语,宾语>——三元组,其中主语是实体,谓语是关系,宾语既可以是实体也可以是实体的属性值。知识图谱通常建模为RDF图或者嵌入表示为低维向量空间。它的难点在于数据关系多粒度并存、相互嵌套、复杂关联,面对大数据需要精简表达。
RDF图是指由RDF三元组按照关联关系链接成的图,在RDF知识图谱中,相似的实体很可能相关,相邻的节点或者有路径相连的节点很可能相似,一般采用局部相似、全局相似和准局部相似方法。局部相似性计算只依赖于直接链接的实体,不能模拟大范围的依赖关系。全局相似性考虑了所有路径上的实体,预测性能比局部性相似方法好,但计算更昂贵。准局部相似方法通过路径实体的相似度和有限长度的随机游走平衡了预测精度和计算复杂度。RDF图既不损失语义关联又能很好地表示知识,它的一个难点是需要对RDF图携带的三种信息——描述性属性、语义关系,以及两者兼顾的语义图结构进行概念描述,这一步对后续深度知识发现特别
重要。
嵌入表示将实体和关系都表示为低维向量,并且定义一个评分函数来确定元组的合理性,主要模型有双线性模型(复杂度较高,不适合Web规模的知识图谱)、多层感知模型和潜在距离模型。多层感知模型参数复杂,潜在距离模型将实体和关系表示为高斯分布或映射为超平面中的点。采用嵌入表示的目的主要是为了缓解数据稀疏,建立统一的语义表示空间,实现知识迁移,它的挑战性在于缺乏对各语言单位统一的语义表示与分析手段。嵌入表示和图特征模型互补,前者擅长通过引入新的潜在变量建模全局关系模式,并且当元组可以用少量的隐变量解释时计算效率很高;后者擅长建模局部和准局部图模式,并且当元组可以由邻居实体或与其有较短路径的实体解释时计算效率很高。

2.5.2 关系推演

关系推演可以看作显式深度知识发现,包括二元关系推理、多路径关系推理和演化关系推理。二元关系推理是指根据历史知识预测两个实体之间可能存在的关联关系,或者给定一个实体和一种关系,预测与之对应的实体。这种预测的关键在于实体和关系的表示。多路径关系推理的难点在于组合语义模型的设计和推理关系的可用性确定,与知识表示形式密切相关。关系演化建模中的关系可以是属性关系,也可以是语义关系,所以需要对关系变化进行细粒度的分析。此外,发现的深度知识对关系推演具有参考价值,所以还需要考虑深度知识发现反馈的结果。
关系推演方面目前关注的大多是直接关系和多路径关系的推理,缺乏对关系之间复杂模式的考虑,如自动通过元组<人,离不开,空气>推断出元组<鱼,离不开,水>这种类比关系。关系推演还借助于知识表示,目前有嵌入表示和RDF图两种表示。嵌入表示方法存在复杂关系表示与系统可扩展性不能兼顾的问题。采用RDF图表示时,传统的图相似性计算只是考虑到图结构的相似性,典型的如图结构的编辑距离和最小公共子图等,显然这种量度不能很好地反映语义上的相似性。有时实体间图结构的编辑距离比较大,但是它们的语义等价。所以采用RDF图表示时要重点考虑语义关系。无论采用哪种表示形式,都需要考虑推理关系的可信性,自动过滤无意义的推理关系。
此外,大数据融合是跨领域、跨语言、跨数据源的大融合,不同领域、语境和数据源之间的数据也可能是有关联的,所以,关系推理也不应该限定在单一知识库内,跨领域、跨语言、跨数据源的知识推理是大数据融合的一大趋势。并且关系推演的结果对数据融合、深度知识发现和普适机理形成至关重要,应该将推理结果扩充到知识库。这样做是具有挑战性的,首先推理结果准确性低、冗余度高,在将其加入知识库之前,通常需要进行可证明性检测和冲突检测来避免知识库中知识的矛盾和冗余。其次,这样做会导致融合的规模不断增加,所以需要合理控制融合规模,保证融合结果的可用性。

2.5.3 深度知识发现

深度知识包括高阶多元关系和隐含语义关系。深度知识发现对知识融合非常重要,尤其是隐式深度知识发现,它包含以下3种:①关系型深度知识,例如类比关系、上下位关系、因果关系、正/负相关关系、频繁/顺序共现关系和序列关系等,例如,人离不开空气与鱼离不开水这种类比关系;②数据分布型深度知识,即知识服从某些数据分布,如高斯分布、幂律分布和长尾分布等,例如,当关注数少于105时社交网络中节点的度分布服从指数为2.267的幂律分布;③性质型深度知识,即知识具有某种性质,如局部封闭世界、长城记忆和无标度等,常见的如知识图谱建模可假设满足局部封闭世界。
深度知识一般是通过领域理论,运用数学、物理等工具,进行理论建模、解析、逻辑演绎、公式推演和证明获得的,如采用统计分析和深度学习的方法。统计分析用于发现微观规律(待验证的深度知识)的推论,深度学习用于对推论建模和验证。深度学习根源于类神经网络(Artif?icial Neural Network)模型,一般步骤为设定好类神经网络架构(定义函数集),制定出学习目标(定义函数的拟合度),开始学习(选择最佳函数)。深度知识发现的难点在于有记忆力的深度学习模型的构建。此外,在实际应用中,知识库的构建者为保证知识库应用的时效性,通常仅保留部分与业务密切相关的知识,而放弃其发现的深度知识,但是发现的深度知识对关系推演具有参考价值,对数据融合具有启发作用,所以有必要将已经获得的深度知识融入知识库。

2.5.4 普适机理的剖析和归纳

目前知识融合依然缺乏对知识资源中存在关系的普适化。为此,我们首先要从理性或直觉中建立问题的模型,通过对数据呈现的现象进行概括性描述或者归纳学习得到普适模型,然后将模型与数据结合提供适当的泛化能力,如“Google大脑”可以通过深度学习无监督地辨别任何猫。另外,人的智力能透过现象看到本质,只有发现大数据所呈现出的普遍现象背后的普适原理才能对客观世界产生更大的影响。比如,网络在宏观上具有幂律分布现象,它们背后的普适原理是增长和择优机制在复杂网络中的自组织演化。所以可以将其作为知识建模、深度知识发现和关系推演的一个参考因素,从而提高融合效率。
普适机理往往是通过微观规律剖析宏观现象得到的,一般做法是首先采用统计、物理方法从大量个例中收集和组织经验事实、发现规律,剖析内在原理、归纳宏观现象,提出普适性假设;然后利用领域理论,如运用数学、物理等工具进行理论建模形成可测试推论;接着通过仿真模拟的方式验证推论、评估假设和模型,如果假设和机理不能够很好地解释实验中观测到的现象(实验中的现象也要能够与现实观测相吻合),则需要进一步修正假设和模型直到可以很好解释为止;最后提出规律并进一步接受实证数据的检验,直至得到公认为止。这样经过实证验证的普适机理就可以采用迁移学习(详见2.6.2节)的方法将普适机理用于实际中。

相关文章
|
2月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
25天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
25天前
|
存储 数据采集 数据可视化
大数据处理技术
【4月更文挑战第10天】大数据处理涵盖采集、预处理、存储、分析挖掘、展现和应用等关键步骤。采集涉及多种类型数据,预处理确保数据质量,存储管理关注规模、速度和安全,分析挖掘利用机器学习发现价值,展现和应用则通过可视化和检索实现数据价值。云计算和AI强化了大数据处理能力,整体目标是提取数据中的价值,驱动企业和社会进步。
32 4
大数据处理技术
|
5天前
|
存储 机器学习/深度学习 数据采集
大数据处理与分析实战:技术深度剖析与案例分享
【5月更文挑战第2天】本文探讨了大数据处理与分析的关键环节,包括数据采集、预处理、存储、分析和可视化,并介绍了Hadoop、Spark和机器学习等核心技术。通过电商推荐系统和智慧城市交通管理的实战案例,展示了大数据在提高用户体验和解决实际问题上的效能。随着技术进步,大数据处理与分析将在更多领域发挥作用,推动社会进步。
|
7天前
|
Cloud Native NoSQL 数据管理
现代化数据管理:面向未来的数据库技术发展
传统数据库技术已经不能满足当今大数据时代的需求,现代化数据库技术的发展成为了当务之急。本文将探讨面向未来的数据库技术发展方向,包括云原生数据库、图数据库、区块链技术在数据库领域的应用以及数据库安全性等方面。
|
10天前
|
存储 缓存 监控
|
17天前
|
存储 数据可视化 大数据
大数据技术框架
【4月更文挑战第20天】大数据一般需要经过6个主要环节,包括数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析和数据可视化。
|
29天前
|
存储 大数据 数据管理
大数据技术是如何发展的?
大数据虽已发展多年,但仍面临将恰当信息在正确时间传递给合适人员的挑战。尽管技术进步,大部分企业员工仍难以获取所需信息。数据仓库、数据湖和数据结构等存储系统涌现,但集中数据并不实际,数据去中心化趋势明显。数据结构允许异构数据并促进治理,同时,云计算影响大数据战略,提供灵活实验空间。数据治理和隐私规则的遵守至关重要,流程成熟度聚焦于数据质量和共享。目前大数据正处于“幻灭低谷”,成功的关键在于数据治理和处理流程的改进。
|
1月前
|
NoSQL 大数据 数据挖掘
现代数据库技术与大数据应用
随着信息时代的到来,数据量呈指数级增长,对数据库技术提出了前所未有的挑战。本文将介绍现代数据库技术在处理大数据应用中的重要性,并探讨了一些流行的数据库解决方案及其在实际应用中的优势。
|
2月前
|
机器学习/深度学习 人工智能 数据可视化
基于Python的数据可视化技术在大数据分析中的应用
传统的大数据分析往往注重数据处理和计算,然而数据可视化作为一种重要的技术手段,在大数据分析中扮演着至关重要的角色。本文将介绍如何利用Python语言中丰富的数据可视化工具,结合大数据分析,实现更直观、高效的数据展示与分析。

热门文章

最新文章