中国人工智能学会通讯——机器学习在商务智能中的创新应用 1.3 结构化的知识

简介:

1.3 结构化的知识

我想说明一下图中的“小泡”,也就是开放数据连接“小泡”。我不知道你们有多少人从事这个领域,我之后可能会介绍。外部有很多东西,公司内部也有一些其他的东西,我们都知道公共知识有很大的增长,我们利用它可以做很多事情。如果说我们把整个维基百科中的东西都印刷出来,就像印刷出版《百科全书》那样,那会是多么庞大的工作。

公共知识为什么对我们来说会如此重要?这些非结构化的数据以文本形式储存在图书馆,因为收集整理这些数据是迈向数据结构化的重要一步。另外,我们还有知识图谱,比如谷歌将最早的免费知识图谱进行完善后免费将其回馈给社会,还有像Bing、百度等也在做这项工作,这跟建造工厂不是一回事。

image

如果说现在随机选择一个美国的搜索引擎进行搜索,我们会在搜索结果页面的右侧看到一些小框,它们并不来自于文件,左边是来自于文件,是典型搜索引擎的搜索结果。在右边,我们看到的东西其实都是来自于知识图谱的非结构化知识。

现在有越来越多的团体和企业想要做这样的一些知识图谱,我这边列出了一些。第一个Yago是在赛尔布鲁肯,非常有名。第二个是DBpedia,他们在欧洲做开放数据库,他们努力将很多领域的知识集中在一起。我们也跟他们有合作。Freebase还在,但是大不如前,它已成为Wikidata的一部分。大家可能都知道Wikidata,当然也有些中国人并不知道,Wikidata积极倡导将非结构化知识转化为结构化知识,它在此类项目中是最大的。Wikidata基金位于柏林,我们和他们在相关项目上有非常密切的合作。我在这里就不说Google Knowledge Vault了,因为它已不再那么干净了,其中部分或大部分都是自动收集的数据。

image

上面这张图其实有好几年的历史了,为什么没新的?这张照片的每一个小泡泡,都是一些基于数据的语意知识或者结构式知识库,一些像是Web 3.0,一些更像是语意网络,还有一些更像是数据库。但是其实它们在语意上面都是相互联系的,形成相互联系的开放数据。每个小泡上都至少有一种联系,将其与其他小泡连接在一起,在这么多泡泡当中,你会看电影数据库、名人信息数据库、化学元素数据库等。为什么已经过了好几年我们还在用这张图?因为现在这样的一张图没有办法再把其他这几年新的内容加进去,这张图已经容纳不下。

我们把DBpedia的数据库放在中心,因为他们正在努力将其他的数据库连接起来。在我们的项目当中,我们做了一个尝试,希望能够在工业应用中将不同数据类型连接在一起,一些我们使用的方法是和DBpedia的方法相同,用以解决一些行业问题。

image

从这边可以看到,有一些比较特殊的数据,这些数据你只能和大公司合作才能获得,比如你在阿里、京东工作,或者是大型的物流企业、电信企业。但是右边的数据就便宜的多,比如气象学数据、媒体新闻数据、地理数据和卫星数据等,这些都非常容易获得。但是图最上方的是科学知识、知识社区(包括维基百科)、其他开放数据等,蓝色方框中的是企业内部的数据。如果将不同来源的数据整合在一起,就会带来巨大的价值。

如果我们要为某一地区开发一个运输分析APP,可能会用到交通数据和开源知识社区数据,后者会为你提供开放式街景图、场所、产品类型、包装等一些信息。还有就是气象学数据,因为对运输而言,气象非常的重要。你还可以从物流公司获取地理数据和卫星数据。如果能够垂直整合这些数据,你就能够做出非常棒的产品。

相关文章
|
2天前
|
机器学习/深度学习 算法 数据挖掘
【C 言专栏】C 语言与机器学习的应用
【5月更文挑战第6天】C语言在机器学习中扮演关键角色,以其高效性、灵活性和可移植性实现底层算法、嵌入式系统和高性能计算。在神经网络、决策树和聚类算法等领域的实现中不可或缺。C语言被用于TensorFlow和OpenCV等知名库的底层,常与C++、Python结合使用。尽管面临开发难度和适应新算法的挑战,但C语言在机器学习领域的价值和潜力将持续展现,为科技进步贡献力量。
【C 言专栏】C 语言与机器学习的应用
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
5天前
|
机器学习/深度学习 运维 自然语言处理
探索机器学习在金融欺诈检测中的应用
【5月更文挑战第3天】 随着金融科技的迅猛发展,机器学习作为其核心推动力之一,正逐渐改变着我们对金融服务安全与效率的理解。本文将深入探讨机器学习技术在金融欺诈检测领域内的应用现状与前景。通过分析多种算法和实际案例,我们揭示了如何利用机器学习提高识别欺诈行为的准确率,降低金融机构的风险损失。同时,文章还将讨论在此过程中遇到的挑战及未来的发展趋势,为读者提供一个全面而深入的视角。
|
6天前
|
机器学习/深度学习 自然语言处理 算法
机器学习算法原理与应用:深入探索与实战
【5月更文挑战第2天】本文深入探讨机器学习算法原理,包括监督学习(如线性回归、SVM、神经网络)、非监督学习(聚类、PCA)和强化学习。通过案例展示了机器学习在图像识别(CNN)、自然语言处理(RNN/LSTM)和推荐系统(协同过滤)的应用。随着技术发展,机器学习正广泛影响各领域,但也带来隐私和算法偏见问题,需关注解决。
|
7天前
|
机器学习/深度学习 算法 自动驾驶
探索机器学习在图像识别中的应用
【5月更文挑战第1天】 随着人工智能技术的飞速发展,机器学习已成为其最活跃的分支之一。特别是在图像识别领域,机器学习技术已展现出强大的能力与广泛的应用前景。本文将深入探讨机器学习在图像识别中的关键作用,从基础原理到实际应用案例,剖析其背后的算法和模型。同时,我们将讨论当前面临的挑战和未来的发展趋势,为读者提供一个全景式的技术分享。
15 3
|
7天前
|
机器学习/深度学习 数据采集 人工智能
探索机器学习在金融欺诈检测中的应用
【4月更文挑战第30天】 随着金融科技的迅猛发展,机器学习技术在金融行业中的应用变得日益广泛。特别是在金融欺诈检测领域,机器学习以其强大的数据处理能力和智能识别功能,正逐渐成为防范和打击金融欺诈的重要工具。本文将深入探讨机器学习在金融欺诈检测中的关键作用,分析其优势及面临的挑战,并提出未来发展趋势。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在图像识别中的应用与挑战探索机器学习中的自然语言处理技术
【4月更文挑战第30天】 随着人工智能技术的飞速发展,深度学习已经成为计算机视觉领域的核心动力。本文将探讨深度学习在图像识别任务中的关键技术、应用实例以及面临的主要挑战。我们将重点讨论卷积神经网络(CNN)的架构优化、数据增强技术以及迁移学习的策略,并通过具体案例分析其在医疗影像、自动驾驶和面部识别等领域的应用成效。同时,我们也将指出当前模型泛化能力不足、对抗性攻击以及算力资源需求等挑战,并提出潜在的解决方向。 【4月更文挑战第30天】 在人工智能领域,自然语言处理(NLP)是赋予机器理解和响应人类语言能力的关键技术。本文将深入探讨NLP的发展历程、核心技术及其在不同领域的应用案例。我们将从
|
7天前
|
机器学习/深度学习 数据采集 算法
【Python 机器学习专栏】机器学习在医疗诊断中的前沿应用
【4月更文挑战第30天】本文探讨了机器学习在医疗诊断中的应用,强调其在处理复杂疾病和大量数据时的重要性。神经网络、决策树和支持向量机等方法用于医学影像诊断、疾病预测和基因数据分析。Python作为常用工具,简化了模型构建和数据分析。然而,数据质量、模型解释性和伦理法律问题构成挑战,需通过数据验证、可解释性研究及建立规范来应对。未来,机器学习将更深入地影响医疗诊断,带来智能和精准的诊断工具,同时也需跨学科合作推动其健康发展。
|
7天前
|
机器学习/深度学习 自然语言处理 搜索推荐
【Python机器学习专栏】迁移学习在机器学习中的应用
【4月更文挑战第30天】迁移学习是利用已有知识解决新问题的机器学习方法,尤其在数据稀缺或资源有限时展现优势。本文介绍了迁移学习的基本概念,包括源域和目标域,并探讨了其在图像识别、自然语言处理和推荐系统的应用。在Python中,可使用Keras或TensorFlow实现迁移学习,如示例所示,通过预训练的VGG16模型进行图像识别。迁移学习提高了学习效率和性能,随着技术发展,其应用前景广阔。
|
7天前
|
机器学习/深度学习 传感器 自动驾驶
【Python机器学习专栏】深度学习在自动驾驶中的应用
【4月更文挑战第30天】本文探讨了深度学习在自动驾驶汽车中的应用及其对技术发展的推动。深度学习通过模拟神经网络处理数据,用于环境感知、决策规划和控制执行。在环境感知中,深度学习识别图像和雷达数据;在决策规划上,学习人类驾驶行为;在控制执行上,实现精确的车辆控制。尽管面临数据需求、可解释性和实时性挑战,但通过数据增强、规则集成和硬件加速等方法,深度学习将持续优化自动驾驶性能,并在安全性和可解释性上取得进步。

热门文章

最新文章