中国人工智能学会通讯——机器学习在商务智能中的创新应用 1.3 结构化的知识-阿里云开发者社区

中国人工智能学会通讯——机器学习在商务智能中的创新应用 1.3 结构化的知识

2017-09-01 1616

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.3 结构化的知识

我想说明一下图中的“小泡”，也就是开放数据连接“小泡”。我不知道你们有多少人从事这个领域，我之后可能会介绍。外部有很多东西，公司内部也有一些其他的东西，我们都知道公共知识有很大的增长，我们利用它可以做很多事情。如果说我们把整个维基百科中的东西都印刷出来，就像印刷出版《百科全书》那样，那会是多么庞大的工作。

公共知识为什么对我们来说会如此重要？这些非结构化的数据以文本形式储存在图书馆，因为收集整理这些数据是迈向数据结构化的重要一步。另外，我们还有知识图谱，比如谷歌将最早的免费知识图谱进行完善后免费将其回馈给社会，还有像Bing、百度等也在做这项工作，这跟建造工厂不是一回事。

如果说现在随机选择一个美国的搜索引擎进行搜索，我们会在搜索结果页面的右侧看到一些小框，它们并不来自于文件，左边是来自于文件，是典型搜索引擎的搜索结果。在右边，我们看到的东西其实都是来自于知识图谱的非结构化知识。

现在有越来越多的团体和企业想要做这样的一些知识图谱，我这边列出了一些。第一个Yago是在赛尔布鲁肯，非常有名。第二个是DBpedia，他们在欧洲做开放数据库，他们努力将很多领域的知识集中在一起。我们也跟他们有合作。Freebase还在，但是大不如前，它已成为Wikidata的一部分。大家可能都知道Wikidata，当然也有些中国人并不知道，Wikidata积极倡导将非结构化知识转化为结构化知识，它在此类项目中是最大的。Wikidata基金位于柏林，我们和他们在相关项目上有非常密切的合作。我在这里就不说Google Knowledge Vault了，因为它已不再那么干净了，其中部分或大部分都是自动收集的数据。

上面这张图其实有好几年的历史了，为什么没新的？这张照片的每一个小泡泡，都是一些基于数据的语意知识或者结构式知识库，一些像是Web 3.0，一些更像是语意网络，还有一些更像是数据库。但是其实它们在语意上面都是相互联系的，形成相互联系的开放数据。每个小泡上都至少有一种联系，将其与其他小泡连接在一起，在这么多泡泡当中，你会看电影数据库、名人信息数据库、化学元素数据库等。为什么已经过了好几年我们还在用这张图？因为现在这样的一张图没有办法再把其他这几年新的内容加进去，这张图已经容纳不下。

我们把DBpedia的数据库放在中心，因为他们正在努力将其他的数据库连接起来。在我们的项目当中，我们做了一个尝试，希望能够在工业应用中将不同数据类型连接在一起，一些我们使用的方法是和DBpedia的方法相同，用以解决一些行业问题。

从这边可以看到，有一些比较特殊的数据，这些数据你只能和大公司合作才能获得，比如你在阿里、京东工作，或者是大型的物流企业、电信企业。但是右边的数据就便宜的多，比如气象学数据、媒体新闻数据、地理数据和卫星数据等，这些都非常容易获得。但是图最上方的是科学知识、知识社区（包括维基百科）、其他开放数据等，蓝色方框中的是企业内部的数据。如果将不同来源的数据整合在一起，就会带来巨大的价值。

如果我们要为某一地区开发一个运输分析APP，可能会用到交通数据和开源知识社区数据，后者会为你提供开放式街景图、场所、产品类型、包装等一些信息。还有就是气象学数据，因为对运输而言，气象非常的重要。你还可以从物流公司获取地理数据和卫星数据。如果能够垂直整合这些数据，你就能够做出非常棒的产品。

中国人工智能学会通讯——机器学习在商务智能中的创新应用 1.3 结构化的知识

1.3 结构化的知识

热门文章

最新文章

相关课程

相关电子书

相关实验场景