自然语言处理,计算机与人类“谈心”的关键

简介:

自然语言处理不达标,机器人就不能真正了解人类,智能服务也就不能做到完美。

自然语言处理,计算机与人类谈心的关键

2011年,日本多个机构发起的一项机器人项目,以东京大学入学考试难度为目标,以检验人工智能可在多大程度上模拟人类思考以及解决问题的能力。在去年和今年的考试中,机器人“Torobo-kun”分别获得了511分和525分,总分为950分。照着当前的成绩,Torobo-kun有80%的可能被512所私立大学和23所国立大学和公立大学录取,可惜的是,离东京大学至少获得 80% 分数的要求还差得很远。

根据对比,在两次考试中,Torobo-kun在数学和物理方面有了明显的进步,而英语和国语的成绩还是一团糟。在镁客君看来,相比于英语和国语,数学和物理对自然语言的理解要宽松一点,所以,对于机器人在这两门功课的进步,其实并没有多大的惊喜,而要想机器人能够考上东京大学,主要还是看英语和国文等需要深透理解的科目,而在这其中,自然语言处理是关键。

自然语言处理,计算机与人类谈心的关键

什么是自然语言处理?

自然语言处理(Natural Language Processing,简称NLP),还有人称之为自然语言理解(Natural Language Understanding ,简称NLU)。对此,镁客君觉得这两者有着一个根本的区别,自然语言处理只是对语言的一种字面意思的处理和理解,而真正的“理解”是一个很难讲明的东西,正如“一千个读者就有一千个哈姆雷特”一般,当读完整本书,我们会用一些词去形容哈姆雷特,只是自然语言的处理并不能达到这个程度。因而,在自然语言的相关技术之上,镁客君更倾向于称之为自然语言处理。

在人工智能领域,自然语言处理一个重要方向。简单来讲,自然语言处理就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科。

自然语言处理,计算机与人类谈心的关键

一般来讲,自然语言处理得步骤主要分为6步:

1、获取原始文本;

2、对文本进行预处理;

3、分词:将文章按词组分开。该步骤只针对中文,西方字幕语言已经用空格做好了分词;

4、词法分析:对于英文,有词头、词根、词尾的拆分,名词、动词、形容词、副词、介词的定性,多种词意的选择。比如DIAMOND,有菱形、棒球场、钻石3个含义,要根据应用选择正确的意思;

5、语法分析:通过语法树或其他算法,分析主语、谓语、宾语、定语、状语、补语等句子元素;

6、语义分析:通过选择词的正确含义,在正确句法的指导下,将句子的正确含义表达出来。

自然语言处理,计算机与人类谈心的关键

NLP主要的应用方向

从应用角度看,NLP的前景是相当的广泛,尤其是现在信息泛滥的时代,比如:

文本分类和聚类:主要是将文本按照关键字词做出统计,建造一个索引库,这样当有关键字词查询时,可以根据索引库快速地找到需要的内容;

信息抽取:直接从自然语言文本中抽取事实信息,一种更有力的信息获取工具;

机器翻译:顾名思义,就是语言之间的转换,典型案例有百度翻译、谷歌翻译;

信息检索和过滤:在大流量的信息中寻找关键词,属于网络瞬时检查的应用范畴;

语音识别及文语转换:将人类的语音转换为文字,并理解其中的含义,诸如亚马逊Alexa或一些家居机器人。

此外,除了这些,手写体和印刷体字符识别、舆情分析和观点挖掘等也属于自然语言处理的应用范畴。

自然语言处理,计算机与人类谈心的关键

NLP研究进展的难处

目前,专注于自然语言处理的公司和团队也是相当多的,大的有谷歌、苹果、百度等等,小的有斯坦福大学自然语言处理研究小组、卡内基梅隆大学语言技术研究院和中科院计算机所自然语言处理研究组等等。不过,虽然参与者众多,但在前进的过程中,依然有一些难题阻挡在那里,而相对于西方寓言,中文等语言的处理更是难上一层楼。以中文为例,自然语言处理都遇到了哪些难题?

令人费解的多层次语义

此前,曾有这样一个段子,在两场比赛中,中国队皆打败了美国队,中国媒体在报道的时候分别以“中国队大胜美国队”、“中国队大败美国队”来作为标题,而美国人却对第二句话做出了错误的理解。在中国人看来,第二句话是说中国队战胜了美国队,而在那些不了解中文或一知半解的人哪里,这句话有可能会被理解为“中国队输给了美国队”,这就是一种歧义。

在这方面,连中文学习都是依靠数据库的计算机而言,它们也跟那些外国人一样,都只能算是一知半解,极有可能get不到正确的意思。

连贯的上下文理解

有时候,人们在理解一句话的时候需要上下联系,比如说话人所处的环境,或是文本中的前后文等,这些都是正确理解一句话所需要考虑的因素。

比如今年“威诺格拉德模式挑战赛”(图灵测试的一个变种)中的一个题目:市议员们拒绝示威者的游行许可,因为他们害怕暴力。针对“他们”这个词的指定对象,如果是人类的话,通过前后文的理解,很快就知道这是在指“市议员们”,不过,对于计算机而言,这就有些困难了。据数据显示,人类胡乱选择的正确率是45%,而经过慎重考虑的计算机最后的正确率也只比人类高了那么一丢丢的3%。可见,在遇到这种情况时,计算机的自然语言处理还不能达到令人满意的程度。

自然语言处理,计算机与人类谈心的关键

在自然语言处理方面,研究者们还有许多的问题需要解决,比如训练数据的缺乏、成语俗语的处理等等,这些都需要研究者们花费大量时间去解决。在此基础之上,由于计算机不能够正确理解人类的语言,一些人工智能产品的落地也相应的受到了限制,比如一些个聊天机器人、语音助理等等。


原文发布时间: 2016-11-18 18:30
本文作者: 韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术在自然语言处理领域中实现情感分析。通过介绍情感分析的背景和原理,结合深度学习模型如LSTM、BERT等的应用,帮助读者了解情感分析的重要性以及如何利用最新技术实现更准确的情感识别。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习中的自然语言处理技术
【2月更文挑战第16天】 在数字化和智能化的浪潮中,自然语言处理(NLP)技术已成为连接人类与机器沟通的重要桥梁。本文深入探讨了机器学习在自然语言处理中的应用,包括最新的模型架构、算法优化技巧及实际场景中的挑战和解决方案。通过逻辑严密的分析,我们将揭示如何有效利用机器学习提升NLP系统的性能,同时对未来发展趋势进行预测。
23 0
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术,特别是神经网络模型,来实现自然语言处理领域中的情感分析任务。通过结合深度学习算法和大规模文本数据集,可以实现更准确和高效的情感分析,为情感识别和情感推断提供更好的解决方案。
|
1月前
|
机器学习/深度学习 自然语言处理
自然语言处理技术(NLP)
自然语言处理技术(NLP)
41 1
|
2月前
|
自然语言处理
举例说明自然语言处理(NLP)技术
举例说明自然语言处理(NLP)技术
18 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
springboot基于人工智能和自然语言理解技术的医院智能导医系统源码
智能导诊系统可为患者提供线上挂号智能辅助服务,患者根据提示手动输入自己的基本症状,通过智能对话方式,该系统会依据大数据一步步帮助患者“诊断”,并最终推荐就医的科室和相关专家。患者可自主选择,实现“一键挂号”。这一模式将精确的导诊服务前置,从源头上让医疗服务更高效。
372 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【2月更文挑战第31天】 随着人工智能的飞速发展,自然语言处理(NLP)技术在机器学习领域扮演着越来越重要的角色。本文旨在深入探讨NLP的关键技术,包括语言模型、词嵌入和深度学习方法,并分析这些技术如何相互协作,以实现更高效的文本分析和理解。通过案例研究和最新研究成果的介绍,我们展示了NLP在实际应用中的强大潜力,以及它如何推动人机交互和信息检索系统的革新。
21 0
|
3月前
|
机器学习/深度学习 自然语言处理 数据可视化
NLP:预测新闻类别 - 自然语言处理中嵌入技术
NLP:预测新闻类别 - 自然语言处理中嵌入技术
62 0
|
3月前
|
人工智能 自然语言处理 语音技术
举例说明自然语言处理(NLP)技术
举例说明自然语言处理(NLP)技术
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(NLP自然语言处理概念介绍)
48 0