心慕手追,让机器像人一样理解句子 | 论文访谈间 #14

简介:

学习句子的语义表示就是将句子的含义映射到一个向量空间中,同时保留句子本身的一些特性,例如:表达相似含义的句子在向量空间中应该距离更近。而句子表示模型是将句子的含义编码为计算机可以理解的形式,这是解决大部分自然语言处理问题的先决条件,因此直接影响了许多自然语言处理任务的性能,如在神经机器翻译中需要首先将源语言句子表示为一个向量、在问答系统中需要将问句和答案编码为向量表示等。


但是句子是由不同的词构成的,不同的词包含的信息量不同,对句子的语义表示影响也就不同。如何能区分出这些词汇,给予重要的词更多的注意力,对句子语义的表示有着重要的意义,同时也有助于机器对句子语义的理解。来自中国科学院自动化研究所的王少楠,张家俊和宗成庆老师发表在国际人工智能联合会议(IJCAI)上的文章“Learning Sentence Representation with Guidance of Human Attention”通过对人类阅读和句子理解机制的模仿,找到了一种新的编码句子语义的方法。


在理解句子语义方面,人类无疑是机器最好的老师,那么人类是如何阅读和理解句子的呢?由于组成句子的词所包含的信息量不同,因此人类在阅读和理解句子时会选择性的注意句子中的某些词汇,也会选择性的跳读一些词汇,这种注意力机制(图 1)让人阅读和理解句子变得更加高效。


▲ 图1:人类阅读过程中的眼动(注意力)轨迹


受人类注意力机制的启发,作者认为在构建句子表示时应该给重要的词汇赋予较高的权重,这样可以得到更好的句子语义表示。那么哪些词汇对句子含义的表达更重要呢?同样我们从人类阅读文本时的注意力分布寻找答案,大量的有关人类阅读时间的研究证明了词汇的特性,如词性、词长、词频、词汇惊异度(Surprisal)等,都会影响人类阅读文本时对这个词汇的关注程度。因此,作者选择了词汇惊异度和词汇的词性来对词汇的重要程度进行建模。


  • 词汇惊异度:反应了一个单词在一个句子中传达的信息量,由词汇在句子中的负对数条件概率计算得到,通常这个值越高表示理解这个词越困难,需要更多的阅读时间。

  • 词汇的词性:词的不同分类属性,例如:动词,名词,形容词,介词,连词等。心理学实验已经证实,人类在阅读文本时会更加注意如名词、动词、形容词等类型的词汇,而在如介词和连词等词汇上会花费较少的时间。


对于以上两种特征,作者分别提出了不同的词汇重要性计算方法,针对词汇惊异度特征,作者直接将它的数值作为词汇的重要性分数;针对词汇词性特征,作者通过赋予每个词汇类别一个向量表示,通过类别向量与对应的词汇向量进行点乘,然后归一化,将得到的结果作为这个词的注意力权重,最后将通过注意力机制的词的加权表示送给当前最好的句子表示模型(图 2)中,得到句子的语义表示。

▲ 图2:嵌入注意力机制的句子表示模型


在实验设计上,作者利用 semantic textual similarity(STS)任务中的 24 个覆盖新闻,图片视频描述,注解,机器翻译评估等领域的数据集对模型进行了验证,结果证实了作者提出的方法可以更加准确有效的获得句子的语义表示。同时,这种方法是通过对人类阅读理解句子的方式的模仿,因此该模型学习到的注意力分布是否与人类的注意力分布类似呢?作者在 Dundee 语料(一种研究人类阅读和眼动轨迹的数据集)上进行了验证,实验结果(图 3)显示模型计算出的注意力权重与人类的阅读时间规律高度相似,这就证实了作者提出的模型成功模仿了人类的阅读理解方式。


▲ 图3:人类阅读时间和模型计算的注意力权重对比结果


作者有话说:


这篇文章的出发点很简单,由于目前在句子表示中的注意力机制与人类阅读和理解句子的注意力机制不相符,我就想去尝试能不能利用人类阅读过程中的注意力机制去改进现有的句子表示模型。这个工作最大的创新性在于结合了认知心理学的一些研究结论,通过返回的审稿意见,我发现这种研究思路是很受欢迎和认可的。目前,在自然语言处理领域越来越多的人开始尝试利用人类理解语言的机制来改进或者建立语言处理模型,相信这种跨领域的结合会带来意想不到的惊喜!


来源:paperweekly

目录
打赏
0
0
0
0
14291
分享
相关文章
ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%
【7月更文挑战第20天】IEEE 35页论文揭示ChatGPT在复杂编码任务上的正确率仅0.66%,表明大型语言模型虽能生成语法正确代码,但在逻辑和可读性上不及人类程序员。研究强调AI在深度领域知识与推理上的局限性,提示AI辅助而非替代的角色。[链接:https://ieeexplore.ieee.org/document/10507163]
54 2
【话题文章】人性与机器:解码大型语言模型的‘幻觉’现象
【话题文章】人性与机器:解码大型语言模型的‘幻觉’现象
149 2
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
197 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(一)
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
之前其实有很多工作将句法信息融入到了RNN中,例如ON-LSTM和PRPN,用来隐式建模句法结构信息,同时提升语言模型的准确率。本文尝试将句法信息融入到Transformer中,用来赋予attention更好的解释性。同时可以无监督的预测出句子的句法树,并且相比于一般的Transformer,语言模型的性能有所提高。
288 0
论文赏析[EMNLP19]如何在Transformer中融入句法树信息?这里给出了一种解决方案(二)
以自动储备池学习机器实现高维场景预测,陈洛南/刘锐团队合作研究登Nature子刊
在实际应用中,仅用近期的短期数据来描述或预测一个复杂系统未来的状态对数据挖掘与分析方法提出了更大的挑战。所以,在本文中,研究者们提出了一种新型 ARNN 框架,它能够把高维空间数据映射到目标变量的未来时间信息,使得通过高维短序列时间序列数据的预测成为可能。
472 0
以自动储备池学习机器实现高维场景预测,陈洛南/刘锐团队合作研究登Nature子刊
归纳+记忆:让机器像人一样从小样本中学习
让机器区分猫和狗需要成千上万的图片来训练,但一个小孩只需要几张就够了。人类之所以能够从很小的样本中就能进行很好的学习,主要在于两个能力: 【1】归纳能力,即能够从个例中抽象出通用规则; 【2】记忆能力,即能够将学过的东西记下来并在需要时进行类比; 我们团队在业界率先将Few-shot Learning引入到人机对话领域,基于对人类学习能力的思考,提出了归纳网络(Induction Network)和动态记忆网络(Dynamic Memory),分别发表在EMNLP2019和ACL2020; 目前这套技术已经作为阿里云智能客服(云小蜜)的核心底座在各行业场景大规模应用。
510 0
归纳+记忆:让机器像人一样从小样本中学习
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等