首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？-阿里云开发者社区

首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？

2017-08-01 1505

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

语言模型对于语音识别系统来说，是一个关键的组成部分，在机器翻译中也是如此。近年来，神经网络模型被认为在性能上要优于经典的 n-gram 语言模型。经典的语言模型会面临数据稀疏的难题，使得模型很难表征大型的文本，以及长距离的依存性。神经网络语言模型通过在连续的空间中嵌入词语的方法，来解决这一难题。目前，语言建模的最好表现是基于长短记忆网络（LSTM，1997年由Hochreiter和Schmidhuber提出）的，它能对潜在的任意长期依存进行建模。

算法模型的突破意义在哪

Facebook AI 实验室的这一研究在发表后吸引了大量的注意力。LSTM目前在语言、语音和翻译等方面有着广泛的应用，是学术和产业都十分关注的技术，现在忽然出现了一种比它更好的模型，AI 圈内人士怎么看？

美国卡内基梅隆计算机系博士邓侃对新智元说：“这是 LSTM 的改进版，性能有所提高，但是方法论仍然沿用了 LSTM 的既有框架，并没有本质突破。”

国内语音技术专家贾磊也与新智元分享了他的观点。他说：“CNN有一个优点，就是通过共享权重由局部到整体，实现对输入‘whole picture’ 的建模；而LSTM是通过逐帧递推的方式来建模整体，而递推过程中引入“门机制”进行信息选择。”

他解释说：“通俗一点说，CNN更像视觉，天然具有二维整体性；而LSTM更像听觉和语音，总是通过串行的方式来理解整体。Facebook的这篇论文恰恰是通过在CNN技术中引入LSTM的“门机制”来解决语言顺序依存问题，是对传统cnn技术很大的丰富和完善，文章具有很高的理论价值和实践意义。但是到目前为止，CNN是否会取代LSTM，即全局共享权重连接是不是真的能够完全取代带有递推机制和门机制的LSTM，形式还并不明朗。特别在一些高时效性的语音识别和语音交互问题上，由于严格的时效要求，LSTM这种随着时间的延展，逐步递推，逐渐遍及信号全貌的技术，还是有一定速度优势的。”

模型详情

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

图：用于语言建模的门卷积网络架构

统计学意义的语言模型评估的是词语序列的概率分布。这导致了倾向于根据正在处理的词语对下一个词语出现的概率进行建模的方法。目前，语言建模的主要方法都是基于递归神经网络的。Facebook AI 研究院提出了一个卷积的方法，来为语言建模。他们引入了一个新的门机制（gating mechanism），能够释放梯度传播，同时比Oord 等人在2016年提出的 LSTM 风格的 gating 性能上要好很多，并且还更加简单。

门（gating）机制控制着神经网络中的信息流动，在1997年时就被 Schmidhuber等人证明在递归神经网络中非常有用。LSTM通过一个由输入控制的单独单元（cell）和forget gates来激活长期记忆，这能让信息在多个时间点可以无阻碍地流动。如果没有这些门的存在，信息在每一个时间点上的变化可能会导致消失的情况。相反地，卷积神经网络并不会存在梯度消失的问题，在实验中，我们发现，他们并不要求有forget gates。

在论文摘要中，他们写道：“在WikiText-103上，我们创造了新的记录。同时，在谷歌 Billion Word 基准上，我们也获得了单个 GPU 的最佳表现。在设置中，延迟非常重要，比起递归机制的基线，我们的模型获得了一个维度的加速，因为计算能够多次并行运行。据我们所知，这是此类的任务中，一个非递归性的方法首次在性能上超越了向来强大的递归模型。”

测试结果

研究者基于两个大型数据集——WikiText-103和谷歌 Billion Word（GBW）进行测试，并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下：

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

上图是门卷积神经网络（GCNN）模型与LSTM和RNN 模型在 Billion Word（GBW）数据集基准上进行测试的结果。在单个GPU的情况下，GCNN的性能做到了最好。并且，据Facebook 研究者在论文中介绍，他们使用的 GCNN-13 模型拥有13层神经网络、每层包含1268个单元，LSTM每层拥有1024个单元。在与多GPU 进行对比时，只有超大型LSTM模型在性能上比GCNN好。但是，超大型LSTM -2048 （代表层数）使用了32个GPU，训练时间为3周，GCNN只使用1个GPU，训练时间1周。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

另一个横向对比是在WikiText-103 上进行的，这个语言建模数据库包含了超过1亿个从Wikepedia 上被标注为Good 或者Featured的文章中提取的字符（tokens），另外，数据库中还包含了20万个单词的词汇表。

在这个数据集进行测试时，输入的序列是一篇完整的Wikipedia 文章，而不仅仅是一句话。上图的结果表明。GCNN 模型在这个问题上的性能也比LSTM要好得多。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

上图是WikiText-103（左）和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。可以看到，门线性单元（GLU,图中红线）在实现向更低的复杂性转换的过程是最快的。

被超越的 LSTM

LSTM 和递归神经网络能捕捉长期的依存性，在被提出后便以席卷之势迅速成为自然语言处理的奠基石。LSTM可以记忆不定时间长度的数值，区块中有一个Gate能够决定input是否重要到能被记住及能不能被输出output。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
LSTM 模型的基本架构，其中中间四个相互交互的层，是整个模型的核心

此外，由于LSTM 适用于处理和预测时间序列中间隔和延迟非常长的重要事件。因而在自然语言理解（NLU）上有着重要作用。

LSTM 目前在行业内有着广泛的应用，范围包括但不限于：不分段连续手写识别上、自主语音识别、机器翻译等等。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

2009年，用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别，2013年运用 TIMIT 自然演讲数据库达成17.7%错误率的纪录。

研究者的自我评价

在论文的最后，研究者总结说，我们（Facebook）发布了一个卷积的神经网络，使用一个新的门机制来为语言建模。与递归神经网络相比，我们的方法建立了一个输入词语的层级表征，让它可以更好地捕获长距离的依存性（dependencies），这和语言学中语法形式体系中的树结构分析的思路很像。由于特征通过的是固定数量的神经网络层，并且是非线性的，这种相似的属性够产生学习。这和递归神经网不同，递归神经网络中，处理步骤的数量根据词在输入中的位置会有所不同。

结果显示，我们的门卷积神经网络在WikiText-103 上打破了记录，在更大型的谷歌Billion Word 基准中，单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。

不谈取代，我们谈谈优化

正如上文中专家的分析，在语言建模上，现在卷积神经网络和递归神经网络各自有不同优势。虽然在这一研究中卷积神经网络在性能上表现出了对递归神经网络，尤其是LSTM的全面超越，但是，现在谈取代还为时尚早。

算法模型的演进是不断优化的渐进过程，Facebook带来了一种新的思路，并且在研究中进行了验证，究其意义，正如作者在论文中介绍的那样：一个非递归性的方法首次在性能上超越了向来强大的递归模型。但是，算法模型到底只是工具，并不存在真正的“取代”之争。对于实际应用来说，还是要看效果。该模型对于整个产业应用的意义，目前来看还有待验证，毕竟LSTM现在已经得到了广泛的应用，并且效果还不错。

文章转自新智元公众号，原文链接

首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景