斯坦福大学 NLP 组开放神经机器翻译代码库

简介:

近日,斯坦福大学自然语言处理组(Stanford NLP)发布了一篇文章,总结了该研究组在神经机器翻译(NMT)上的研究信息。在这篇文章中,他们还放出了在多种翻译任务上(比如英德翻译和英语-捷克语翻译)实现了当前最佳结果的代码库(codebase)。除此之外,「为了鼓励再现和增加透明」,他们还放出了他们用于训练模型的处理过的数据以及可以通过他们的代码库使用的预训练好的模型。

发布地址:http://nlp.stanford.edu/projects/nmt/

参与成员:

Christopher D. Manning(斯坦福大学计算机科学和语言学教授)

Minh-Thang Luong(斯坦福博士,Google Brain 研究科学家)

Abigail See(斯坦福大学计算机科学在读博士)

Hieu Pham

代码库

对于混合 NMT(hybrid NMT),请使用这个代码库并且引用:

代码库:https://github.com/lmthang/nmt.hybrid

论文:使用混合词-字符模型实现开放词汇神经机器翻译(Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models)

摘要:几乎之前所有的神经机器翻译(NMT)使用的词汇都受限,随后可能用一个方法来修补未知的单词。本论文展示了一个全新的能实现开放词汇神经机器翻译(open vocabulary NMT)的词-字符解决方法。我们建立了一个混合的系统,能够实现大部分的词级(word level)翻译,并可查阅罕见词的字母组成。我们字符级的循环神经网络能计算源词的表征,并能在需要时恢复未知的目标词。这种混合的方法还有一个双重优点是,与基于字符的网络相比,它更快且更容易训练;同时,它不像基于词的模型那样会产生未知的词。在 WMT' 15 英语-捷克语的翻译任务上,这种混合方法还实现了一个额外的+ 2.1 BLEU 分的提升——超过已经能处理未知单词的模型 11.4 BLEU 分。我们的最佳系统在这个任务上达到了新的最佳表现:20.7 BLEU 分。我们证明了我们的字符模型不仅能成功地学习生成形式很好的捷克语词(这是一种词汇复杂高度屈折的语言),还能为英语源词建立了正确的表征。

对于通用的基于注意的 NMT(general attention-based NMT),请引用以下论文:

代码库:https://github.com/lmthang/nmt.hybrid

论文:实现基于注意的神经机器翻译的有效方法(Effective Approaches to Attention-based Neural Machine Translation)

摘要:最近一种在翻译过程中通过选择性地集中关注部分源句子的注意机制被用于提升神经机器翻译(NMT)结果。然而,探索用于基于注意的神经机器翻译(NMT)的有用架构的研究还不多。本论文探讨了两种简单有效的注意机制类别:一种能顾及到所有源词的全局方法,以及一种只能一次查看源词的一个子集的局部方法。我们证明了在英语-德语/德语-英语 WMT 翻译任务上,这两种方法都是有效的。使用局部注意方法,相比于已经结合了 dropout 等技术的非注意系统,我们的系统增长了 5.0 BLEU 点。我们的组合模型使用了不同的注意架构,在 WNT'15 英语-德语的翻译任务中,实现了目前最好的结果:25.9 BLEU 点;比现有的基于 NMT 和 一个 n-gram reranker 的最佳系统提升了 1.0 BLEU 点。

对于剪枝 NMT(pruning NMT),请引用以下论文(如果你对代码有兴趣,请联系我们):

论文:通过剪枝的神经机器翻译的压缩(Compression of Neural Machine Translation Models via Pruning)

摘要:和其它许多深度学习领域一样,神经机器翻译(NMT)常会遭遇过度参数化(over-parameterization)的问题,这会导致需要大量的存储空间。这篇论文检查了三种简单的基于幅度的(magnitude-based)用来压缩 NMT 模型的剪枝方案,即 class-blind、class-uniform 和 class-distribution;它们的不同之处在于剪枝的阈值为 NMT 架构中不同的权重类所计算的方式。我们表明权重剪枝(weight pruning)可作为一种用于当前最佳 NMT 压缩技术。我们表明一个带有超过 2 亿个参数的 NMT 模型可以在仅有非常少量的性能损失的情况下被剪去 40%——这个结果是在 WMT'14 英语-德语翻译任务上得到的。这揭示了 NMT 架构中的冗余的分布。我们的主要结果是:通过再训练(retraining),我们可以使用 80% 剪枝的模型来恢复甚至超越原有的表现。

本文来自开源中国社区 [http://www.oschina.net]

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
NLP机器翻译全景:从基本原理到技术实战全解析
NLP机器翻译全景:从基本原理到技术实战全解析
79 0
|
机器学习/深度学习 自然语言处理 算法
动手学深度学习(十三) NLP机器翻译(下)
动手学深度学习(十三) NLP机器翻译(下)
191 0
动手学深度学习(十三) NLP机器翻译(下)
|
机器学习/深度学习 数据采集 自然语言处理
动手学深度学习(十三) NLP机器翻译(上)
动手学深度学习(十三) NLP机器翻译(上)
348 0
动手学深度学习(十三) NLP机器翻译(上)
|
机器学习/深度学习 存储 人工智能
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
本文介绍了序列到序列模型(seq2seq)及其在翻译系统中的应用,以及注意力机制、序列解码器、神经翻译系统、基于字符级别的翻译模型等。
1126 1
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
|
机器学习/深度学习 人工智能 自然语言处理
清华大学NLP组年末巨献:机器翻译必读论文列表
昨天,清华大学自然语言处理组(THUNLP)整理的机器翻译论文阅读清单在 GitHub 上上线了。对于元旦和寒假期间想要积累机器翻译背景知识、追踪前沿技术的同学来说,这份列表再合适不过了。
404 0
清华大学NLP组年末巨献:机器翻译必读论文列表
|
机器学习/深度学习 自然语言处理
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术在自然语言处理领域中实现情感分析。通过介绍情感分析的背景和原理,结合深度学习模型如LSTM、BERT等的应用,帮助读者了解情感分析的重要性以及如何利用最新技术实现更准确的情感识别。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习中的自然语言处理技术
【2月更文挑战第16天】 在数字化和智能化的浪潮中,自然语言处理(NLP)技术已成为连接人类与机器沟通的重要桥梁。本文深入探讨了机器学习在自然语言处理中的应用,包括最新的模型架构、算法优化技巧及实际场景中的挑战和解决方案。通过逻辑严密的分析,我们将揭示如何有效利用机器学习提升NLP系统的性能,同时对未来发展趋势进行预测。
23 0
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术,特别是神经网络模型,来实现自然语言处理领域中的情感分析任务。通过结合深度学习算法和大规模文本数据集,可以实现更准确和高效的情感分析,为情感识别和情感推断提供更好的解决方案。