独家 | 谷歌发布NLP最先进预训练模型:开源BERT

初商 2019-08-26

数据派

作者:Jacob Devlin and Ming-Wei Chang, Research Scientists, Google AI Language

翻译:佟海宁

校对:吴金笛

文章来源:微信公众号 数据派THU

本文约2000字,建议阅读9分钟。

本文为你介绍谷歌最新发布的自然语言预训练模型BERT。


简介

自然语言处理(NLP)面临的众多挑战之一是训练数据的短缺。由于NLP是一个具有许多不同任务的多样化领域,因此大多数针对特定任务的数据集仅包含了几千到几十万个人为标记的训练示例。然而,现代基于深度学习的NLP模型往往需要更大量的数据,在拥有在数以百万计甚至十亿计的带标注的训练样例上进行训练时性能将会得到极大改善。

为了帮助缩小数据差距,研究人员开发了各种技术用于使用网络上海量未标注的文本(称为预训练)来训练通用语言表示模型。然后,将其应用于

登录 后评论
下一篇
corcosa
13831人浏览
2019-10-08
相关推荐
用BERT构建最先进语言模型
658人浏览
2019-07-18 10:38:45
0
0
0
264