《中国人工智能学会通讯》——7.6 数据-阿里云开发者社区

《中国人工智能学会通讯》——7.6 数据

2017-09-04 1135

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第7章，第7.6节，更多章节内容可以访问云栖社区“CCAI”公众号查看。

7.6 数据

在应用以上深度学习模型的过程中，一个比较棘手的问题是随着网络变得越来越复杂，其表示能力也越来越强，其中的参数也越来越多，由此带来的问题是如果训练数据规模不够大，则很容易使模型陷入过拟合的状态。

传统利用语言学专家进行数据标注的方法需要花费大量的人力、物力、财力，存在标注代价高、规范性差等问题，很难获得大规模高质量的人工标注数据。为了解决数据获取的难题，比较直接的是利用众包的方式获取大规模的标注数据。当然，对于大公司而言，还可以利用宝贵的平台数据，如搜索引擎的日志、聊天记录等。除此之外还可以利用大规模的弱标注数据，其实生文本自身就是非常有价值的弱标注数据，借此我们已经能够训练语言模型、词或句子的分布式向量表示等。另外，我们还需要积极寻找大规模的弱标注数据，如 DeepMind曾利用新闻网站提供的人工新闻摘要数据自动生成完型填空数据[14] 、电子商务网站中用户对商品的评分数据等。

最后，受到图像处理研究的启发，我们还可以利用大规模人工自动构造数据，如可以通过对原始图像进行旋转、伸缩等操作，获取更多的训练图像，在自然语言处理中，是否也可以通过对文本进行一定的变换，从而获得大规模的训练数据？如将正规文本中的词随机替换为错误的词，从而构建语法纠错任务的训练数据等。相关的研究还处于起步阶段，相信今后会被给予更多的关注。

《中国人工智能学会通讯》——7.6 数据

7.6 数据

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《中国人工智能学会通讯》——7.6 数 据

7.6 数 据

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《中国人工智能学会通讯》——7.6 数据

7.6 数据