学界 | 李飞飞高徒Andrej Karpathy提醒你，小心搭建神经网络的六个坑-阿里云开发者社区

学界 | 李飞飞高徒Andrej Karpathy提醒你，小心搭建神经网络的六个坑

2018-07-04 6991

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 继Ian Goodfellow的推特小课堂之后，特斯拉的人工智能研究负责人、李飞飞斯坦福高徒Andrej Karpathy也在twitter上分享了他对神经网络的一些研究技巧。

继Ian Goodfellow的推特小课堂之后，特斯拉的人工智能研究负责人、李飞飞斯坦福高徒Andrej Karpathy也在twitter上分享了他对神经网络的一些研究技巧。

昨晚，他连发几条twitter，细数了六种神经网络研究中的常见错误。引发了一波研究者们对于自己入过坑的吐槽。

来看一下Ian Goodfellow让你当心的这六个坑吧：

最常见的神经网络错误：
没有先试过所有数据一批处理
忘了为网络切换训练/评估模式
忘了在.backward()之前.zero_grad()（在pytorch中）
将softmaxed输出传递给预期原始logits的损失
使用BatchNorm时，您没有对线性/ 二维卷积层使用bias = False，或者反过来忘记将其包含在输出层中。这个倒不会让你失败，但它们是虚假的参数
以为view()和permute()是一样的事情（不正确地使用view）

之后，在评论区，也有读者针对“对数据初始化”展开了讨论。

对此，Ian也进一步详细解释：

是的，有几次我重新打开数据，得到的损失值却一致，而且如果这样做会产生一个漂亮的损失曲线，这表明对数据初始化并不是明智的做法。我有时喜欢调整最后一层偏差，使之接近基础分布。

我喜欢先从最简单的开始，例如，先对所有未处理的数据进行训练，看看基本输出分布的表现如何，然后逐增加输入和扩大网络，确保每次都比以前的表现更好。

原文发布时间为：2018-07-03
本文作者：文摘菌
本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“大数据文摘”。

学界 | 李飞飞高徒Andrej Karpathy提醒你，小心搭建神经网络的六个坑

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景