备案控制台

开发者社区

开发者社区数据派文章正文

一文读懂神经网络初始化！吴恩达Deeplearning.ai最新干货

2019-08-25 794

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文是deeplearning.ai的一篇技术博客，对初始化值的大小选取不当，可能造成梯度爆炸或梯度消失等问题，并提出了针对性的解决方法。

来源：新智元

文章来源：微信公众号数据派THU

本文约3000字，建议阅读5分钟。

本文是deeplearning.ai的一篇技术博客，对初始化值的大小选取不当，可能造成梯度爆炸或梯度消失等问题，并提出了针对性的解决方法。

神经网络的初始化是训练流程的重要基础环节，会对模型的性能、收敛性、收敛速度等产生重要的影响。本文是deeplearning.ai的一篇技术博客，文章指出，对初始化值的大小选取不当，可能造成梯度爆炸或梯度消失等问题，并提出了针对性的解决方法。

初始化会对深度神经网络模型的训练时间和收敛性产生重大影响。简单的初始化方法可以加速训练，但使用这些方法需要注意小心常见的陷阱。本文将解释如何有效地对神经网络参数进行初始化。

有效的初始化对构建模型至关重要

要构建机器学习算法，通常要定义一个体系结构（例如逻辑回归，支持向量机，神经网络）并对其进行训练来学习参数。下面是训练神经网络的一些常见流程：

初始化参数

选择优化算法

然后重复以下步骤：

1、向前传播输入

2、计算成本函数

3、使用反向传播计算与参数相关的成本梯度

4、根据优化算法，利用梯度更新每个参数

然后，给定一个新的数据点，使用模型来预测其类型。

初始化值太大太小会导致梯度爆炸或梯度消失

初始化这一步对于模型的最终性能至关重要，需要采用正确的方法。比如对于下面的三层神经网络。可以尝试使用不同的方法初始化此网络，并观察对学习的影响。

在优化循环的每次迭代（前向，成本，后向，更新）中，我们观察到当从输出层向输入层移动时，反向传播的梯度要么被放大，要么被最小化。

假设所有激活函数都是线性的（恒等函数）。则输出激活为：

其中 L=10 ，且W[1]、W[2]…W[L-1]都是2*2矩阵，因为从第1层到L-1层都是2个神经元，接收2个输入。为了方便分析，如果假设W[1]=W[2]=…=W[L-1]=W，那么输出预测为

如果初始化值太大或太小会造成什么结果？

情况1：初始化值过大会导致梯度爆炸

如果每个权重的初始化值都比单位矩阵稍大，即：

可简化表示为

且a[l]的值随l值呈指数级增长。当这些激活用于向后传播时，会导致梯度爆炸。也就是说，与参数相关的成本梯度太大。这导致成本围绕其最小值振荡。

初始化值太大导致成本围绕其最小值震荡

情况2：初始化值过小会导致梯度消失

类似地，如果每个权重的初始化值都比单位矩阵稍小，即：

可简化表示为

且a[l]的值随l值减少呈指数级下降。当这些激活用于后向传播时，可能会导致梯度消失。也就是说，与参数相关的成本梯度太小。这会导致成本在达到最小值之前收敛。

初始化值太小导致模型过早收敛

总而言之，使用大小不合适的值对权重进行将导致神经网络的发散或训练速度下降。虽然我们用的是简单的对称权重矩阵来说明梯度爆炸/消失的问题，但这一现象可以推广到任何不合适的初始化值。

如何确定合适的初始化值

为了防止以上问题的出现，我们可以坚持以下经验原则：

1.激活的平均值应为零。

2.激活的方差应该在每一层保持不变。

在这两个假设下，反向传播的梯度信号不应该在任何层中乘以太小或太大的值。梯度应该可以移动到输入层，而不会爆炸或消失。

更具体地说，对于层l，其前向传播是：

我们想让下式成立:

确保均值为零，并保持每层输入方差值不变，可以保证信号不会爆炸或消失。该方法既适用于前向传播（用于激活），也适用于向后传播（用于关于激活的成本梯度）。

这里建议使用Xavier初始化（或其派生初始化方法），对于每个层l，有：

层l中的所有权重均自正态分布中随机挑选，其中均值 μ=0 ，方差E= 1/( n[l−1])，其中n[l−1] 是第l-1层网络中的神经元数量，偏差已初始化为零。

下图说明了Xavier初始化对五层全连接神经网络的影响。数据集为MNIST中选取的10000个手写数字，分类结果的红色方框表示错误分类，蓝色表示正确分类。

结果显示，Xavier初始化的模型性能显著高于uniform和标准正态分布（从上至下分别为uniform、标准正态分布、Xavier）。

结论

在实践中，使用Xavier初始化的机器学习工程师会将权重初始化为N（0，1/( n[l−1])）或N（0，2/（n[l-1]+n[1]））,其中后一个分布的方差是n[l-1]和n[1]的调和平均。

Xavier初始化可以与tanh激活一起使用。此外，还有大量其他初始化方法。例如，如果你正在使用ReLU，则通常的初始化是He初始化，其初始化权重通过乘以Xavier初始化的方差2来初始化。虽然这种初始化证明稍微复杂一些，但其思路与tanh是相同的。

参考链接：

https://www.deeplearning.ai/ai-notes/initialization/

编辑：王菁

校对：王欣

文章标签：

机器学习/深度学习

算法

关键词：

神经网络初始化

神经网络吴恩达deeplearning.ai

初商

目录

相关文章

-开发达人-

|

10月前

|

人工智能

AI时代已来，吴恩达呼吁向每个孩子教授人工智能知识

AI时代已来，吴恩达呼吁向每个孩子教授人工智能知识

-开发达人-

68 0 0

AI时代已来，吴恩达呼吁向每个孩子教授人工智能知识

pandaconda

|

10月前

|

机器学习/深度学习编解码人工智能

【吴恩达机器学习笔记】七、神经网络

【吴恩达机器学习笔记】七、神经网络

pandaconda

62 0 0

游客su25awkxr62sa

|

11月前

|

机器学习/深度学习数据采集人工智能

吴恩达的2022年终AI大事件盘点

吴恩达的2022年终AI大事件盘点

游客su25awkxr62sa

107 0 0

吴恩达的2022年终AI大事件盘点

-开发达人-

|

11月前

|

机器学习/深度学习数据采集人工智能

吴恩达：AI的下一个发展方向，从大数据转向小数据

吴恩达：AI的下一个发展方向，从大数据转向小数据

-开发达人-

290 0 0

壹佰、

|

机器学习/深度学习存储关系型数据库

【吴恩达课后编程作业】第三周作业（附答案、代码）隐藏层神经网络神经网络、深度学习、机器学习

【吴恩达课后编程作业】第三周作业（附答案、代码）隐藏层神经网络神经网络、深度学习、机器学习

壹佰、

361 0 0

【吴恩达课后编程作业】第三周作业（附答案、代码）隐藏层神经网络神经网络、深度学习、机器学习

壹佰、

|

机器学习/深度学习存储移动开发

【吴恩达课后编程作业】第二周作业（附答案、代码） Logistic回归神经网络、深度学习、机器学习

【吴恩达课后编程作业】第二周作业（附答案、代码） Logistic回归神经网络、深度学习、机器学习

壹佰、

330 0 0

【吴恩达课后编程作业】第二周作业（附答案、代码） Logistic回归神经网络、深度学习、机器学习

Deephub

|

机器学习/深度学习数据挖掘 PyTorch

初始化神经网络权重的方法总结

初始化神经网络权重的方法总结

Deephub

190 0 0

游客4sqoqnfoxas4e

|

机器学习/深度学习存储

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.4）

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.4）

游客4sqoqnfoxas4e

99 0 0

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.4）

游客4sqoqnfoxas4e

|

机器学习/深度学习算法网络架构

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.3）

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.3）

游客4sqoqnfoxas4e

90 0 0

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.3）

游客4sqoqnfoxas4e

|

机器学习/深度学习算法

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.2）

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.2）

游客4sqoqnfoxas4e

80 0 0

【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面（1.2）

数据派

热门文章

最新文章

【MATLAB】GA_ELM神经网络时序预测算法

【动手学深度学习】深入浅出深度学习之线性神经网络

神经网络分类算法原理详解

神经网络的训练过程、常见的训练算法、如何避免过拟合

深度学习中必备的算法：神经网络、卷积神经网络、循环神经网络

卷积神经网络中的卷积层，如何提取图片的特征？

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据（MNIST）

使用自组织映射神经网络（SOM）进行客户细分

深度学习：Keras使用神经网络进行简单文本分类分析新闻组数据

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

OpenAI与法国和西班牙媒体巨头合作：利用内容进行训练AI

一个接口白嫖四个AI平台, 五个翻译平台

ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文

F5怎么样？保障AI服务的安全性和交付

【SCI论文】“学术丑闻揭露：当AI写作遭遇学术审稿，ChatGPT意外成为论文共作者!“

Google Gemma 模型服务：开放的生成式 AI 模型服务

悦数图数据库推出 AI 知识图谱构建器及图语言生成助手

C++ 实现对战AI五子棋

智领，万象新生：智谱AI推动大模型商业化迈向新阶段

哲学家解析Sora本质，AI视频离世界模拟器还有多远？

相关课程

更多

AI社区开源学习实践

趣味视觉AI应用入门与实战

神经网络概览及算法详解

AI数学基础

相关电子书

更多

释放算力潜能，加速 AI 应用构建

基于神经网络的语言合成

机器能理解上下文吗-RNN和LSTM神经网络的原理及应用

相关实验场景

更多

基于函数计算实现AI推理

函数计算实战-云开发创建视觉AI应用

推荐系统入门之使用ALS算法实现打分预测

部署Stable Diffusion玩转AI绘画（GPU云服务器）

【可换模型】基于函数计算一键部署 Stable Diffusion

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）