使用PyTorch从零开始构建Elman循环神经网络-阿里云开发者社区

使用PyTorch从零开始构建Elman循环神经网络

2018-03-29 3662

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 循环神经网络是如何工作的？如何构建一个Elman循环神经网络？在这里，教你手把手创建一个Elman循环神经网络进行简单的序列预测。

本文以最简单的RNNs模型为例：Elman循环神经网络，讲述循环神经网络的工作原理，即便是你没有太多循环神经网络（RNNs）的基础知识，也可以很容易的理解。为了让你更好的理解RNNs，我们使用Pytorch张量包和autograd库从头开始构建Elman循环神经网络。该文中完整代码在Github上是可实现的。

在这里，假设你对前馈神经网络略有了解。Pytorch和autograd库更为详细的内容请查看我的其他教程。

Elman循环神经网络

Jeff Elman首次提出了Elman循环神经网络，并发表在论文《Finding structure in time》中：它只是一个三层前馈神经网络，输入层由一个输入神经元x₁和一组上下文神经元单元{c₁ ... c_n}组成。隐藏层前一时间步的神经元作为上下文神经元的输入，在隐藏层中每个神经元都有一个上下文神经元。由于前一时间步的状态作为输入的一部分，因此我们可以说，Elman循环神经网络拥有一定的内存——上下文神经元代表一个内存。

预测正弦波

现在，我们来训练RNNs学习正弦函数。在训练过程中，一次只为模型提供一个数据，这就是为什么我们只需要一个输入神经元x₁，并且我们希望在下一时间步预测该值。输入序列x由20个数据组成，并且目标序列与输入序列相同。

5a336e128286628cf86977c17783f34d70d06e35

模型实现

首先导入包。

e5048e42574aeaea8f76d0af60084ea0f24d3c9c

接下来，设置模型的超参数。设置输入层的大小为7（6个上下文神经元和1个输入神经元），seq_length用来定义输入和目标序列的长度。

c8be968e1760e5b306d6e3a5bec48b5d46c12026

生成训练数据：x是输入序列，y是目标序列。

6fa08fc0e07c757d55b30fd33e064bb0347ae3b7

创建两个权重矩阵。大小为（input_size，hidden_size）的矩阵w1用于隐藏连接的输入，大小为（hidden_size，output_size）的矩阵w2用于隐藏连接的输出。用零均值的正态分布对权重矩阵进行初始化。

d8a4877fbd8b331ef7755cc0a7b4b1cec27df859

定义forward方法，其参数为input向量、context_state向量和两个权重矩阵，连接input和context_state创建xh向量。对xh向量和权重矩阵w1执行点积运算，然后用tanh函数作为非线性函数，在RNNs中tanh比sigmoid效果要好。然后对新的context_state和权重矩阵w2再次执行点积运算。我们想要预测连续值，因此这个阶段不使用任何非线性。

请注意，context_state向量将在下一时间步填充上下文神经元。这就是为什么我们要返回context_state向量和out。

4ca6517a08cbd409471972aab15631a2447a6b98

训练

训练循环的结构如下：

1.外循环遍历每个epoch。epoch被定义为所有的训练数据全部通过训练网络一次。在每个epoch开始时，将context_state向量初始化为0。

2.内部循环遍历序列中的每个元素。执行forward方法进行正向传递，该方法返回pred和context_state，将用于下一个时间步。然后计算均方误差（MSE）用于预测连续值。执行backward()方法计算梯度，然后更新权重w1和w2。每次迭代中调用zero_()方法清除梯度，否则梯度将会累计起来。最后将context_state向量包装放到新变量中，以将其与历史值分离开来。