6.9. 深度循环神经网络

本章到目前为止介绍的循环神经网络只有一个单向的隐藏层,在深度学习应用里,我们通常会用到含有多个隐藏层的循环神经网络,也称作深度循环神经网络。图6.11演示了一个有

6.9. 深度循环神经网络 - 图1 个隐藏层的深度循环神经网络,每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。

深度循环神经网络的架构 图 6.11 深度循环神经网络的架构

具体来说,在时间步

6.9. 深度循环神经网络 - 图3 里,设小批量输入 6.9. 深度循环神经网络 - 图4 (样本数为 6.9. 深度循环神经网络 - 图5 ,输入个数为 6.9. 深度循环神经网络 - 图6 ),第 6.9. 深度循环神经网络 - 图7 隐藏层( 6.9. 深度循环神经网络 - 图8 )的隐藏状态为 6.9. 深度循环神经网络 - 图9 (隐藏单元个数为 6.9. 深度循环神经网络 - 图10 ),输出层变量为 6.9. 深度循环神经网络 - 图11 (输出个数为 6.9. 深度循环神经网络 - 图12 ),且隐藏层的激活函数为 6.9. 深度循环神经网络 - 图13 。第1隐藏层的隐藏状态和之前的计算一样:

6.9. 深度循环神经网络 - 图14

其中权重

6.9. 深度循环神经网络 - 图156.9. 深度循环神经网络 - 图16 和偏差 6.9. 深度循环神经网络 - 图17 分别为第1隐藏层的模型参数。

6.9. 深度循环神经网络 - 图18 时,第 6.9. 深度循环神经网络 - 图19 隐藏层的隐藏状态的表达式为

6.9. 深度循环神经网络 - 图20

其中权重

6.9. 深度循环神经网络 - 图216.9. 深度循环神经网络 - 图22 和偏差 6.9. 深度循环神经网络 - 图23 分别为第 6.9. 深度循环神经网络 - 图24 隐藏层的模型参数。

最终,输出层的输出只需基于第

6.9. 深度循环神经网络 - 图25 隐藏层的隐藏状态:

6.9. 深度循环神经网络 - 图26

其中权重

6.9. 深度循环神经网络 - 图27 和偏差 6.9. 深度循环神经网络 - 图28 为输出层的模型参数。

同多层感知机一样,隐藏层个数

6.9. 深度循环神经网络 - 图29 和隐藏单元个数 6.9. 深度循环神经网络 - 图30 都是超参数。此外,如果将隐藏状态的计算换成门控循环单元或者长短期记忆的计算,我们可以得到深度门控循环神经网络。

6.9.1. 小结

  • 在深度循环神经网络中,隐藏状态的信息不断传递至当前层的下一时间步和当前时间步的下一层。

6.9.2. 练习