7.4 动量法

在7.2节(梯度下降和随机梯度下降)中我们提到,目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根据自变量当前位置,沿着当前位置的梯度更新自变量。然而,如果自变量的迭代方向仅仅取决于自变量当前位置,这可能会带来一些问题。

7.4.1 梯度下降的问题

让我们考虑一个输入和输出分别为二维向量

7.4 动量法 - 图1 和标量的目标函数 7.4 动量法 - 图2 。与7.2节中不同,这里将 7.4 动量法 - 图3 系数从 7.4 动量法 - 图4 减小到了 7.4 动量法 - 图5 。下面实现基于这个目标函数的梯度下降,并演示使用学习率为 7.4 动量法 - 图6 时自变量的迭代轨迹。

  1. %matplotlib inline
  2. import sys
  3. sys.path.append("..")
  4. import d2lzh_pytorch as d2l
  5. import torch
  6. eta = 0.4 # 学习率
  7. def f_2d(x1, x2):
  8. return 0.1 * x1 ** 2 + 2 * x2 ** 2
  9. def gd_2d(x1, x2, s1, s2):
  10. return (x1 - eta * 0.2 * x1, x2 - eta * 4 * x2, 0, 0)
  11. d2l.show_trace_2d(f_2d, d2l.train_2d(gd_2d))

输出:

  1. epoch 20, x1 -0.943467, x2 -0.000073

7.4 动量法 - 图7

可以看到,同一位置上,目标函数在竖直方向(

7.4 动量法 - 图8 轴方向)比在水平方向( 7.4 动量法 - 图9 轴方向)的斜率的绝对值更大。因此,给定学习率,梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅度更大。那么,我们需要一个较小的学习率从而避免自变量在竖直方向上越过目标函数最优解。然而,这会造成自变量在水平方向上朝最优解移动变慢。

下面我们试着将学习率调得稍大一点,此时自变量在竖直方向不断越过最优解并逐渐发散。

  1. eta = 0.6
  2. d2l.show_trace_2d(f_2d, d2l.train_2d(gd_2d))

输出:

  1. epoch 20, x1 -0.387814, x2 -1673.365109

7.4 动量法 - 图10

7.4.2 动量法

动量法的提出是为了解决梯度下降的上述问题。由于小批量随机梯度下降比梯度下降更为广义,本章后续讨论将沿用7.3节(小批量随机梯度下降)中时间步

7.4 动量法 - 图11 的小批量随机梯度 7.4 动量法 - 图12 的定义。设时间步 7.4 动量法 - 图13 的自变量为 7.4 动量法 - 图14 ,学习率为 7.4 动量法 - 图15 。 在时间步 7.4 动量法 - 图16 ,动量法创建速度变量 7.4 动量法 - 图17 ,并将其元素初始化成0。在时间步 7.4 动量法 - 图18 ,动量法对每次迭代的步骤做如下修改:

7.4 动量法 - 图19

其中,动量超参数

7.4 动量法 - 图20 满足 7.4 动量法 - 图21 。当 7.4 动量法 - 图22 时,动量法等价于小批量随机梯度下降。

在解释动量法的数学原理前,让我们先从实验中观察梯度下降在使用动量法后的迭代轨迹。

  1. def momentum_2d(x1, x2, v1, v2):
  2. v1 = gamma * v1 + eta * 0.2 * x1
  3. v2 = gamma * v2 + eta * 4 * x2
  4. return x1 - v1, x2 - v2, v1, v2
  5. eta, gamma = 0.4, 0.5
  6. d2l.show_trace_2d(f_2d, d2l.train_2d(momentum_2d))

输出:

  1. epoch 20, x1 -0.062843, x2 0.001202

7.4 动量法 - 图23

可以看到使用较小的学习率

7.4 动量法 - 图24 和动量超参数 7.4 动量法 - 图25 时,动量法在竖直方向上的移动更加平滑,且在水平方向上更快逼近最优解。下面使用较大的学习率 7.4 动量法 - 图26 ,此时自变量也不再发散。

  1. eta = 0.6
  2. d2l.show_trace_2d(f_2d, d2l.train_2d(momentum_2d))

输出:

  1. epoch 20, x1 0.007188, x2 0.002553

7.4 动量法 - 图27

7.4.2.1 指数加权移动平均

为了从数学上理解动量法,让我们先解释一下指数加权移动平均(exponentially weighted moving average)。给定超参数

7.4 动量法 - 图28 ,当前时间步 7.4 动量法 - 图29 的变量 7.4 动量法 - 图30 是上一时间步 7.4 动量法 - 图31 的变量 7.4 动量法 - 图32 和当前时间步另一变量 7.4 动量法 - 图33 的线性组合:

7.4 动量法 - 图34

我们可以对

7.4 动量法 - 图35 展开:

7.4 动量法 - 图36

7.4 动量法 - 图37 ,那么 7.4 动量法 - 图38 。因为

7.4 动量法 - 图39

所以当

7.4 动量法 - 图40 时, 7.4 动量法 - 图41 ,如 7.4 动量法 - 图42 。如果把 7.4 动量法 - 图43 当作一个比较小的数,我们可以在近似中忽略所有含 7.4 动量法 - 图44 和比 7.4 动量法 - 图45 更高阶的系数的项。例如,当 7.4 动量法 - 图46 时,

7.4 动量法 - 图47

因此,在实际中,我们常常将

7.4 动量法 - 图48 看作是对最近 7.4 动量法 - 图49 个时间步的 7.4 动量法 - 图50 值的加权平均。例如,当 7.4 动量法 - 图51 时, 7.4 动量法 - 图52 可以被看作对最近20个时间步的 7.4 动量法 - 图53 值的加权平均;当 7.4 动量法 - 图54 时, 7.4 动量法 - 图55 可以看作是对最近10个时间步的 7.4 动量法 - 图56 值的加权平均。而且,离当前时间步 7.4 动量法 - 图57 越近的 7.4 动量法 - 图58 值获得的权重越大(越接近1)。

7.4.2.2 由指数加权移动平均理解动量法

现在,我们对动量法的速度变量做变形:

7.4 动量法 - 图59

由指数加权移动平均的形式可得,速度变量

7.4 动量法 - 图60 实际上对序列 7.4 动量法 - 图61 做了指数加权移动平均。换句话说,相比于小批量随机梯度下降,动量法在每个时间步的自变量更新量近似于将最近 7.4 动量法 - 图62 个时间步的普通更新量(即学习率乘以梯度)做了指数加权移动平均后再除以 7.4 动量法 - 图63 。所以,在动量法中,自变量在各个方向上的移动幅度不仅取决当前梯度,还取决于过去的各个梯度在各个方向上是否一致。在本节之前示例的优化问题中,所有梯度在水平方向上为正(向右),而在竖直方向上时正(向上)时负(向下)。这样,我们就可以使用较大的学习率,从而使自变量向最优解更快移动。

7.4.3 从零开始实现

相对于小批量随机梯度下降,动量法需要对每一个自变量维护一个同它一样形状的速度变量,且超参数里多了动量超参数。实现中,我们将速度变量用更广义的状态变量states表示。

  1. features, labels = d2l.get_data_ch7()
  2. def init_momentum_states():
  3. v_w = torch.zeros((features.shape[1], 1), dtype=torch.float32)
  4. v_b = torch.zeros(1, dtype=torch.float32)
  5. return (v_w, v_b)
  6. def sgd_momentum(params, states, hyperparams):
  7. for p, v in zip(params, states):
  8. v.data = hyperparams['momentum'] * v.data + hyperparams['lr'] * p.grad.data
  9. p.data -= v.data

我们先将动量超参数momentum设0.5,这时可以看成是特殊的小批量随机梯度下降:其小批量随机梯度为最近2个时间步的2倍小批量梯度的加权平均。

注:个人认为这里不应该是“加权平均”而应该是“加权和”,因为根据7.4.2.2节分析,加权平均最后除以了

7.4 动量法 - 图64
,所以就相当于没有进行平均。

  1. d2l.train_ch7(sgd_momentum, init_momentum_states(),
  2. {'lr': 0.02, 'momentum': 0.5}, features, labels)

输出:

  1. loss: 0.245518, 0.042304 sec per epoch

7.4 动量法 - 图65

将动量超参数momentum增大到0.9,这时依然可以看成是特殊的小批量随机梯度下降:其小批量随机梯度为最近10个时间步的10倍小批量梯度的加权平均。我们先保持学习率0.02不变。

同理,这里不应该是“加权平均”而应该是“加权和”。

  1. d2l.train_ch7(sgd_momentum, init_momentum_states(),
  2. {'lr': 0.02, 'momentum': 0.9}, features, labels)

输出:

  1. loss: 0.252046, 0.095708 sec per epoch

7.4 动量法 - 图66

可见目标函数值在后期迭代过程中的变化不够平滑。直觉上,10倍小批量梯度比2倍小批量梯度大了5倍,我们可以试着将学习率减小到原来的1/5。此时目标函数值在下降了一段时间后变化更加平滑。

这也印证了刚刚的观点。

  1. d2l.train_ch7(sgd_momentum, init_momentum_states(),
  2. {'lr': 0.004, 'momentum': 0.9}, features, labels)

输出:

  1. loss: 0.242905, 0.073496 sec per epoch

7.4 动量法 - 图67

7.4.4 简洁实现

在PyTorch中,只需要通过参数momentum来指定动量超参数即可使用动量法。

  1. d2l.train_pytorch_ch7(torch.optim.SGD, {'lr': 0.004, 'momentum': 0.9},
  2. features, labels)

输出:

  1. loss: 0.253280, 0.060247 sec per epoch

7.4 动量法 - 图68

小结

  • 动量法使用了指数加权移动平均的思想。它将过去时间步的梯度做了加权平均,且权重按时间步指数衰减。
  • 动量法使得相邻时间步的自变量更新在方向上更加一致。

注:除代码外本节与原书此节基本相同,原书传送门