ClipGradByGlobalNorm

class paddle.nn.ClipGradByGlobalNorm ( clip_norm, group_name\=’default_group’ ) [源代码]

将一个 Tensor列表

ClipGradByGlobalNorm - 图1

中所有Tensor的L2范数之和,限定在 clip_norm 范围内。

  • 如果范数之和大于 clip_norm ,则所有 Tensor 会乘以一个系数进行压缩

  • 如果范数之和小于或等于 clip_norm ,则不会进行任何操作。

输入的 Tensor 不是从该类里传入, 而是默认选择优化器中输入的所有参数的梯度。如果某个参数 ParamAttr 中的 need_clip 值被设置为 False ,则该参数的梯度不会被裁剪。

该类需要在初始化 optimizer 时进行设置后才能生效,可参看 optimizer 文档(例如: SGD )。

裁剪公式如下:

ClipGradByGlobalNorm - 图2

其中:

global_norm\=∑i\=0n−1(l2norm(t_list[i]))2‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾⎷global_norm\=∑i\=0n−1(l2norm(t_list[i]))2

参数:

  • clip_norm (float) - 所允许的范数最大值

  • group_name (str, optional) - 剪切的组名

代码示例

  1. import paddle
  2. x = paddle.uniform([10, 10], min=-1.0, max=1.0, dtype='float32')
  3. linear = paddle.nn.Linear(in_features=10, out_features=10,
  4. weight_attr=paddle.ParamAttr(need_clip=True),
  5. bias_attr=paddle.ParamAttr(need_clip=False))
  6. out = linear(x)
  7. loss = paddle.mean(out)
  8. loss.backward()
  9. clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=1.0)
  10. sdg = paddle.optimizer.SGD(learning_rate=0.1, parameters=linear.parameters(), grad_clip=clip)
  11. sdg.step()