四、噪声鲁棒性

  1. 有三种添加噪声的策略:输入噪声注入、权重噪声注入、输出噪声注入。

4.1 输入噪声注入

  1. 输入噪声注入:将噪声作用于输入的数据集,这也是前文介绍的一种数据集增强方法。

  2. 对于某些模型,在输入上注入方差极小的噪音等价于对权重施加参数范数正则化(Bishop,1995a,b)。

    但是输入噪声注入远比简单地收缩参数强大,尤其是噪声被添加到隐单元的输入上时。

4.2 权重噪声注入

  1. 权重噪声注入:将噪音作用于权重。这项技术主要用于循环神经网络。

  2. 权重噪声注入可以解释为:将权重视作不确定的随机变量(拥有某个概率分布),向权重注入噪声是对该随机变量采样得到的一个随机值。

  3. 在某些假设下,权重噪声注入等价于传统的参数正则化形式。

  4. 假设有一个 四、噪声鲁棒性 - 图1 层的标准的深度前馈神经网络,我们将噪声注入到该网络的权重。

    假设 四、噪声鲁棒性 - 图2 ,则有:

    四、噪声鲁棒性 - 图3

    常数项包含了高斯分布的方差(与 四、噪声鲁棒性 - 图4 无关)。

    于是目标函数重写为:四、噪声鲁棒性 - 图5

  5. 假设每个权重添加一个随机扰动 四、噪声鲁棒性 - 图6, 它是一个均值为0、方差为 四、噪声鲁棒性 - 图7 的标准正态分布。

    假设添加扰动之后的模型为 四、噪声鲁棒性 - 图8

    假设有 四、噪声鲁棒性 - 图9 ,即:模型对于增加扰动之后的期望等于原来的模型。

    于是:

    四、噪声鲁棒性 - 图10

    根据:

    四、噪声鲁棒性 - 图11

    四、噪声鲁棒性 - 图12

    于是有:

    四、噪声鲁棒性 - 图13

  6. 四、噪声鲁棒性 - 图14四、噪声鲁棒性 - 图15 处泰勒展开,有:四、噪声鲁棒性 - 图16 。则有:

    四、噪声鲁棒性 - 图17

    于是有:四、噪声鲁棒性 - 图18

    这说明:权重噪声注入的代价函数等于非权重噪声注入的代价函数加上一个参数正则化项。

    • 该正则化项就是 四、噪声鲁棒性 - 图19,其中 四、噪声鲁棒性 - 图20 为噪声的方差。

      噪声方差越大,则正则化项越大。

    • 该形式的正则化将鼓励参数进入对小扰动不敏感的区域。即:找到的点不仅是极小点,还是由平坦区域包围的极小点。

      平坦区域意味着梯度很小,意味着对小扰动不敏感。

  1. 如果是简单的线性回归,即 四、噪声鲁棒性 - 图21,则权重噪声注入等价的参数正则化项退化为 四、噪声鲁棒性 - 图22

    该正则化项与模型的参数无关,因此对 四、噪声鲁棒性 - 图23 关于 四、噪声鲁棒性 - 图24 的梯度没有贡献,因此目标函数可以重写为:四、噪声鲁棒性 - 图25

4.3 输出噪声注入

  1. 有些数据集存在少量的 四、噪声鲁棒性 - 图26 标签是错误的,此时通过最大似然准则来最大化 四、噪声鲁棒性 - 图27 是不正确的。

    输出噪声注入显式地对标签上的噪音进行建模:假设某个很小的常数 四、噪声鲁棒性 - 图28, 标签 四、噪声鲁棒性 - 图29 是正确的概率为 四、噪声鲁棒性 - 图30 、是错误的概率为 四、噪声鲁棒性 - 图31

  2. 基于 四、噪声鲁棒性 - 图32 个输出的softmax单元的标签平滑正则化label smoothing regularize:将真实的标签从 四、噪声鲁棒性 - 图33 替换为 四、噪声鲁棒性 - 图34

    原始的标签:四、噪声鲁棒性 - 图35 个为 0, 一个为1 。注入噪声之后的标签:四、噪声鲁棒性 - 图36 个为 四、噪声鲁棒性 - 图37 ,一个为 四、噪声鲁棒性 - 图38

    四、噪声鲁棒性 - 图39