十一、训练深层神经网络 - 数据增强 - 《Sklearn 与 TensorFlow 机器学习实用指南》

数据增强

最后一个正则化技术，数据增强，包括从现有的训练实例中产生新的训练实例，人为地增加了训练集的大小。这将减少过拟合，使之成为正则化技术。诀窍是生成逼真的训练实例; 理想情况下，一个人不应该能够分辨出哪些是生成的，哪些不是生成的。而且，简单地加白噪声也无济于事。你应用的修改应该是可以学习的（白噪声不是）。

例如，如果您的模型是为了分类蘑菇图片，您可以稍微移动，旋转和调整训练集中的每个图片的大小，并将结果图片添加到训练集（见图 11-10）。这迫使模型更能容忍图片中蘑菇的位置，方向和大小。如果您希望模型对光照条件更加宽容，则可以类似地生成具有各种对比度的许多图像。假设蘑菇是对称的，你也可以水平翻转图片。通过结合这些转换，可以大大增加训练集的大小。

通常最好在训练期间生成训练实例，而不是浪费存储空间和网络带宽。TensorFlow 提供了多种图像处理操作，例如转置（移位），旋转，调整大小，翻转和裁剪，以及调整亮度，对比度，饱和度和色调（请参阅 API 文档以获取更多详细信息）。这可以很容易地为图像数据集实现数据增强。

训练非常深的神经网络的另一个强大的技术是添加跳过连接（跳过连接是将层的输入添加到更高层的输出时）。我们将在第 13 章中谈论深度残差网络时探讨这个想法。