视觉皮层的结构

​David H.Hubel 和 Torsten Wiesel 在 1958 年和 1959 年对猫进行了一系列实验(以及几年后在猴子上的实验),对视觉皮层的结构提供了重要的见解(1981 年作者因此获得了诺贝尔生理和医学奖)。具体来说,他们发现视皮层中的许多神经元有一个小的局部感受野,这意味着它们只对位于视野中有限的一部分区域的视觉刺激起作用(见图 13-1,五个神经元的局部感受野由虚线圆圈表示)。不同神经元的感受野可能重叠,并且它们一起平铺了整个视野。此外,作者表明,一些神经元只对水平线方向的图像作出反应,而另一些神经元只对不同方向的线作出反应(两个神经元可能具有相同的感受野,但对不同方向的线作出反应)。他们还注意到一些神经元具有较大的感受野,并且它们对较复杂的模式作出反应,这些模式是较低层模式的组合。这些观察结果让我们想到:更高级别的神经元是基于相邻低级神经元的输出(在图 13-1 中,请注意,每个神经元只与来自前一层的少数神经元相连)。这个强大的结构能够检测视野中任何区域的各种复杂图案。

​这些对视觉皮层的研究启发了 1980 年推出的新认知机(neocognitron),后者逐渐演变为我们现在称之为卷积神经网络。一个重要的里程碑是 Yann LeCun,LéonBottou,Yoshua Bengio 和 Patrick Haffner 于 1998 年发表的一篇论文,该论文引入了着名的 LeNet-5 架构,广泛用于识别手写支票号码。这个架构有一些你已经知道的构建块,比如完全连接层和 Sigmoid 激活函数,但是它还引入了两个新的构建块:卷积层和池化层。现在我们来看看他们。