五、感知机

来源:华校专浏览 1453 扫码分享 2020-06-07 18:10:14

五、感知机

五、感知机

5.1 定义

感知机是二分类的线性分类模型，属于判别模型。
- 模型的输入为实例的特征向量，模型的输出为实例的类别：正类取值 +1, 负类取值 -1 。
- 感知机的物理意义：将输入空间（特征空间）划分为正、负两类的分离超平面。
设输入空间（特征空间）为；输出空间为；输入为特征空间的点；输出为实例的类别。

定义函数为感知机。其中：
- 为权值向量，为偏置。它们为感知机的参数。
- sign 为符号函数：
感知机的几何解释：对应特征空间上的一个超平面，称作分离超平面。
- 是超平面的法向量，是超平面的截距。
- 超平面将特征空间划分为两个部分：
  - 超平面上方的点判别为正类。
  - 超平面下方的点判别为负类。

5.2 损失函数

给定数据集，其中。

若存在某个超平面：，使得将数据集中的正实例点与负实例点完全正确地划分到超平面的两侧，则称数据集为线性可分数据集；否则称数据集线性不可分。

划分到超平面两侧，用数学语言描述为：
根据感知机的定义：
- 对正确分类的点，有
- 对误分类的点，有
如果将感知机的损失函数定义成误分类点的中总数，则它不是的连续可导函数，不容易优化。

因此，定义感知机的损失函数为误分类点到超平面的总距离。

对误分类的点，则距离超平面的距离为：

由于，以及，因此上式等于

不考虑，则得到感知机学习的损失函数：

其中：
- 为误分类点的集合。它隐式的与相关，因为优化导致误分类点减少从而使得收缩。
- 之所以不考虑，因为感知机要求训练集线性可分，最终误分类点数量为零，此时损失函数为零。即使考虑分母，也是零。若训练集线性不可分，则感知机算法无法收敛。
- 误分类点越少或者误分类点距离超平面越近，则损失函数越小。
对于特定的样本点，其损失为：
- 若正确分类，则损失为 0 。
- 若误分类，则损失为的线性函数。
因此给定训练集，损失函数是的连续可导函数。

5.3 学习算法

给定训练集，求参数：

。

5.3.1 原始形式

假设误分类点集合是固定的，则损失函数的梯度为：
通过梯度下降法，随机选取一个误分类点，对进行更新：

其中是步长，即学习率。

通过迭代可以使得损失函数不断减小直到 0 。
感知机学习算法的原始形式：
- 输入：
  - 线性可分训练集
  - 学习率
- 输出：
  - 感知机模型：
- 步骤：
  - 选取初始值。
  - 在训练集中选取数据。若则：
  - 在训练集中重复选取数据来更新直到训练集中没有误分类点。

5.3.2 性质

对于某个误分类点，假设它被选中用于更新参数。
- 假设迭代之前，分类超平面为，该误分类点距超平面的距离为。
- 假设迭代之后，分类超平面为，该误分类点距超平面的距离为。
则：

因此有。

这里要求，因此步长要相当小。
几何解释：当一个实例点被误分类时，调整使得分离平面向该误分类点的一侧移动，以减少该误分类点与超平面间的距离，直至超平面越过所有的误分类点以正确分类。
感知机学习算法由于采用不同的初值或者误分类点选取顺序的不同，最终解可以不同。

5.3.3 收敛性

感知机收敛性定理：设线性可分训练集。
- 存在满足的超平面：，该超平面将完全正确分开。
  
  且存在，对所有的有：。
  
  其中。
- 令，则感知机学习算法原始形式在上的误分类次数满足：
感知机收敛性定理说明了：
- 当训练集线性可分时，感知机学习算法原始形式迭代是收敛的。
  - 此时算法存在许多解，既依赖于初值，又依赖于误分类点的选择顺序。
  - 为了得出唯一超平面，需要对分离超平面增加约束条件。
- 当训练集线性不可分时，感知机学习算法不收敛，迭代结果会发生震荡。

5.3.4 对偶形式

根据原始迭代形式：

取初始值均为 0。则可以改写为：

这就是感知机学习算法的对偶形式。
感知机学习算法的对偶形式：
- 输入：
  - 线性可分训练集
  - 学习率
- 输出：
  - ，其中。
  - 感知机模型。
- 步骤：
  - 初始化：。
  - 在训练集中随机选取数据，若则更新：
  - 在训练集中重复选取数据来更新直到训练集中没有误分类点。
在对偶形式中，训练集仅仅以内积的形式出现，因为算法只需要内积信息。

可以预先将中的实例间的内积计算出来，并以矩阵形式存储。即 Gram矩阵：
与原始形式一样，感知机学习算法的对偶形式也是收敛的，且存在多个解。

当前内容版权归华校专或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问华校专 .

本文档使用 BookStack 构建

展开/收起文章目录