二、主成分分析 PCA

  1. 主成分分析Principal Component Analysis:PCA是最常用的一种降维方法。

2.1 PCA 原理

2.1.1 坐标变换

  1. 给定数据集 二、主成分分析 PCA - 图1 ,其中 二、主成分分析 PCA - 图2 。假定样本经过了中心化,即:

    二、主成分分析 PCA - 图3

    • 二、主成分分析 PCA - 图4 称作数据集 二、主成分分析 PCA - 图5 的中心向量,它的各元素就是各个特征的均值。
    • 之所以进行中心化,是因为经过中心化之后常规的线性变换就是绕原点的旋转变换,也就是坐标变换。
  2. 假设坐标变换矩阵为 二、主成分分析 PCA - 图6 ,经过变换之后样本 二、主成分分析 PCA - 图7 的坐标为: 二、主成分分析 PCA - 图8 。其中 二、主成分分析 PCA - 图9二、主成分分析 PCA - 图10

    二、主成分分析 PCA - 图11 ,它表示样本 二、主成分分析 PCA - 图12 降低到 二、主成分分析 PCA - 图13 维度。令 二、主成分分析 PCA - 图14 ,则有: 二、主成分分析 PCA - 图15

    根据坐标变换矩阵的性质,有:

    • 二、主成分分析 PCA - 图16二、主成分分析 PCA - 图17
    • 二、主成分分析 PCA - 图18
    • 二、主成分分析 PCA - 图19二、主成分分析 PCA - 图20
  3. 对数据集 二、主成分分析 PCA - 图21 中的样本 二、主成分分析 PCA - 图22 ,降维后的数据为 二、主成分分析 PCA - 图23 。令:

    二、主成分分析 PCA - 图24

    二、主成分分析 PCA - 图25 的第 二、主成分分析 PCA - 图26 行就是样本 二、主成分分析 PCA - 图27二、主成分分析 PCA - 图28 的第 二、主成分分析 PCA - 图29 行就是降维后的数据 二、主成分分析 PCA - 图30

    • 二、主成分分析 PCA - 图31 ,它表示 二、主成分分析 PCA - 图32 的第 二、主成分分析 PCA - 图33 列,也就是原始的第 二、主成分分析 PCA - 图34 个特征。
    • 二、主成分分析 PCA - 图35 ,它表示 二、主成分分析 PCA - 图36 的第 二、主成分分析 PCA - 图37 列 ,也就是降维之后的第 二、主成分分析 PCA - 图38 个特征。

    则根据 二、主成分分析 PCA - 图39,有 :

    二、主成分分析 PCA - 图40

    因此降维的物理意义为:通过线性组合原始特征,从而去掉一些冗余的或者不重要的特征、保留重要的特征。

2.1.2 重构误差

  1. 考虑对 二、主成分分析 PCA - 图41 进行重构,重构之后的样本为: 二、主成分分析 PCA - 图42

    对整个数据集 二、主成分分析 PCA - 图43 所有重建样本与原始样本的误差为:

    二、主成分分析 PCA - 图44

  2. 根据定义有:

    二、主成分分析 PCA - 图45

    由于 二、主成分分析 PCA - 图46 是标量,所以有: 二、主成分分析 PCA - 图47

    由于标量的转置等于它本身,所以有: 二、主成分分析 PCA - 图48

    则有:

    二、主成分分析 PCA - 图49

  3. 根据 二、主成分分析 PCA - 图50 的定义,可以证明( 二、主成分分析 PCA - 图51 为矩阵的Frobenius范数):

    二、主成分分析 PCA - 图52

    证明:

    二、主成分分析 PCA - 图53

    则有:

    二、主成分分析 PCA - 图54

    将最后的下标从 二、主成分分析 PCA - 图55 替换为 二、主成分分析 PCA - 图56 即可得证。

  4. PCA降维要求重构误差最小。现在求解最优化问题:

    二、主成分分析 PCA - 图57

    • 因为矩阵及其转置的迹相等,因此 二、主成分分析 PCA - 图58

      由于可以在 二、主成分分析 PCA - 图59 中调整矩阵的顺序,则 二、主成分分析 PCA - 图60

      考虑到:

      二、主成分分析 PCA - 图61

      代入上式有:二、主成分分析 PCA - 图62

      于是有:

      二、主成分分析 PCA - 图63

    • 由于 二、主成分分析 PCA - 图64二、主成分分析 PCA - 图65 无关,因此:

      二、主成分分析 PCA - 图66

    • 调整矩阵顺序,则有:二、主成分分析 PCA - 图67 。其约束条件为: 二、主成分分析 PCA - 图68

  5. PCA 最优化问题需要求解就是 二、主成分分析 PCA - 图69 的特征值。

    • 只需要对矩阵 二、主成分分析 PCA - 图70 进行特征值分解,将求得的特征值排序: 二、主成分分析 PCA - 图71 。然后取前 二、主成分分析 PCA - 图72 个特征值对应的单位特征向量构成坐标变换矩阵 二、主成分分析 PCA - 图73
    • 当样本数据进行了中心化时 ,二、主成分分析 PCA - 图74 就是样本集的协方差矩阵。这也是为什么需要对样本进行中心化的一个原因。

2.2 PCA 算法

  1. PCA 算法:

    • 输入:

      • 样本集 二、主成分分析 PCA - 图75
      • 低维空间维数 二、主成分分析 PCA - 图76
    • 输出:投影矩阵 二、主成分分析 PCA - 图77

    • 算法步骤:

      • 对所有样本进行中心化操作: 二、主成分分析 PCA - 图78
      • 计算样本的协方差矩阵 二、主成分分析 PCA - 图79
      • 对协方差矩阵 二、主成分分析 PCA - 图80 做特征值分解。
      • 取最大的 二、主成分分析 PCA - 图81 个特征值对应的单位特征向量 二、主成分分析 PCA - 图82 ,构造投影矩阵 二、主成分分析 PCA - 图83
  2. 通常低维空间维数 二、主成分分析 PCA - 图84 的选取有两种方法:

    • 通过交叉验证法选取较好的 二、主成分分析 PCA - 图85 。“比较好”指的是在降维后的学习器的性能比较好。

    • 从算法原理的角度设置一个阈值,比如 二、主成分分析 PCA - 图86 ,然后选取使得下式成立的最小的 二、主成分分析 PCA - 图87 的值:

      二、主成分分析 PCA - 图88

      其中 二、主成分分析 PCA - 图89 从大到小排列。

2.3 性质

  1. 从物理意义上看: 给定协方差矩阵 二、主成分分析 PCA - 图90,通过坐标变换将其对角化为矩阵:

    二、主成分分析 PCA - 图91

    这相当于在新的坐标系中:

    • 任意一对特征之间的协方差为 0 。
    • 单个特征的方差为 二、主成分分析 PCA - 图92

    即:数据在每个维度上尽可能分散,且任意两个维度之间不相关。

    降维的过程就是寻找这样的一个坐标变换,也就是坐标变换矩阵 二、主成分分析 PCA - 图93

    由于协方差矩阵 二、主成分分析 PCA - 图94 是对称矩阵,根据实对称矩阵的性质,这样的坐标变换矩阵一定存在。

  2. PCA算法中,低维空间与高维空间必然不相同。因为末尾 二、主成分分析 PCA - 图95 个最小的特征值对应的特征向量被抛弃了,这就是降维导致的结果。

    • 舍弃这部分信息之后能使得样本的采样密度增大(因为维数降低了),这是缓解维度灾难的重要手段。
    • 当数据受到噪声影响时,最小特征值对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到降噪的效果。
  3. PCA降低了输入数据的维度同时保留了主要信息/能量,但是这个主要信息只是针对训练集的,而且这个主要信息未必是重要信息。

    有可能舍弃了一些看似无用的信息,但是这些看似无用的信息恰好是重要信息,只是在训练集上没有很大的表现,所以PCA也可能加剧了过拟合。

  4. PCA中训练样本越多越好。

    • 如果训练样本太少,则训练集很有可能“偶然”近似落在同一个平面上。

    • 极端情况下,如果样本数量小于目标维度,比如样本数量为 100,目标维度为 1000 维。则这 100个样本总可以构成一个 1000 维的平面,且这样的平面有无穷多个。此时如果进行PCA降维,则前几个特征值 二、主成分分析 PCA - 图96 占比非常大。

      但是如果将样本数量扩充为 10000 ,则这些样本构成一个 1000 维的平面的巧合就几乎很难成立。此时如果进行PCA降维,则前几个特征值 二、主成分分析 PCA - 图97 占比就会降低。

    • 本质上是因为 二、主成分分析 PCA - 图98 决定了协方差矩阵 二、主成分分析 PCA - 图99 的秩的上界。

      二、主成分分析 PCA - 图100 较小时,二、主成分分析 PCA - 图101 也会很小,导致大量的特征值 二、主成分分析 PCA - 图102 为 0 。

  5. PCA不仅将数据压缩到低维,它也使得降维之后的数据各特征相互独立。

    注意:PCA推导过程中,并没有要求数据中心化;但是在推导协方差矩阵时,要求数据中心化。此时:

    二、主成分分析 PCA - 图103

    其中:

    • 二、主成分分析 PCA - 图104二、主成分分析 PCA - 图105 的最大的 二、主成分分析 PCA - 图106 个特征值组成的对角矩阵。
    • 二、主成分分析 PCA - 图107 为降维后的样本集组成的矩阵。
  6. 对于训练集、验证集、测试集,当对训练集进行PCA 降维时,也需要对验证集、测试集执行同样的降维。

    注意:对验证集、测试集执行中心化操作时,中心向量必须从训练集计算而来。不能使用验证集的中心向量,也不能用测试集的中心向量。

2.4 最大可分性

  1. PCA降维的准则有两个:

    • 最近重构性:样本集中所有点,重构后的点距离原来的点的误差之和最小(就是前面介绍的内容)。
    • 最大可分性:样本点在低维空间的投影尽可能分开。
  2. 可以证明,最近重构性就等价于最大可分性。证明如下:

    对于样本点 二、主成分分析 PCA - 图108, 它在降维后空间中的投影是 二、主成分分析 PCA - 图109。 则有: 二、主成分分析 PCA - 图110

    由于样本数据进行了中心化,则投影后样本点的方差是:

    二、主成分分析 PCA - 图111

    根据 二、主成分分析 PCA - 图112 的定义,有:二、主成分分析 PCA - 图113 。则样本点的方差最大的优化目标可写作:

    二、主成分分析 PCA - 图114

    这就是前面最近重构性推导的结果。

  3. LDA 也可以用于降维。对于2维空间降低到1维直线的情况下,它设法将样例投影到某一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。

    • LDA 考虑的是:向类别区分最大的方向投影。如下图中的绿色投影直线。
    • PCA 考虑的是:向方差最大的方向投影。如下图中的紫色投影直线。

    因此LDA 降维对于类别的区分效果要好的多。

    pca_lda

2.5 PCA 与 SVD

  1. 酉矩阵:若 二、主成分分析 PCA - 图116 阶矩阵满足 二、主成分分析 PCA - 图117 ,则它是酉矩阵。其中 二、主成分分析 PCA - 图118二、主成分分析 PCA - 图119 的共轭转置。

    二、主成分分析 PCA - 图120 为酉矩阵的充要条件是: 二、主成分分析 PCA - 图121

  2. 奇异值分解:设 二、主成分分析 PCA - 图122二、主成分分析 PCA - 图123 阶矩阵,且 二、主成分分析 PCA - 图124,则存在 二、主成分分析 PCA - 图125 阶酉矩阵 二、主成分分析 PCA - 图126二、主成分分析 PCA - 图127 阶酉矩阵 二、主成分分析 PCA - 图128 ,使得:

    二、主成分分析 PCA - 图129

    其中

    二、主成分分析 PCA - 图130

    二、主成分分析 PCA - 图131 称作矩阵 二、主成分分析 PCA - 图132 的奇异值。

  3. 根据酉矩阵的性质, 二、主成分分析 PCA - 图133,则有:

    二、主成分分析 PCA - 图134

    则有 二、主成分分析 PCA - 图135, 其中 二、主成分分析 PCA - 图136 是个 二、主成分分析 PCA - 图137 阶对角矩阵:

    二、主成分分析 PCA - 图138

  4. 由数据集 二、主成分分析 PCA - 图139 中样本构成的 二、主成分分析 PCA - 图140 为实矩阵,因此有 二、主成分分析 PCA - 图141 。另外考虑到 二、主成分分析 PCA - 图142 为实对称矩阵,因此 二、主成分分析 PCA - 图143 也是实矩阵,因此 二、主成分分析 PCA - 图144。 则有:

    二、主成分分析 PCA - 图145

    • 根据 二、主成分分析 PCA - 图146 ,则有:二、主成分分析 PCA - 图147

    • 根据 二、主成分分析 PCA - 图148 是个对角矩阵的性质,有:二、主成分分析 PCA - 图149 ,则有: 二、主成分分析 PCA - 图150

      二、主成分分析 PCA - 图151 就是的 二、主成分分析 PCA - 图152 特征值, 其对应的单位特征向量组成正交矩阵 二、主成分分析 PCA - 图153

      因此SVD奇异值分解等价于PCA主成分分析,核心都是求解 二、主成分分析 PCA - 图154 的特征值以及对应的单位特征向量。