四、参数估计准则

4.1 最大似然估计

  1. 假设数据集 四、参数估计准则 - 图1 中的样本独立同分布地由 四、参数估计准则 - 图2 产生,但是该分布是未知的。

    四、参数估计准则 - 图3 是一族由 四、参数估计准则 - 图4 参数控制的概率分布函数族,希望通过 四、参数估计准则 - 图5 来估计真实的概率分布函数 四、参数估计准则 - 图6 ,也就是要估计 四、参数估计准则 - 图7 参数。

  2. 最大似然估计最大化数据集 四、参数估计准则 - 图8 出现的概率。即:

    四、参数估计准则 - 图9

    • 由于概率的乘积会因为很多原因不便使用(如容易出现数值下溢出),因此转换为对数的形式:四、参数估计准则 - 图10
    • 因为 四、参数估计准则 - 图11四、参数估计准则 - 图12 无关,因此它也等价于: 四、参数估计准则 - 图13
    • 由于数据集的经验分布为:四、参数估计准则 - 图14 ,其中 四、参数估计准则 - 图15 为狄拉克函数。因此:四、参数估计准则 - 图16
  3. 考虑数据集的经验分布 四、参数估计准则 - 图17 和真实分布函数的估计量 四、参数估计准则 - 图18 之间的差异,KL散度为:

    四、参数估计准则 - 图19

    由于 四、参数估计准则 - 图20四、参数估计准则 - 图21 无关,因此要使得 四、参数估计准则 - 图22 最小,则只需要最小化 四、参数估计准则 - 图23 。也就是最大化 四、参数估计准则 - 图24

    因此:最大似然估计就是最小化数据集的经验分布 四、参数估计准则 - 图25 和真实分布函数的估计量 四、参数估计准则 - 图26 之间的差异

  4. 最大似然估计可以扩展到估计条件概率。

    假设数据集 四、参数估计准则 - 图27,对应的观测值为 四、参数估计准则 - 图28。则条件概率的最大似然估计为:四、参数估计准则 - 图29

    如果样本是独立同分布的,则可以分解成:四、参数估计准则 - 图30

  5. 最大似然估计有两个很好的性质:

    • 在某些条件下,最大似然估计具有一致性。这意味着当训练样本数量趋向于无穷时,参数的最大似然估计依概率收敛到参数的真实值。

      这些条件为:

      • 真实分布 四、参数估计准则 - 图31 必须位于分布函数族 四、参数估计准则 - 图32 中;否则没有估计量可以表示 四、参数估计准则 - 图33
      • 真实分布 四、参数估计准则 - 图34 必须对应一个 四、参数估计准则 - 图35 值;否则从最大似然估计恢复出真实分布 四、参数估计准则 - 图36 之后,也不能解出参数 四、参数估计准则 - 图37
    • 最大似然估计具有很好的统计效率statistic efficiency。即只需要较少的样本就能达到一个良好的泛化误差。
  6. 最大似然估计通常是机器学习中的首选估计准则。

  7. 当样本数量太少导致过拟合时,正则化技巧是最大似然的有偏估计版本。

4.2 贝叶斯估计

4.2.1 贝叶斯估计 vs 最大似然估计

  1. 在最大似然估计中,频率学派的观点是:真实参数 四、参数估计准则 - 图38 是未知的固定的值,而点估计 四、参数估计准则 - 图39 是随机变量。因为数据是随机生成的,所以数据集是随机的。

    在贝叶斯估计中,贝叶斯学派认为:数据集是能够直接观测到的,因此不是随机的。而真实参数 四、参数估计准则 - 图40 是未知的、不确定的,因此 四、参数估计准则 - 图41 是随机变量。

    • 四、参数估计准则 - 图42 的已知的知识表示成先验概率分布 四、参数估计准则 - 图43 :表示在观测到任何数据之前,对于参数 四、参数估计准则 - 图44 的可能取值的一个分布。

      在机器学习中,一般会选取一个相当宽泛的(熵比较高)的先验分布,如均匀分布。

    • 假设观测到一组数据 四、参数估计准则 - 图45 ,根据贝叶斯法则,有:

    四、参数估计准则 - 图46

  2. 贝叶斯估计与最大似然估计有两个重要区别:

    • 贝叶斯估计预测下,一个样本的分布为:

      四、参数估计准则 - 图47

      而最大似然估计预测下,一个样本的分布为: 四、参数估计准则 - 图48

    • 贝叶斯估计会使得概率密度函数向着先验概率分布的区域偏移。

  3. 当训练数据有限时,贝叶斯估计通常比最大似然估计泛化性能更好。

    当训练样本数量很大时,贝叶斯估计往往比最大似然估计计算代价较高。

4.2.2 最大后验估计

  1. 有时候希望获取参数 四、参数估计准则 - 图49 的一个可能的值,而不仅仅是它的一个分布。此时可以通过最大后验估计MAP 选择后验概率最大的点:

    四、参数估计准则 - 图50

  2. 最大后验估计具有最大似然估计没有的优势:拥有先验知识带来的信息。该信息有助于减少估计量的方差,但是增加了偏差。

  3. 一些正则化方法可以被解释为最大后验估计,正则化项就是对应于 四、参数估计准则 - 图51

    • 并非所有的正则化方法都对应为某个最大后验估计。

      如:有些正则化项依赖于数据,则显然不是一个先验概率分布

  4. 最大后验估计估计MAP 提供了一个直观的方法去设计复杂的、可解释的正则化项。

    更复杂的正则化项可以通过先验分布为混合高斯分布得到(而不仅仅是一个单独的高斯分布)。