二、 Boosting

  1. 提升方法(boosting) 是一种常用的统计学习方法。在分类问题中,它通过改变训练样本的权重学习多个分类器,并将这些分类器们进行线性组合来提高分类的能力。

  2. 提升方法的基本思想是:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断要好。类似于”三个臭皮匠顶一个诸葛亮“。

  3. 提升方法的理论基础是:强可学习与弱可学习是等价的。

    在概率近似正确(probably approximately correct,PAC)学习的框架下:

    • 强可学习:一个概念(或一个类别),若存在一个多项式的学习算法能够学习它并且正确率很高,那么称这个概念是强可学习的。
    • 弱可学习:一个概念(或一个类别),若存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好,那么称这个概念是弱可学习的。

    可以证明:强可学习与弱可学习是等价的。

    即:若在学习中发现了 ”弱学习算法“ ,则可以通过某些办法将它提升为 ”强学习算法“。

  4. 对于分类问题而言,求一个比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)要容易得多。

  5. Boosting 就是一族可以将弱学习器提升为强学习器的算法。

    这族算法的工作原理类似:

    • 先从初始训练集训练出一个基学习器。
    • 再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注。
    • 然后基于调整后的样本分布来训练下一个基学习器。
    • 如此重复,直到基学习器数量达到事先指定的值M
    • 最终将这M个基学习器进行加权组合。

2.1 AdaBoost 算法

  1. Boosting族算法最著名的代表是AdaBoost算法。

  2. AdaBoot算法两个核心步骤:

    • 每一轮中如何改变训练数据的权值?

      AdaBoost算法提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。

      于是那些没有得到正确分类的数据由于权值的加大而受到后一轮的弱分类器的更大关注。

    • 最后如何将一系列弱分类器组合成一个强分类器?

      AdaBoost 采用加权多数表决的方法:

      • 加大分类误差率较小的弱分类器的权值,使得它在表决中起较大作用。
      • 减小分类误差率较大的弱分类器的权值,使得它在表决中起较小的作用。
  3. AdaBoost算法有两个特点:

    • 不改变所给的训练数据,而不断改变训练数据权值的分布,使得训练数据在基本分类器的学习中起不同作用。

      • 因此AdaBoost要求基本学习器能够对特定的数据分布进行学习,这一般是在学习的时候为每个训练样本赋予一个权重。
      • 对于无法接受带权样本的基本学习算法,则可以通过“重采样法”来处理:即在每一轮学习中,根据样本分布对训练集重新采样,再用重采样的样本集对基本学习器进行训练。
      • 一般而言这两者没有显著的优劣差别。
    • 利用基本分类器的线性组合 二、 Boosting - 图1 构成最终分类器:

      二、 Boosting - 图2

      其中:

      • 二、 Boosting - 图3 的符号决定实例 二、 Boosting - 图4 的分类。
      • 二、 Boosting - 图5 的绝对值表示分类的确信度。
  4. AdaBoost 算法具有自适应性,即它能够自动适应弱分类器各自的训练误差率,这也是它的名字(适应的提升)的由来。

2.1.1 算法

  1. AdaBoost算法:

    • 输入:

      • 训练数据集 二、 Boosting - 图6
      • 弱学习算法
    • 输出:集成分类器 二、 Boosting - 图7

    • 算法步骤:

      • 初始化训练数据的权值分布 二、 Boosting - 图8

      • 二、 Boosting - 图9

        • 使用具有权值分布 二、 Boosting - 图10 的训练数据集学习,根据输入的弱学习算法得到基本分类器:二、 Boosting - 图11

        • 计算 二、 Boosting - 图12 在训练数据集上的分类误差率:二、 Boosting - 图13

          它就是所有误分类点的权重之和。其中权重越大的误差分类点,其在误差率中占比越大。

        • 二、 Boosting - 图14,算法终止,构建失败!

        • 计算 二、 Boosting - 图15 的系数:二、 Boosting - 图16

          该系数表示 二、 Boosting - 图17 在集成分类器中的重要性。它是 二、 Boosting - 图18 的单调减函数,说明误差越小的基本分类器,其重要性越高。

          根据系数大于零要求 二、 Boosting - 图19

        • 更新训练数据集的权值分布:二、 Boosting - 图20 。其中:

          二、 Boosting - 图21

          二、 Boosting - 图22 为规范化因子,它使得 二、 Boosting - 图23 成为一个概率分布 。

      • 构建基本分类器的线性组合: 二、 Boosting - 图24,于是得到集成分类器:二、 Boosting - 图25

  2. 为防止过拟合,AdaBoost 通常会加入正则化项。该正则化项称作步长或者学习率,定义为 二、 Boosting - 图26

    考虑正则化项之后,模型的更新方式为:二、 Boosting - 图27

2.1.2 算法解释

  1. AdaBoost 提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。

    这是通过更新训练数据集的权值分布 二、 Boosting - 图28 来实现的。其中:

    二、 Boosting - 图29

    • 对于正确分类样本,二、 Boosting - 图30 下一轮权重为:二、 Boosting - 图31
    • 对于错误分类样本,二、 Boosting - 图32 下一轮权重为:二、 Boosting - 图33

    两者比较,误分类样本的权重是正确分类样本的权重的 二、 Boosting - 图34 倍。于是误分类样本在下一轮学习中权重更大。

  2. 集成分类器 二、 Boosting - 图35 结合 二、 Boosting - 图36 个基本分类器的方式为加权表决。

    • 系数 二、 Boosting - 图37 表示了基本分类器二、 Boosting - 图38 的重要性。其中:

      二、 Boosting - 图39

    • 由于 二、 Boosting - 图40 是分类误差率 二、 Boosting - 图41 的单调递减函数,因此:

      • AdaBoost 加大分类误差率较小的弱分类器的权值,使得它在表决中起较大作用。
      • AdaBoost 减小分类误差率较大的弱分类器的权值,使得它在表决中起较小的作用。

2.1.3 误差分析

  1. 定理一:AdaBoost算法集成分类器的训练误差上界为:

    二、 Boosting - 图42

    这一定理说明:可以在每一轮选取适当的 二、 Boosting - 图43 使得 二、 Boosting - 图44 最小,从而使得训练误差下降最快。

  2. 定理二:二类分类 AdaBoost 的训练误差界:

    二、 Boosting - 图45

    其中 二、 Boosting - 图46

  3. 推论:若存在 二、 Boosting - 图47,对所有 二、 Boosting - 图48二、 Boosting - 图49 ,则有:

    二、 Boosting - 图50

    这表明在此条件下 AdaBoost 的训练误差是以指数速率下降的。

  4. 上述定理都只是关于训练误差的分析,实际应用中更关系测试集的误差。

    AdaBoost 算法也会出现过拟合,此时训练误差为 0 但是测试集的误差较大。

  5. AdaBoost 的基础分类器比较复杂时,AdaBoost 很容易陷入过拟合。

    但是当AdaBoost 的基础分类器比较简单时,AdaBoost 反而难以陷入过拟合。这也是为什么AdaBoost 的基础分类器经常选择使用树桩的原因。

2.3 AdaBoost 多分类

  1. 标准的AdaBoost算法只适用二类分类问题,可以将它推广到多分类问题。 有两种算法:

    • SAMME 算法:该算法不需要个体分类器输出类别的概率。
    • SAMME.R 算法:该算法需要个体分类器输出类别的概率。

2.3.1 SAMME 算法

  1. SAMME算法:

    • 输入:

      • 训练数据集 二、 Boosting - 图51
      • 弱学习算法
    • 输出:集成分类器 二、 Boosting - 图52

    • 算法步骤:

      • 初始化训练数据的权值分布 二、 Boosting - 图53

      • 二、 Boosting - 图54

        • 使用具有权值分布 二、 Boosting - 图55 的训练数据集学习,根据输入的弱学习算法得到基本分类器:二、 Boosting - 图56

        • 计算 二、 Boosting - 图57 在训练数据集上的分类误差率:二、 Boosting - 图58

        • 计算 二、 Boosting - 图59 的系数:二、 Boosting - 图60

          因为系数 二、 Boosting - 图61 ,因此要求 二、 Boosting - 图62

        • 更新训练数据集的权值分布: 二、 Boosting - 图63 。其中:

          二、 Boosting - 图64

          其中 二、 Boosting - 图65 为规范化因子,它使得 二、 Boosting - 图66 成为一个概率分布。

      • 构建基本分类器的线性组合,于是得到集成分类器:二、 Boosting - 图67

  2. 二、 Boosting - 图68SAMME算法退化为标准的AdaBoost算法。

2.3.2 SAMME.R算法

  1. SAMME.R算法:

    • 输入:

      • 训练数据集 二、 Boosting - 图69
      • 弱学习算法
    • 输出:集成分类器 二、 Boosting - 图70

    • 算法步骤:

      • 初始化训练数据的权值分布 二、 Boosting - 图71

      • 二、 Boosting - 图72

        • 使用具有权值分布 二、 Boosting - 图73 的训练数据集学习,根据输入的弱学习算法得到基本分类器:二、 Boosting - 图74

        • 计算 二、 Boosting - 图75 在训练数据集上的加权概率估计:

          二、 Boosting - 图76

          其中:

          • 二、 Boosting - 图77二、 Boosting - 图78 的真实标记。
          • 二、 Boosting - 图79二、 Boosting - 图80 的权重。
          • 二、 Boosting - 图81 刻画基本分类器 二、 Boosting - 图82 预测 二、 Boosting - 图83 的输出为类别 二、 Boosting - 图84 的概率的加权值。
        • 二、 Boosting - 图85 和类别 二、 Boosting - 图86 ,定义:

          二、 Boosting - 图87

          它刻画了: 二、 Boosting - 图88 预测的输出类别为 二、 Boosting - 图89 的概率加权值的对数 二、 Boosting - 图90 ,距离所有概率加权值对数的均值 二、 Boosting - 图91 的距离。

        • 更新训练数据集的权值分布: 二、 Boosting - 图92 。其中:

          二、 Boosting - 图93

        • 归一化训练数据集的权值分布 二、 Boosting - 图94,使得权值之和为 1 。

      • 构建基本分类器的线性组合,于是得到集成分类器:二、 Boosting - 图95

2.4 Adaboost 回归

  1. Adaboost 的回归问题有很多变种,这里介绍AdaBoost R2 算法。

  2. AdaBoost R2 回归算法:

    • 输入:

      • 训练数据集 二、 Boosting - 图96
      • 弱学习算法
    • 输出:集成回归器 二、 Boosting - 图97

    • 算法步骤:

      • 初始化训练数据的权值分布 二、 Boosting - 图98

      • 二、 Boosting - 图99

        • 使用具有权值分布 二、 Boosting - 图100 的训练数据集学习,根据输入的弱学习算法得到基本回归器:二、 Boosting - 图101

        • 计算 二、 Boosting - 图102 在训练数据集上的误差:

          二、 Boosting - 图103

          它就是所有样本的回归误差的加权和。

          其中 二、 Boosting - 图104 为误差绝对值的最大值,通过它来对所有的回归误差归一化。

        • 计算 二、 Boosting - 图105 的系数:二、 Boosting - 图106

          该系数表示 二、 Boosting - 图107 在集成回归器中的重要性。

          它是 二、 Boosting - 图108 的单调减函数,说明误差越小的基本回归器,其重要性越高。

        • 更新训练数据集的权值分布:二、 Boosting - 图109 。其中:

          二、 Boosting - 图110

          二、 Boosting - 图111 为规范化因子,它使得 二、 Boosting - 图112 成为一个概率分布 。

      • 构建基本回归器的线性组合 ,于是得到集成回归器:二、 Boosting - 图113

2.5 AdaBoost与加法模型

2.5.1 加法模型

  1. AdaBoost 算法可以认为是:模型为加法模型、损失函数为指数函数、学习算法为前向分步算法的二类分类学习方法。

    其中指数损失函数为: 二、 Boosting - 图114

  2. 考虑加法模型 二、 Boosting - 图115 ,其中 二、 Boosting - 图116 为基函数、 二、 Boosting - 图117 为基函数的参数、 二、 Boosting - 图118 为基函数的系数。

    给定训练数据以及损失函数 二、 Boosting - 图119 的条件下,根据经验风险极小化(即:损失函数极小化)准测来学习加法模型 二、 Boosting - 图120

    二、 Boosting - 图121

  3. 这是个复杂的最优化问题,通常可以采用前向分步算法求解。

    前向分步算法求解这一优化问题的思想是:因为学习的是加法模型,如果能够从前向后,每一步只学习一个基函数及其系数,逐步逼近优化目标函数,则可以简化优化的复杂度。

    具体地,每一步只需要优化如下的损失函数:二、 Boosting - 图122

2.5.2 前向分布算法

  1. 前向分步算法:

    • 输入:

      • 训练数据集 二、 Boosting - 图123
      • 损失函数 二、 Boosting - 图124
      • 基函数集 二、 Boosting - 图125
    • 输出:加法模型 二、 Boosting - 图126

    • 算法步骤:

      • 初始化 二、 Boosting - 图127

      • 二、 Boosting - 图128

        • 极小化损失函数 二、 Boosting - 图129 ,得到参数 二、 Boosting - 图130
        • 更新 二、 Boosting - 图131
      • 最终加法模型 二、 Boosting - 图132