六、 总结

  1. 各种半监督学习算法的比较:

    • 生成式半监督学习方法需要充分可靠的领域知识才能确保模型不至于太坏。
    • 非监督SVM目标函数非凸,因此有不少工作致力于减轻非凸性造成的不利影响。
    • 图半监督学习方法,图的质量极为重要。
    • 基于分歧的方法将集成学习与半监督学习联系起来。
  2. 半监督学习在利用未标记样本后并非必然提升泛化性能,在有些情况下甚至会导致性能下降。

    • 对生成式方法,原因通常是模型假设不准确。因此需要依赖充分可靠的领域知识来设计模型。

    • 对半监督SVM,原因通常是训练数据中存在多个“低密度划分”,而学习算法可能做出不利的选择。

      S4VM通过优化最坏情况下性能来综合利用多个低密度划分,提升了此类技术的安全性。

    • 更一般的安全半监督学习仍然是未决的难题。

      安全是指:利用未标记样本后,能确保返回性能至少不差于仅利用有标记样本。