机器学习方法概论
机器学习的对象是:具有一定的统计规律的数据。
机器学习根据任务类型,可以划分为:
- 监督学习任务:从已标记的训练数据来训练模型。 主要分为:分类任务、回归任务、序列标注任务。
- 无监督学习任务:从未标记的训练数据来训练模型。主要分为:聚类任务、降维任务。
- 半监督学习任务:用大量的未标记训练数据和少量的已标记数据来训练模型。
- 强化学习任务:从系统与环境的大量交互知识中训练模型。
机器学习根据算法类型,可以划分为:
传统统计学习:基于数学模型的机器学习方法。包括
SVM
、逻辑回归、决策树等。这一类算法基于严格的数学推理,具有可解释性强、运行速度快、可应用于小规模数据集的特点。
深度学习:基于神经网络的机器学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。
这一类算法基于神经网络,可解释性较差,强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。
没有免费的午餐
定理(No Free Lunch Theorem:NFL
):对于一个学习算法A
,如果在某些问题上它比算法B
好,那么必然存在另一些问题,在那些问题中B
比A
更好。因此不存在这样的算法:它在所有的问题上都取得最佳的性能。因此要谈论算法的优劣必须基于具体的学习问题。