3.3 精确度和召回率

另一个准确度分数可能会产生误导的实例是在“搜索”任务中,如信息检索,我们试图找出与特定任务有关的文档。由于不相关的文档的数量远远多于相关文档的数量,一个将每一个文档都标记为无关的模型的准确度分数将非常接近 100%。

Images/precision-recall.png

图 3.1:真与假的阳性和阴性

因此,对搜索任务使用不同的测量集是很常见的,基于3.1所示的四个类别的每一个中的项目的数量:

  • 真阳性是相关项目中我们正确识别为相关的。

  • I 型错误)是不相关项目中我们错误识别为相关的。

  • II 型错误)是相关项目中我们错误识别为不相关的。

给定这四个数字,我们可以定义以下指标:

  • F-度量值(或 F-Score),组合精确度和召回率为一个单独的得分,被定义为精确度和召回率的调和平均数(2 × Precision × Recall) / (Precision + Recall)。