6. 学习分类文本 - 3.4 混淆矩阵 - 《Python 自然语言处理第二版》

3.4 混淆矩阵

3.4 混淆矩阵

当处理有 3 个或更多的标签的分类任务时，基于模型错误类型细分模型的错误是有信息量的。一个混淆矩阵是一个表，其中每个 cells [i,j]表示正确的标签 i 被预测为标签 j 的次数。因此，对角线项目（即 cells |ii|）表示正确预测的标签，非对角线项目表示错误。在下面的例子中，我们为4中开发的一元标注器生成一个混淆矩阵：

>>> def tag_list(tagged_sents):
...     return [tag for sent in tagged_sents for (word, tag) in sent]
>>> def apply_tagger(tagger, corpus):
...     return [tagger.tag(nltk.tag.untag(sent)) for sent in corpus]
>>> gold = tag_list(brown.tagged_sents(categories='editorial'))
>>> test = tag_list(apply_tagger(t2, brown.tagged_sents(categories='editorial')))
>>> cm = nltk.ConfusionMatrix(gold, test)
>>> print(cm.pretty_format(sort_by_count=True, show_percents=True, truncate=9))
 |                                         N                      |
 |      N      I      A      J             N             V      N |
 |      N      N      T      J      .      S      ,      B      P |
----+----------------------------------------------------------------+
 NN | <11.8%>  0.0%      .   0.2%      .   0.0%      .   0.3%   0.0% |
 IN |   0.0%  <9.0%>     .      .      .   0.0%      .      .      . |
 AT |      .      .  <8.6%>     .      .      .      .      .      . |
 JJ |   1.7%      .      .  <3.9%>     .      .      .   0.0%   0.0% |
 . |      .      .      .      .  <4.8%>     .      .      .      . |
NNS |   1.5%      .      .      .      .  <3.2%>     .      .   0.0% |
 , |      .      .      .      .      .      .  <4.4%>     .      . |
 VB |   0.9%      .      .   0.0%      .      .      .  <2.4%>     . |
 NP |   1.0%      .      .   0.0%      .      .      .      .  <1.8%>|
----+----------------------------------------------------------------+
(row = reference; col = test)

这个混淆矩阵显示常见的错误，包括NN替换为了JJ（1.6%的词），NN替换为了NNS（1.5%的词）。注意点（.）表示值为 0 的单元格，对角线项目——对应正确的分类——用尖括号标记。.. XXX explain use of “reference” in the legend above.