3.1 测试集

大多数评估技术为模型计算一个得分,通过比较它在测试集(或评估集)中为输入生成的标签与那些输入的正确标签。该测试集通常与训练集具有相同的格式。然而,测试集与训练语料不同是非常重要的:如果我们简单地重复使用训练集作为测试集,那么一个只记住了它的输入而没有学会如何推广到新的例子的模型会得到误导人的高分。

建立测试集时,往往是一个可用于测试的和可用于训练的数据量之间的权衡。对于有少量平衡的标签和一个多样化的测试集的分类任务,只要 100 个评估实例就可以进行有意义的评估。但是,如果一个分类任务有大量的标签或包括非常罕见的标签,那么选择的测试集的大小就要保证出现次数最少的标签至少出现 50 次。此外,如果测试集包含许多密切相关的实例——例如来自一个单独文档中的实例——那么测试集的大小应增加,以确保这种多样性的缺乏不会扭曲评估结果。当有大量已标注数据可用时,只使用整体数据的 10%进行评估常常会在安全方面犯错。

选择测试集时另一个需要考虑的是测试集中实例与开发集中的实例的相似程度。这两个数据集越相似,我们对将评估结果推广到其他数据集的信心就越小。例如,考虑词性标注任务。在一种极端情况,我们可以通过从一个反映单一的文体(如新闻)的数据源随机分配句子,创建训练集和测试集:

  1. >>> import random
  2. >>> from nltk.corpus import brown
  3. >>> tagged_sents = list(brown.tagged_sents(categories='news'))
  4. >>> random.shuffle(tagged_sents)
  5. >>> size = int(len(tagged_sents) * 0.1)
  6. >>> train_set, test_set = tagged_sents[size:], tagged_sents[:size]

在这种情况下,我们的测试集和训练集将是 非常 相似的。训练集和测试集均取自同一文体,所以我们不能相信评估结果可以推广到其他文体。更糟糕的是,因为调用random.shuffle(),测试集中包含来自训练使用过的相同的文档的句子。如果文档中有相容的模式(也就是说,如果一个给定的词与特定词性标记一起出现特别频繁),那么这种差异将体现在开发集和测试集。一个稍好的做法是确保训练集和测试集来自不同的文件:

  1. >>> file_ids = brown.fileids(categories='news')
  2. >>> size = int(len(file_ids) * 0.1)
  3. >>> train_set = brown.tagged_sents(file_ids[size:])
  4. >>> test_set = brown.tagged_sents(file_ids[:size])

如果我们要执行更令人信服的评估,可以从与训练集中文档联系更少的文档中获取测试集:

  1. >>> train_set = brown.tagged_sents(categories='news')
  2. >>> test_set = brown.tagged_sents(categories='fiction')

如果我们在此测试集上建立了一个性能很好的分类器,那么我们完全可以相信它有能力很好的泛化到用于训练它的数据以外的数据。