5 使用 Toolbox 数据

鉴于 Toolbox 在语言学家中十分流行,我们将讨论一些使用 Toolbox 数据的进一步的方法。很多在前面的章节讲过的方法,如计数、建立频率分布、为同现制表,这些都可以应用到 Toolbox 条目的内容上。例如,我们可以为每个条目计算字段的平均个数:

  1. >>> from nltk.corpus import toolbox
  2. >>> lexicon = toolbox.xml('rotokas.dic')
  3. >>> sum(len(entry) for entry in lexicon) / len(lexicon)
  4. 13.635...

在本节中我们将讨论记录语言学的背景下出现的都不被 Toolbox 软件支持的两个任务。