6 小结

  • 文本语料库是一个大型结构化文本的集合。NLTK 包含了许多语料库,如布朗语料库nltk.corpus.brown
  • 有些文本语料库是分类的,例如通过文体或者主题分类;有时候语料库的分类会相互重叠。
  • 条件频率分布是一个频率分布的集合,每个分布都有一个不同的条件。它们可以用于通过给定内容或者文体对词的频率计数。
  • 行数较多的 Python 程序应该使用文本编辑器来输入,保存为.py后缀的文件,并使用import语句来访问。
  • Python 函数允许你将一段特定的代码块与一个名字联系起来,然后重用这些代码想用多少次就用多少次。
  • 一些被称为“方法”的函数与一个对象联系在起来,我们使用对象名称跟一个点然后跟方法名称来调用它,就像:x.funct(y)或者word.isalpha()
  • 要想找到一些关于某个变量v的信息,可以在 Pyhon 交互式解释器中输入help(v)来阅读这一类对象的帮助条目。
  • WordNet 是一个面向语义的英语词典,由同义词的集合——或称为同义词集——组成,并且组织成一个网络。
  • 默认情况下有些函数是不能使用的,必须使用 Python 的import语句来访问。