1.8 文本语料库的结构

到目前为止,我们已经看到了大量的语料库结构;1.3总结了它们。最简单的一种没有任何结构,仅仅是一个文本集合。通常,文本会按照其可能对应的文体、来源、作者、语言等分类。有时,这些类别会重叠,尤其是在按主题分类的情况下,因为一个文本可能与多个主题相关。偶尔的,文本集有一个时间结构,新闻集合是最常见的例子。

/projects/nlp-py-2e-zh/Images/7f97e7ac70a7c865fb1020795f6e7236.jpg

图 1.3:文本语料库的常见结构:最简单的一种语料库是一些孤立的没有什么特别的组织的文本集合;一些语料库按如文体(布朗语料库)等分类组织结构;一些分类会重叠,如主题类别(路透社语料库);另外一些语料库可以表示随时间变化语言用法的改变(就职演说语料库)。

表 1.3:

NLTK 中定义的基本语料库函数:使用help(nltk.corpus.reader)可以找到更多的文档,也可以阅读http://nltk.org/howto上的在线语料库的 HOWTO。

  1. >>> raw = gutenberg.raw("burgess-busterbrown.txt")
  2. >>> raw[1:20]
  3. 'The Adventures of B'
  4. >>> words = gutenberg.words("burgess-busterbrown.txt")
  5. >>> words[1:20]
  6. ['The', 'Adventures', 'of', 'Buster', 'Bear', 'by', 'Thornton', 'W', '.',
  7. 'Burgess', '1920', ']', 'I', 'BUSTER', 'BEAR', 'GOES', 'FISHING', 'Buster',
  8. 'Bear']
  9. >>> sents = gutenberg.sents("burgess-busterbrown.txt")
  10. >>> sents[1:20]
  11. [['I'], ['BUSTER', 'BEAR', 'GOES', 'FISHING'], ['Buster', 'Bear', 'yawned', 'as',
  12. 'he', 'lay', 'on', 'his', 'comfortable', 'bed', 'of', 'leaves', 'and', 'watched',
  13. 'the', 'first', 'early', 'morning', 'sunbeams', 'creeping', 'through', ...], ...]