3 处理原始文本

文本的最重要来源无疑是网络。探索现成的文本集合,如我们在前面章节中看到的语料库,是很方便的。然而,在你心中可能有你自己的文本来源,需要学习如何访问它们。

本章的目的是要回答下列问题:

  1. 我们怎样才能编写程序访问本地和网络上的文件,从而获得无限的语言材料?
  2. 我们如何把文档分割成单独的词和标点符号,这样我们就可以开始像前面章节中在文本语料上做的那样的分析?
  3. 我们怎样编程程序产生格式化的输出,并把结果保存在一个文件中?

为了解决这些问题,我们将讲述 NLP 中的关键概念,包括分词和词干提取。在此过程中,你会巩固你的 Python 知识并且了解关于字符串、文件和正则表达式知识。既然这些网络上的文本都是 HTML 格式的,我们也将看到如何去除 HTML 标记。

注意

重点: 从本章开始往后我们的例子程序将假设你以下面的导入语句开始你的交互式会话或程序:

  1. >>> from __future__ import division # Python 2 users only
  2. >>> import nltk, re, pprint
  3. >>> from nltk import word_tokenize