2. 获得文本语料和词汇资源

在自然语言处理的实际项目中,通常要使用大量的语言数据或者语料库。本章的目的是要回答下列问题:

  1. 什么是有用的文本语料和词汇资源,我们如何使用 Python 获取它们?
  2. 哪些 Python 结构最适合这项工作?
  3. 编写 Python 代码时我们如何避免重复的工作?

本章继续通过语言处理任务的例子展示编程概念。在系统的探索每一个 Python 结构之前请耐心等待。如果你看到一个例子中含有一些不熟悉的东西,请不要担心。只需去尝试它,看看它做些什么——如果你很勇敢——通过使用不同的文本或词替换代码的某些部分来进行修改。这样,你会将任务与编程习惯用法关联起来,并在后续的学习中了解怎么会这样和为什么是这样。