3 计算语言:简单的统计

让我们重新开始探索用我们的计算资源处理大量文本的方法。我们在第1节已经开始讨论了,在那里我们看到如何搜索词及其上下文,如何汇编一个文本中的词汇,如何产生一种文体的随机文本等。

在本节中,我们重新拾起是什么让一个文本不同与其他文本这样的问题,并使用程序自动寻找特征词汇和文字表达。正如在第1节中那样,你可以通过复制它们到 Python 解释器中来尝试 Python 语言的新特征,你将在下一节中系统的了解这些功能。

在这之前,你可能会想通过预测下面的代码的输出来检查你对上一节的理解。你可以使用解释器来检查你是否正确。如果你不确定如何做这个任务,你最好在继续之前复习一下上一节的内容。

  1. >>> saying = ['After', 'all', 'is', 'said', 'and', 'done',
  2. ... 'more', 'is', 'said', 'than', 'done']
  3. >>> tokens = set(saying)
  4. >>> tokens = sorted(tokens)
  5. >>> tokens[-2:]
  6. what output do you expect here?
  7. >>>