一、向量空间模型 VSM

  1. 向量空间模型主要用于文档的表达。

  2. 向量空间模型假设单词和单词之间是相互独立的,每个单词代表一个独立的语义单元。实际上该假设很难满足:

    • 文档中的单词和单词之间存在一定关联性,单词和其前面几个单词、后面几个单词可能存在语义上的相关性,而向量空间模型忽略了这种上下文的作用。
    • 文档中存在很多的一词多义和多词同义的现象,每个单词并不代表一个独立的语义单元。

1.1 文档-单词 矩阵

  1. 给定语料库 一、向量空间模型 VSM - 图1 和词汇表 一、向量空间模型 VSM - 图2,定义文档-单词 矩阵为:

    一、向量空间模型 VSM - 图3

    令矩阵为 一、向量空间模型 VSM - 图4 ,则: 一、向量空间模型 VSM - 图5 表示文档 一、向量空间模型 VSM - 图6 中含有单词 一、向量空间模型 VSM - 图7一、向量空间模型 VSM - 图8 表示文档 一、向量空间模型 VSM - 图9 中不含单词 一、向量空间模型 VSM - 图10

    于是文档 一、向量空间模型 VSM - 图11 表示为:一、向量空间模型 VSM - 图12 ,其中文档 一、向量空间模型 VSM - 图13 中包含的单词对应的位置取值为1,其它位置取值为 0 。

  2. 事实上,文档的上述表达并未考虑单词的顺序,也未考虑单词出现的次数。一种改进策略是考虑单词出现的次数,从而赋予文档-单词 矩阵以不同的权重:

    一、向量空间模型 VSM - 图14

    其中 一、向量空间模型 VSM - 图15 表示单词 一、向量空间模型 VSM - 图16 在文档 一、向量空间模型 VSM - 图17 中的权重。

    • 如果单词 一、向量空间模型 VSM - 图18 在文档 一、向量空间模型 VSM - 图19 中未出现,则权重 一、向量空间模型 VSM - 图20
    • 如果单词 一、向量空间模型 VSM - 图21 在文档 一、向量空间模型 VSM - 图22 中出现,则权重一、向量空间模型 VSM - 图23
  3. 权重一、向量空间模型 VSM - 图24 有两种常用的选取方法:

    • 单词权重等于单词出现的频率TF一、向量空间模型 VSM - 图25

      • 函数 一、向量空间模型 VSM - 图26 返回单词 一、向量空间模型 VSM - 图27 在文档 一、向量空间模型 VSM - 图28 中出现的频数。
      • 其缺点是:一些高频词(如:我们大家)以较大的权重出现在每个文档中,这意味着对每篇文档这些高频词是比较重要的。事实上对于绝大多数 NLP 任务,将这些词过滤掉不会有任何影响。
    • 单词权重等于单词的TF-IDF一、向量空间模型 VSM - 图29

      • 函数 一、向量空间模型 VSM - 图30 是单词的逆文档频率:一、向量空间模型 VSM - 图31 。其中:一、向量空间模型 VSM - 图32 为语料库的文档数量,一、向量空间模型 VSM - 图33 为出现单词 一、向量空间模型 VSM - 图34 的文档的数量,一、向量空间模型 VSM - 图35 为单词 一、向量空间模型 VSM - 图36 出现在一篇文档中的概率。
      • TF-IDF 对于高频词进行降权。如果单词 一、向量空间模型 VSM - 图37 出现在大多数文档中,则 一、向量空间模型 VSM - 图38 较大,因此 一、向量空间模型 VSM - 图39 会较小。
  4. TF-IDF 不仅考虑了单词的局部特征,也考虑了单词的全局特征。

    • 词频 一、向量空间模型 VSM - 图40 描述了单词 一、向量空间模型 VSM - 图41 在文档 一、向量空间模型 VSM - 图42 中的局部统计特征。
    • 逆文档频率 一、向量空间模型 VSM - 图43 描述了单词 一、向量空间模型 VSM - 图44 在语料库 一、向量空间模型 VSM - 图45 中的全局统计特征。

1.2 相似度

  1. 给定 文档-单词 矩阵,则很容易得到文档的向量表达:一、向量空间模型 VSM - 图46

    给定文档 一、向量空间模型 VSM - 图47 ,则文档的相似度为:

    一、向量空间模型 VSM - 图48

    其中 一、向量空间模型 VSM - 图49

    也可以使用其它方式的相似度,如 一、向量空间模型 VSM - 图50 距离相似度。