一、向量空间模型 VSM

来源:华校专浏览 2191 扫码分享 2020-06-07 18:20:56

一、向量空间模型 VSM
- 1.1 文档-单词矩阵
- 1.2 相似度

一、向量空间模型 VSM

向量空间模型主要用于文档的表达。
向量空间模型假设单词和单词之间是相互独立的，每个单词代表一个独立的语义单元。实际上该假设很难满足：
- 文档中的单词和单词之间存在一定关联性，单词和其前面几个单词、后面几个单词可能存在语义上的相关性，而向量空间模型忽略了这种上下文的作用。
- 文档中存在很多的一词多义和多词同义的现象，每个单词并不代表一个独立的语义单元。

1.1 文档-单词矩阵

给定语料库和词汇表，定义文档-单词 矩阵为：

令矩阵为，则：表示文档中含有单词；表示文档中不含单词。

于是文档表示为：，其中文档中包含的单词对应的位置取值为1，其它位置取值为 0 。
事实上，文档的上述表达并未考虑单词的顺序，也未考虑单词出现的次数。一种改进策略是考虑单词出现的次数，从而赋予文档-单词 矩阵以不同的权重：

其中表示单词在文档中的权重。
- 如果单词在文档中未出现，则权重
- 如果单词在文档中出现，则权重
权重有两种常用的选取方法：
- 单词权重等于单词出现的频率TF：。
  - 函数返回单词在文档中出现的频数。
  - 其缺点是：一些高频词（如：我们，是，大家）以较大的权重出现在每个文档中，这意味着对每篇文档这些高频词是比较重要的。事实上对于绝大多数 NLP 任务，将这些词过滤掉不会有任何影响。
- 单词权重等于单词的TF-IDF：。
  - 函数是单词的逆文档频率：。其中：为语料库的文档数量，为出现单词的文档的数量，为单词出现在一篇文档中的概率。
  - TF-IDF 对于高频词进行降权。如果单词出现在大多数文档中，则较大，因此会较小。
TF-IDF 不仅考虑了单词的局部特征，也考虑了单词的全局特征。
- 词频描述了单词在文档中的局部统计特征。
- 逆文档频率描述了单词在语料库中的全局统计特征。

1.2 相似度

给定 文档-单词 矩阵，则很容易得到文档的向量表达：。

给定文档，则文档的相似度为：

其中。

也可以使用其它方式的相似度，如距离相似度。

当前内容版权归华校专或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问华校专 .

本文档使用 BookStack 构建

展开/收起文章目录