如何让向量具有语义信息

得到每个单词的向量表示后,我们需要思考下一个问题:比如在多数情况下,“香蕉”和“橘子”更加相似,而“香蕉”和“句子”就没有那么相似;同时,“香蕉”和“食物”、“水果”的相似程度可能介于“橘子”和“句子”之间。那么我们该如何让存储的词向量具备这样的语义信息呢?

我们先学习自然语言处理领域的一个小技巧。在自然语言处理研究中,科研人员通常有一个共识:使用一个单词的上下文来了解这个单词的语义,比如:

“苹果手机质量不错,就是价格有点贵。”

“这个苹果很好吃,非常脆。”

“菠萝质量也还行,但是不如苹果支持的APP多。”

在上面的句子中,我们通过上下文可以推断出第一个“苹果”指的是苹果手机,第二个“苹果”指的是水果苹果,而第三个“菠萝”指的应该也是一个手机。事实上,在自然语言处理领域,使用上下文描述一个词语或者元素的语义是一个常见且有效的做法。我们可以使用同样的方式训练词向量,让这些词向量具备表示语义信息的能力。

2013年,Mikolov提出的经典word2vec算法就是通过上下文来学习语义信息。word2vec包含两个经典模型,CBOW(Continuous Bag-of-Words)和Skip-gram,如 图4 所示。

  • CBOW:通过上下文的词向量预测中心词。
  • Skip-gram:根据中心词预测上下文。

如何让向量具有语义信息 - 图1

图4:CBOW和Skip-gram语义学习示意图

假设有一个句子“Pineapples are spiked and yellow”,两个模型的预测方式如下:

  • 在CBOW中,先在句子中选定一个中心词,并把其他词作为这个中心词的上下文。如 图4 CBOW所示,把“spiked”作为中心词,把“Pineapples are and yellow”作为中心词的上下文。在学习过程中,使用上下文的词向量预测中心词,这样中心词的语义就被传递到上下文的词向量中,如“spiked”=>“pineapple”,从而达到学习语义信息的目的。

  • 在Skip-gram中,同样先选定一个中心词,并把其他词作为这个中心词的上下文。如 图4 Skip-gram所示,把“spiked”作为中心词,把“Pineapples are and yellow”作为中心词的上下文。不同的是,在学习过程中,使用中心词的词向量去预测上下文,从而达到学习语义信息的目的。


说明:

一般来说,CBOW比Skip-gram训练速度快,训练过程更加稳定,原因是CBOW使用上下文average的方式进行训练,每个训练step会见到更多样本。而在生僻字(出现频率低的字)处理上,skip-gram比CBOW效果更好,原因是skip-gram不会刻意回避生僻字。


CBOW和Skip-gram的算法实现

假设指定一句话:“Pineapples are spiked and yellow,C=4,V=5000,N=128”,分别介绍CBOW和Skip-gram的算法实现。

图5 所示,CBOW是一个具有3层结构的神经网络,分别是:

如何让向量具有语义信息 - 图2

图5:Skip-gram的算法实现

  • 输入层: 一个形状为C×V的one-hot张量,其中C代表上线文中词的个数,通常是一个偶数,V表示词表大小,该张量的每一行都是一个上下文词的one-hot向量表示,比如“Pineapples, are, and, yellow”。
  • 隐藏层: 一个形状为V×N的参数张量W1,一般称为word-embedding,N表示每个词的词向量长度。输入张量和word embedding W1进行矩阵乘法,就会得到一个形状为C×N的张量。综合考虑上下文中所有词的信息去预测中心词,因此将上下文中C个词相加得一个1×N的向量,是整个上下文的一个隐含表示。
  • 输出层: 创建另一个形状为N×V的参数张量,将隐藏层得到的1×N的向量乘以该N×V的参数张量,得到了一个形状为1×V的向量。最终,1×V的向量代表了使用上下文去预测中心词,每个候选词的打分,再经过softmax函数的归一化,即得到了对中心词的预测概率:

如何让向量具有语义信息 - 图3

图6 所示,Skip-gram是一个具有3层结构的神经网络,分别是:

如何让向量具有语义信息 - 图4

图6:CBOW的算法实现

  • Input Layer(输入层):接收一个one-hot张量 如何让向量具有语义信息 - 图5 作为网络的输入,里面存储着当前句子中心词的one-hot表示。
  • Hidden Layer(隐藏层):将张量 如何让向量具有语义信息 - 图6 乘以一个word embedding张量 如何让向量具有语义信息 - 图7 ,并把结果作为隐藏层的输出,得到一个形状为 如何让向量具有语义信息 - 图8 的张量,里面存储着当前句子中心词的词向量。
  • Output Layer(输出层):将隐藏层的结果乘以另一个word embedding张量 如何让向量具有语义信息 - 图9 ,得到一个形状为 如何让向量具有语义信息 - 图10 的张量。这个张量经过softmax变换后,就得到了使用当前中心词对上下文的预测结果。根据这个softmax的结果,我们就可以去训练词向量模型。

在实际操作中,使用一个滑动窗口(一般情况下,长度是奇数),从左到右开始扫描当前句子。每个扫描出来的片段被当成一个小句子,每个小句子中间的词被认为是中心词,其余的词被认为是这个中心词的上下文。

Skip-gram的理想实现

使用神经网络实现Skip-gram中,模型接收的输入应该有2个不同的tensor:

  • 代表中心词的tensor:假设我们称之为center_words

如何让向量具有语义信息 - 图11 ,一般来说,这个tensor是一个形状为[batch_size, vocab_size]的one-hot tensor,表示在一个mini-batch中,每个中心词的ID。

  • 代表目标词的tensor:假设我们称之为target_words

如何让向量具有语义信息 - 图12 ,一般来说,这个tensor是一个形状为[batch_size, 1]的整型tensor,这个tensor中的每个元素是一个[0, vocab_size-1]的值,代表目标词的ID。

在理想情况下,我们可以使用一个简单的方式实现skip-gram。即把需要预测的每个目标词都当成一个标签,把skip-gram当成一个大规模分类任务进行网络构建,过程如下:

  • 声明一个形状为[vocab_size, embedding_size]的张量,作为需要学习的词向量,记为 如何让向量具有语义信息 - 图13 。对于给定的输入 如何让向量具有语义信息 - 图14 ,使用向量乘法,将 如何让向量具有语义信息 - 图15 乘以 如何让向量具有语义信息 - 图16 ,这样就得到了一个形状为[batch_size, embedding_size]的张量,记为 如何让向量具有语义信息 - 图17 。这个张量 如何让向量具有语义信息 - 图18 就可以看成是经过词向量查表后的结果。
  • 声明另外一个需要学习的参数 如何让向量具有语义信息 - 图19 ,这个参数的形状为[embedding_size, vocab_size]。将上一步得到的 如何让向量具有语义信息 - 图20 去乘以 如何让向量具有语义信息 - 图21 ,得到一个新的tensor 如何让向量具有语义信息 - 图22 ,此时的 如何让向量具有语义信息 - 图23 是一个形状为[batch_size, vocab_size]的tensor,表示当前这个mini-batch中的每个中心词预测出的目标词的概率。
  • 使用softmax函数对mini-batch中每个中心词的预测结果做归一化,即可完成网络构建。

Skip-gram的实际实现

然而在实际情况中,vocab_size通常很大(几十万甚至几百万),导致

如何让向量具有语义信息 - 图24如何让向量具有语义信息 - 图25 也会非常大。对于 如何让向量具有语义信息 - 图26 而言,所参与的矩阵运算并不是通过一个矩阵乘法实现,而是通过指定ID,对参数 如何让向量具有语义信息 - 图27 进行访存的方式获取。然而对 如何让向量具有语义信息 - 图28 而言,仍要处理一个非常大的矩阵运算(计算过程非常缓慢,需要消耗大量的内存/显存)。为了缓解这个问题,通常采取负采样(negative_sampling)的方式来近似模拟多分类任务。

假设有一个中心词

如何让向量具有语义信息 - 图29 和一个目标词正样本 如何让向量具有语义信息 - 图30 。在Skip-gram的理想实现里,需要最大化使用 如何让向量具有语义信息 - 图31 预测 如何让向量具有语义信息 - 图32 的概率。在使用softmax学习时,需要最大化 如何让向量具有语义信息 - 图33 的预测概率,同时最小化其他词表中词的预测概率。之所以计算缓慢,是因为需要对词表中的所有词都计算一遍。然而我们还可以使用另一种方法,就是随机从词表中选择几个代表词,通过最小化这几个代表词的概率,去近似最小化整体的预测概率。比如,先指定一个中心词(如“人工”)和一个目标词正样本(如“智能”),再随机在词表中采样几个目标词负样本(如“日本”,“喝茶”等)。有了这些内容,我们的skip-gram模型就变成了一个二分类任务。对于目标词正样本,我们需要最大化它的预测概率;对于目标词负样本,我们需要最小化它的预测概率。通过这种方式,我们就可以完成计算加速。上述做法,我们称之为负采样。

在实现的过程中,通常会让模型接收3个tensor输入:

  • 代表中心词的tensor:假设我们称之为center_words

如何让向量具有语义信息 - 图34 ,一般来说,这个tensor是一个形状为[batch_size, vocab_size]的one-hot tensor,表示在一个mini-batch中每个中心词具体的ID。

  • 代表目标词的tensor:假设我们称之为target_words

如何让向量具有语义信息 - 图35 ,一般来说,这个tensor同样是一个形状为[batch_size, vocab_size]的one-hot tensor,表示在一个mini-batch中每个目标词具体的ID。

  • 代表目标词标签的tensor:假设我们称之为labels

如何让向量具有语义信息 - 图36 ,一般来说,这个tensor是一个形状为[batch_size, 1]的tensor,每个元素不是0就是1(0:负样本,1:正样本)。

模型训练过程如下:

  • 如何让向量具有语义信息 - 图37 去查询 如何让向量具有语义信息 - 图38 ,用 如何让向量具有语义信息 - 图39 去查询 如何让向量具有语义信息 - 图40 ,分别得到两个形状为[batch_size, embedding_size]的tensor,记为 如何让向量具有语义信息 - 图41如何让向量具有语义信息 - 图42
  • 点乘这两个tensor,最终得到一个形状为[batch_size]的tensor 如何让向量具有语义信息 - 图43
  • 使用sigmoid函数作用在 如何让向量具有语义信息 - 图44 上,将上述点乘的结果归一化为一个0-1的概率值,作为预测概率,根据标签信息label训练这个模型即可。

在结束模型训练之后,一般使用

如何让向量具有语义信息 - 图45 作为最终要使用的词向量,可以用 如何让向量具有语义信息 - 图46 提供的向量表示。通过向量点乘的方式,计算两个不同词之间的相似度。