word2vec模型之Skip-Gram Model

本文介绍一种基于神经网络结构的Word2Vec模型，Word2Vec是目前NLP领域的基础知识，这里仅对Word2Vec模型中的Skip-Gram模型进行详细介绍。

The Model and The Fake Task

Skip-Gram神经网络模型是一种非常简单的神经网络结构，是一个仅有一个Hidden Layer的神经网络结构。Skip-Gram模型的训练过程可以视作一个“Fake Task（伪任务）”，为何称之为“Fake Task”？是因为训练该模型的目的并不是将训练好的模型用于任何的分类任务，而是为了学习得到隐层的权重矩阵，而通过这些矩阵我们会得到想要的单词的特征向量，总体框架入下图所示。下面详细介绍这个Skip-Gram模型的训练过程。

image.png

给定一个特定的word作为输入，我们从该word的附近随机挑选一个word，该网络模型会告诉我们词汇表中的每个单词出现在“附近”的概率。这里的“附近”指的是在特定window size范围内。输出概率与在输入词附近找到每个单词的可能性有关。这里，我们使用文本中指定window size内的word pair（inputword,outputword）来训练神经网络模型。word pairs的获取方式如下图所示。

training samples of word pairs

这里详细介绍一下Skip-Gram模型的训练过程。首先，神经网络模型只接受数值型的输入，故不能直接将每个单词直接输入到一个神经网络中，故而需要一种针对神经网络模型的单词表示方式，为此需要针对训练集中的所有不同的单词构建一个词汇表（vocabulary），然后将词汇表中的每个单词以One-Hot编码的方式进行表示。比如，现在有一个大小为10000的词汇表，我们需要为每个单词构建一个One-Hot向量，要求每个单词对应的当前单词的位置为1，其他所有位置为0，因此我们会得到10000个长度为10000的向量，其中每个向量都只有一个位置为1。神经网络的输出是一个10000维的向量，表示针对输入单词，词汇表中所有的单词出现在输入单词附近的预测概率。如下图所示：

neural network

上述的神经网络结构隐层中的神经元没有激活函数，但输出层的每个神经元使用了softmax函数。训练的过程使用word pair（inputword,outputword），输入是一个One-Hot的向量，输出的也是一个表示输出单词的One-Hot的向量。但是当在一个输入词在训练好的网络上计算时，输出的向量实际上是一个概率分布，并不是一个One-Hot向量。因为每个输出的单元使用了Softmax，且没有激活函数。

The Hidden Layer

同样的针对上述问题，有10000个单词，假设需要为每个单词学习一个300维的向量，那么隐层可以由一个10000*300的矩阵来表示（300个神经元，每个神经元都有一个10000维的权重向量），如下图所示。

竖着看这个隐层的权重矩阵，每一列对应一个神经元中的参数向量，而如果横着看这个权重矩阵，每一行就是一个300维的向量，而这这就是我们需要通过学习得来的词向量!也就是说，10000个单词的向量表示就是这个10000*300的矩阵，每行对应一个单词的向量表示。那么Skip-Gram最终的目的就是学习这个隐层的权重矩阵。而为什么针对词汇表里的单词要进行One-Hot编码，这里解释一下。如下图所示，如果我们用一个One-Hot向量乘以这个权重矩阵，那么得出的向量结果就是对应单词的特征表示。这意味着这个模型的隐层实际上只是作为一个查找表，而隐层的输出则是输入的单词的“词向量（word vector）”。

The Output Layer

输出层为softmax回归分类器，每个输出神经元(词汇表中的每个单词都有一个对应的输出神经元)将产生0到1之间的输出，所有这些输出值的总和将等于1。具体来说，每个输出神经元都有一个权重向量，它将权重向量与隐层中的向量相乘，然后将指数函数应用于结果。最后，为了使输出之和达到1，我们将这个结果除以来自所有10,000个输出节点的结果之和。如下图所示：

如果两个不同的单词有非常相似的“上下文”(也就是说，它们周围可能出现什么单词)，那么该模型应当为这两个单词输出非常相似的结果。网络输出这两个单词相似上下文预测的一种表达形式就是这两个单词的单词向量相似。换言之，如果两个单词有相似的上下文，那么该网络就有能力为这两个单词出学习相似的单词向量!

The Challenge

以上部分介绍了Skip-Gram模型的具体实现思路，接下来会针对Skip-Gram在实际训练中的一些问题进行优化。通过分析上述的Skip-Gram神经网络模型，可以发现一个问题，由于需要为每个单词学习一个固定长度的向量表示，因此以上面的例子为例，当需要训练10000个单词的300维的向量表示时，我们需要计算出300万个权重值。而在更大的数据集上，这样的训练过程是十分缓慢的，基本上不可行，因此Skip-Gram的作者针对这个问题提出了几种解决方案。常用的方案有Subsampling frequent words和Negative Sampling，接下来会详细介绍这两种解决方案。

Subsampling Frequent Words

Subsampling主要目的是通过削减训练集的训练样本数来降低训练代价。由于在文本中，许多单词出现的频率很高，这就导致了这个单词对应的word pair （inputword,outputword）在训练集中的数量会非常多，因此需要针对这些高频词进行二次采样以降低这些高频词在训练集中的规模。具体采样策略如下：
假设w_i表示词汇表中的第i个单词，z(w_i)表示该词在语料库中出现的频率。例如一个单词w_i在大小为10000的语料库中出现的次数为100，那么z(w_i)=0.01。知道了每个单词在语料库中的出现频率之后，那么对于每个单词w_i的subsampling采样率如下：
$P(w_i) = (\sqrt{\frac{z(w_i)}{0.001} + 1}) \times \frac{0.001}{z(w_i)}$ 该函数有一些有趣的点：

P(w_i)=1.0，即当z(w_i)<=0.0026时，该词对应的所有语料都100%保留，也就是说仅当一个单词w_i在语料库中出现的频率z(w_i)>0.26%时，才进行subsampling。
P(w_i)=0.5，即当z(w_i)=0.00746时，该词在语料库中对应的所有语料只随机采样50%用于训练。
P(w_i)=0.0326，即当z(w_i)=1时，该词在语料库中对应的所有语料只随机采样3.3%用于训练。此时该词会出现在语料库中的所有语料中。

Subsampling虽然能明显地缩小训练神经网络模型时的训练集大小，但是并不能从根本上解决隐层矩阵规模大而带来的计算问题。也就是说，对于训练集中的每个样本，每次训练都需要更新隐层中的所有参数，因此Skip-Gram模型的作者又提出了另外一种方式来优化计算问题。

Negative Sampling

由于训练神经网络模型为了达到更高的精度，需要通过训练样本中每次细微地调整每个神经元的权重参数，因此每个训练每个训练样本都会微调神经网络中的所有参数。由于SubSampling在极限情况下，对训练集的削减程度不会低于原规模的3.3%，然而，这种程度的削减对于一个字典特别大的训练场景的影响是微弱的。为此作者又提出了一种Negative Sampling的方式。
Negative Sampling通过让每个训练样本只修改一小部分权重（而不是网络中的全部权重）来解决计算量特别大的问题。接下来可以看一下Negative Sampling的工作原理。
正常情况下，我们对每个单词语料训练神经网络模型，模型的输出是一个one-hot的向量。在Negative Sampling时，我们随机选择若干个（假设5个）negative word去更新对应的权重，（这里Negative word 对应的时One-Hot向量中值为0的单词，而我们的目标单词可以理解为Positive word，即对应One-Hot向量中值为1的单词）。

该论文指出，针对小规模的数据集，negative sampling的大小应该为5-20，而针对大规模的数据集，negative sampling的大小只需为2-5即可。

回想一下，我们的模型输出层有个300×10000的权重矩阵，如果每个训练样本只更新5个negative word和当前的positive word对应的权重，那么每次训练对应输出层只需要更新6*300个权重，此时更新比例只有6/10000=0.06%。

这里需要注意的是，无论是否使用Negative Sampling，隐层中只会更新对应于输入单词的权重。

上面提到了，针对不同的数据集，Negative Sampling会选择2-20个negative word，下面介绍一下如何挑选这个Negative word。首先针对一个语料库，每次Negative Sampling挑选出的样本的可能性取决于该样本在语料库中出现的频数。
$P(w_i) = \frac{f(w_i)}{\sum_{j=0}^nf(w_j)}$ 其中f(w_i)表示单词w_i在语料库中出现的频数。作者在他们的论文中指出，他们尝试了这个公式的一些变体，其中表现最好的是将每个单词出现的频数提高到3/4次方。如下所示：
$P(w_i) = \frac{f(w_i)^{3/4}}{\sum_{j=0}^nf(w_j)^{3/4}}$ 处理一些样本之后会发现，与简单的公式相比，这个公式有增加不太频繁单词的概率和减少更频繁单词的概率的趋势。以上就是对Negative Sampling的一些简单描述。

Word Pairs and “Phrases”

Word Pairs and “Phrases”的主要思想是将经常成对出现或者某个短语当成一个Word，以此来降低整个训练过程中的计算复杂度。该方法在自然语言处理中有很大的应用场景。

参考：
1.http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
2.http://mccormickml.com/2017/01/11/word2vec-tutorial-part-2-negative-sampling/

最后编辑于：2019.08.09 17:10:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,233评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,013评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,030评论 0赞 241
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,827评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,221评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,542评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,814评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,513评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,225评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,497评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,998评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,342评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,986评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,812评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,560评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,461评论 2赞 266