Word2Vec ——gensim实战教程

最近斯坦福的CS224N开课了，看了下课程介绍,去年google发表的Transformer以及最近特别火的Contextual Word Embeddings都会在今年的课程中进行介绍。NLP领域确实是一个知识迭代特别快速的领域，每年都有新的知识冒出来。所以身处NLP领域的同学们要时刻保持住学习的状态啊。笔者又重新在B站上看了这门课程的第一二节课。这里是课程链接。前两节课的主要内容基本上围绕着词向量进行。所以这篇文章笔者想简单的介绍一下词向量，以及如何利用python的gensim训练一个自己的词向量。

词向量简介

词向量指的是一个词的向量表示。如果你希望计算机能够进行一些复杂点的文本语义学习，你必须得将文本数据编码成计算机能够处理的数值向量吧，所以词向量是一个自然语言处理任务中非常重要的一环。

one-hot representations

很久很久之前，一个词用onehot进行编码，如下图所示，这种方式简单粗暴，将一个词用一个只有一个位置为1，其他地方为0的向量表示。1的位置就代表了是什么词。

词的one-hot编码

这种表示有如下缺点：

占用空间大
词与词之间的向量是正交关系，没有任何语义关联

Distributional representations

为了克服onehot表示的两个缺点，Distributional representations的词向量应运而生。Distributional representations的词向量指的是将单词从原先所属的空间(一般是one-hot编码)映射到新的低维空间中去，同时，低维空间的词向量还能表达出一些语义，比如，词的相似性（similarity）或者一对词与一对之间的类比关系（analogy）。
词的相似性（similarity）：老婆和妻子
类比关系（analogy）：国王 - 男人 = 王后 -女人

词向量模型

Word2vec简介

那我们如何得到上述具有语义Distributional representations的词向量呢，2013年提出的word2vec的方法就是一种非常方便得到高质量词向量的方式。其主要思想是：一个词的上下文可以很好的表达出词的语义，它是一种通过无监督的学习文本来用产生词向量的方式。word2vec中有两个非常经典的模型：skip-gram和cbow。

模型任务：

skip-gram：已知中心词预测周围词。
cbow：已知周围词预测中心词。

比如 "the quick brown fox jumps over the lazy dog" 如果定义window-size为2的话，
就会产生如下图所示的数据集，window-size决定了目标词会与多远距离的上下文产生关系：
Skip-Gram:(the,quick) ,其中the 是模型的输入，quick是模型的输出。
Cbow： ((quick,brown),the) ,其中（quick，brown）是模型的输入，the是模型的输出。

Skip-Gram和Cbow的训练数据生成

模型架构：

skip-gram，cbow的模型架构都是一层单层的神经网络，如下图所示，需要注意的部分是：神经网络的参数就是我们最后得到的词向量，神经网络训练过程就是学习词向量（网络参数）的过程。

Skip-Gram和Cbow的模型架构

Fasttext简介

gensim 中Fasttext 模型架构和Word2Vec的模型架构差几乎一样，只不过在模型词的输入部分使用了词的n-gram的特征。这里需要讲解一下n-gram特征的含义。举个例子，如果原词是一个很长的词：你吃了吗。jieba分词结果为["你","吃了"，"吗"]。
unigram(1-gram)的特征：["你","吃了"，"吗"]
bigram(2-gram) 的特征: ["你吃了"，"吃了吗"]
所以大家发现没，n-gram的意思将词中连续的n个词连起来组成一个单独的词。
如果使用unigram和bigram的特征，词的特征就会变成：["你","吃了"，"吗"，"你吃了"，"吃了吗"]这么一长串。使用n-gram的词向量使得Fast-text模型可以很好的解决未登录词（OOV——out-of-vocabulary）的问题。

gensim实战部分

首先导入必要的python包，jieba，gensim等必要的包。

from gensim.models import fasttext
from gensim.models import word2vec
import pandas as pd
import logging
import jieba

数据载入与预处理

这里笔者用的是某个比赛的一些评论文本数据，读入评论文本数据之后对每一条评论进行分词。代码如下：

data = pd.read_csv("data_train.csv",sep="\t",encoding='gbk',header=None)
sentance  = list(data[2])
## 对句子进行分词分词
def segment_sen(sen):
    sen_list = []
    try:
        sen_list = jieba.lcut(sen)
    except:
            pass
    return sen_list   
# 将数据变成gensim中 word2wec函数的数据格式
sens_list = [segment_sen(i) for i in sentance]

最终将文本数据处理如下格式：一个list ——包含每一条分词后的文本list。

[['烤鸭', '还是', '不错', '的', '，', '别的', '菜', '没什么', '特殊', '的'],
['使用', '说明', '看不懂', '！', '不会', '用', '，', '很多', '操作', '没', '详细', '标明', '！'],
['越来越', '不好', '了', '，', '菜品', '也', '少', '了', '，', '服务', '也', '不', '及时', '。'],
['是', '在', '是', '不', '知道', '该', '吃', '什么', '好', '、', '就', '来', '了'],
......]

Word2vec模型训练

这里笔者简单介绍一下word2vec.Word2Vec这个API的一些重要参数。

size: 表示词向量的维度，默认值是100。
window：决定了目标词会与多远距离的上下文产生关系，默认值是5。
sg: 如果是0，则是CBOW模型，是1则是Skip-Gram模型，默认是0即CBOW模型。

这里笔者都是采用默认参数。即采用CBOW模型——通过周围词预测中心词的方式训练词向量。

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model = word2vec.Word2Vec(sens_list,min_count=1,iter=20)
model.save("word2vec.model")

模型训练过程如下图所示，笔者的数据一个有61678不同的词，所以会得到一个61678个词向量模型。

训练cbow

Fasttext模型训练

fasttext.FastText API一些重要参数：

size: 表示词向量的维度，默认值是100。
window：决定了目标词会与多远距离的上下文产生关系，默认值是5。
sg: 如果是0，则是CBOW模型，是1则是Skip-Gram模型，默认是0即CBOW模型。

上方参数和word2vec.Word2Vec API的参数一模一样。

word_ngrams ：({1,0}, optional) 1表示使用n-gram的信息，0代表不使用n-gram的信息，如果设置为0就等于CBOW或者Skip-gram。

下方是模型训练代码：

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model1 = fasttext.FastText(sens_list,min_count=1,iter=20)
model1.save("fast_text.model")

模型训练过程如下图所示，由于数据没变：同样有61678不同的词，依然会得到一个61678个词向量模型。

训练fast-text

两种模型词向量优劣势的对比

接下来笔者随机找了几个词测试了下两种方式训练的词向量效果如何，model 是 cbow的词向量模型，model1是fasttext的词向量模型。从下方两张图片可以看出，cbow的词向量的语义相似度的判断能力要好于fasttext的词向量。

cbow词向量相似度

fasttest词向量相似度

可是倘若碰到未登录词（OOV），cbow的词向量模型就无法处理这些没有见过的词。

cbow无法处理未登录词

而fasttext可以计算未登录词n-gram词（subword）的词向量的平均值，从而得到未登录词的词向量，最终求得和未登录词比较相似的词。

fasttext可以处理未登录词

结语

这里笔者只是简单的介绍了一下词向量的含义，两种训练词向量的方法，同时对比了一下这两种方法的优劣势。对于词向量的训练技术依然有很多没有介绍到，比如负采样，分层softmax等加速模型训练技术，还有对于高频词的下采样技术。这里笔者在参考文献放了一些博客供你学习，当然这些技术gensim都封装好了，你只需调用就可以啦。

参考文献：

https://blog.csdn.net/sinat_26917383/article/details/83041424
http://mccormickml.com/tutorials/

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 156,265评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,274评论 1赞 288
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,087评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,479评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,782评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,218评论 1赞 207
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,594评论 2赞 309
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,316评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 33,955评论 1赞 237
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,274评论 2赞 240
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,803评论 1赞 255
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,177评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,732评论 3赞 229
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 25,953评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,687评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,263评论 2赞 267
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,189评论 2赞 258