[NLP] MXnet与TensorFlow的自然语言处理应用

MXnet的学习笔记,这次主要是MXnet和TensorFlow在自然语言处理(NLP)上的应用。关于MXnet中其他应用例子的综述介绍可以看这里[MXnet] Simple Introduction to the Example

Introduction of NLP


自然语言处理(英语:Natural Language Processing,简称NLP)是人工智能语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。
自然语言生成系统把计算机数据转化为自然语言,而自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。(from Wikipedia)

自然语言处理的主要范畴有很多,目前MXnet中实现的例子包括文本分类(Text classification)词性标注(Part-of-speech tagging)句法分析(Parsing)语音识别(Speech recognition)等。TensorFlow提供的例子包括基本的词向量(词嵌入)构建模型word2vec文本分类(Text classification)关系提取(Relationship extraction)词性标注(Part-of-speech tagging)机器翻译(Machine translation)、依赖分析(Dependency parsing)等。

NLP in MXnet


Text Classification 文本分类

训练模型来自文章Convolutional Neural Networks for Sentence Classification,MXnet的实现是基于WildML这篇博客在TensorFlow上的实现,相比于论文中的模型做了简化。在文本分类的基础上还可以进一步做NLP的其他工作,比如情感分析(Sentiment analysis)等等。

使用CNN实现文本分类的输入是词嵌入(word embeddings)(对于一个包含10个词的文档,若使用100维embedding的话,输入是一个10*100的矩阵,相当于CNN的输入“图像”)。使用CNN来做NLP的网络例子如下所示。

Illustration of a Convolutional Neural Network (CNN) architecture for sentence classification.

WildML的博客中提到,CNN的位置不变性(Location Invariance:由于CNN的filter会扫过整张图片,因此对于你想要分类的东西无论出现在图片上的哪里都可以被识别出来)和组合性(Compositionality,filter从网络的低层到高层越来越复杂、也越来越具象,比如对图像来说,第一层filter可能识别出图像中的“边”,之后每层用这些识别出来的“边”来识别出“简单的形状”、再到“复杂的形状”等等)在NLP中并没有什么作用(句子中的词语相比于图像中的像素,出现的位置的重要程度要大得多,一个词组也可能会被其他的词语隔开;低层feature组合成的高层feature在自然语言中表现出的含义也不如图像中表现出的含义那么明显)。从这个角度来说,具有时序性的RNN (LSTM)当然更适合NLP。使用纯CNN网络结构并不适合于对顺序有要求的应用,比如词性标注(Part-of-speech tagging)等等。
但是CNN的优势就在于速度快, 同时相比于n-gramsCNN在文本的表示上要高效得多。而且正如博客中提到的"All models are wrong, but some are useful.",实践证明使用CNN进行NLP的效果确实相当不错。

文章Convolutional Neural Networks for Sentence Classification中实现的网络结构如下图所示。MXnet的实现与此大致相同,输入数据集使用了和文章中一样预训练好的word2vec(TensorFlow的实现则是自己从头学习了一套word embeddings)。
[~/mxnet/example/cnn_text_classification]

CNN for text classification

Part-of-speech tagging 词性标注, Parsing 句法分析

使用了MXnet底层的Symbol接口实现的RNN例子。 [~/mxnet/example/rnn]

  • 搭建了LSTM网络结构 [./lstm.py]
  • 使用LSTM网络实现了PennTreeBank语言处理模型,在NLP中用来对语料进行标注,标注内容包括词性标注以及句法分析。 [./lstm_bucketing.py]
  • 使用 lstm.py 训练character-level LSTM网络的介绍。[./char-rnn.ipynb]

Speech Recognition 语音识别

使用LSTM进行语音识别,借助Kaldi Speech Recognition Toolkit进行预处理,网络结构定义在 lstm_proj.py 中。具体的配置和使用方法可以参考这里
[~/mxnet/example/speech-demo]

*Topic Model 主题模型

MXnet的数据同步机制KVStore是基于DMLC项目组之前的Parameter Server项目(现已改名为ps-lite)实现的。Parameter Server在提出时曾是为特定的算法而设计并优化的,其中就包括了著名的主题模型LDA(隐含狄利克雷分布,Latent Dirichlet allocation),在其OSDI14'的文章里有对LDA在Parameter Server上应用较详细的介绍。
然而现在开源之后的ps-lite已经成为了一个general purpose framework for machine learning algorithms,在其官方github上也没有具体使用ps-lite实现LDA的例子。
不过已经有大神实现了基于ps-lite实现分布式的word2vec,是一个类似于LDA的主题模型,可以作为参考。

NLP in TensorFlow


Word Embeddings 词嵌入

词嵌入(word embeddings, distributed representation, word representation, word vectors...),是一种将自然语言中的词语进行符号数字化的表示方式,它的做法是将词映射到m维空间,表示为m维向量。这样一方面可以减小词向量的维度,另一方面,可以将有关联的词映射为空间中相邻的点,词与词之间的关联性通过空间距离来刻画,如下图所示。具体的详细介绍可以参考这里:词向量是什么-licstar的博客以及有谁可以解释下word embedding? - 回答作者: 李韶华

如图中的词被映射到3维(或2维)空间,相近的词离的较近;对于关系相似的两组词(man-woman, king-queen),词向量距离也差不多

常见的词嵌入方法有很多,其中Tomas Mikolov在Google时的这两篇paper:Efficient Estimation of Word Representations in Vector Space (ICLR13')Distributed Representations of Words and Phrases and their Compositionality (NIPS13')提供的word2vec工具包由于其简单的设计(Less is more),速度快,效果好,容易扩展,是当前使用最广泛的词嵌入方法。
word2vec包中有两种模型,即Continuous Bag-of-Words (CBOW)和Skip-Gram。

CBOW 模型是根据词的上下文预测当前词,这里的上下文是由待预测词的前后c个词组成。而 Skip-Gram 模型则相反,是通过当前词去预测上下文。给定一个语料库作为训练集,就可以通过以上模型训练出每个词的向量表示。从实验结果来看,CBOW 模型会平滑掉一些分布信息,因为它将词的上下文作为单个样本,而 Skip-Gram 模型将词上下文拆分为多个样本,训练得到的结果更为精确,为此,TensorFlow 中 word2vec 采用的是 Skip-Gram 模型,对应于该文中所提出的一种更为优化的 Skip-Gram 模型。更多关于 CBOW 和 Skip-Gram 模型细节可以参阅该文

TensorFlow提供了两个版本的word2vec实现,较简单的basic版较复杂的advanced版

词嵌入在NLP中有大量的应用,比如关系提取(Relationship extraction),词嵌入可以回答诸如"king is to queen as father is to ?"(analogical reasoning)这样的问题。

Text Classification 文本分类

与上面NLP in MXnet中介绍的类似,就不多重复了。TensorFlow的实现见这里。具体实现思路和细节可以参考这篇博客

Many Others 许多其他的例子!

TensorFlow的官方教程中,还提供了RNN (LSTM)网络的搭建教程、Sequence to Sequence 模型(直接处理变长输入与变长输出,可以用于机器翻译(Machine translation))的搭建教程、以及Google自己提出的SyntaxNet的搭建教程。基于这些网络可以轻松地实现大量NLP应用,包括词性标注(Part-of-speech tagging)句法分析(Parsing)语音识别(Speech recognition)、依赖分析(Dependency parsing)等。具体内容可以看上面各个网络的教程链接。

A Little Thought


MXnet和TensorFlow的NLP应用基本上都是回归到几个网络模型的构建,使用这两种深度学习框架搭建好CNN、RNN、LSTM、seq2seq、SyntaxNet等等网络模型之后,就可以很方便的在它们之上处理各种各样的NLP应用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 161,192评论 4 369
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,186评论 1 303
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,844评论 0 252
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,471评论 0 217
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,876评论 3 294
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,891评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,068评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,791评论 0 205
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,539评论 1 249
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,772评论 2 253
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,250评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,577评论 3 260
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,244评论 3 241
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,146评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,949评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,995评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,812评论 2 276

推荐阅读更多精彩内容