[随摘]Attention Model in NLP

AM模型是2015年NLP领域重要的进展之一。

一、引言

感受：从认知心理学里面的人脑注意力模型引入的概念。

人脑注意力模型：在某个特定的时刻t，意识和注意力的焦点是集中在画面的某一个部分上的。本质是一个资源分配模型。

深度学习中的注意力模型工作机制，和看见心动异性时荷尔蒙驱动的注意力分配机制是一样的。

二、Encoder-Decoder框架

在图片处理或者图文生成等任务中也有很多场景会用到AM模型，本文只讨论文本处理领域的AM模型。

AM模型是附着在Encoder-Decoder框架下的。Encoder-Decoder框架适合处理由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。Encoder-Decoder是一个通用的计算框架，Encoder和Decoder具体使用的模型可以自己选择，常见的比如CNN、RNN、BIRNND、GRU、LSTM、Deep LSTM等，变化组合非常多，比如CNN作为Encoder，用RNN作为Decoder。

应用场景：机器翻译、文本摘要、人机对话等等

三、Attention Model

上面的通用框架，在Decoder过程中，生产目标单词Y时（Y1,Y2,…,Yn）的输入，都是相同的Encoder的输出，即原始输入的语义编码C，没有任何区别，如下：

Y1=F(C)

Y2=F(C,Y1)

Y3=F(C,Y1,Y2)

而语义编码C是由全部原始输入X中的单词经过Encoder编码产生的，也就是说，不论是生成哪个单子，Y1，Y2或是Y3，输入X中的任意单词对生成摸个目标单词Yi来说影响力是相同的，没有任何区别（Tips:其实如果Encoder是RNN，理论上越是后输入的单词影响越大，并非等权的，也是为何Google提出的Sequence to Sequence模型时，发现把输入句子逆序输入做翻译效果会更好的trick原因）。

因此，Encoder-Decoder框架实际上是没有体现注意力的。

没有引入注意力的模型在输入句子比较短的时候影响不大，但是输入句子比较长时，所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，丢失很多细节信息。

这意味着在生成每个单词Yi的时候，原先都是相同的中间语义表示C会替换成根据当前生成单词而不断变化的Ci。理解AM模型的关键就是这里，即由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci。增加了AM模型的Encoder-Decoder框架理解起来如图2所示

Decoder过程的如下：

Y1=F(C1)

Y2=F(C2,Y1)

Y3=F(C3,Y1,Y2)

每个Ci对应着不同的源语句子单词的注意力分配概率分布

例子：

接下来的问题是：AM模型所需要的输入句子单词注意力分配的概率分布值，如何获得？

以Encoder和Decoder都是RNN为例（也是比较常见的一种模型配置），如下图：

那么可以用下图较为便捷的说明注意力分配概率分布值的通用计算过程：

对于采用RNN的Decoder来说，如果要生成yi单词，在时刻i，我们是可以知道在生成Yi之前的隐层节点i时刻的输出值Hi的，而我们的目的是要计算生成Yi时的输入句子单词“Tom”、“Chase”、“Jerry”对Yi来说的注意力分配概率分布，那么可以用i时刻的隐层节点状态Hi去一一和输入句子中每个单词对应的RNN隐层节点状态hj进行对比，即通过函数F(hj,Hi)来获得目标单词Yi和每个输入单词对应的对齐可能性，这个F函数在不同论文里可能会采取不同的方法，然后函数F的输出经过Softmax进行归一化就得到了符合概率分布取值区间的注意力分配概率分布数值。图5显示的是当输出单词为“汤姆”时刻对应的输入句子单词的对齐概率。绝大多数AM模型都是采取上述的计算框架来计算注意力分配概率分布信息，区别只是在F的定义上可能有所不同。

——上述内容就是论文里面常常提到的Soft Attention Model的基本思想，你能在文献里面看到的大多数AM模型基本就是这个模型，区别很可能只是把这个模型用来解决不同的应用问题。

如何理解AM模型的物理意义呢？

一般文献里会把AM模型看作是单词对齐模型。在机器翻译语境下是非常直观的：传统的统计机器翻译一般在做的过程中会专门有一个短语对齐的步骤，而注意力模型其实起的是相同的作用。

最后编辑于：2017.12.04 01:48:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,425评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,058评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,186评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,848评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,249评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,554评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,830评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,536评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,239评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,505评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,004评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,346评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,999评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,060评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,821评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,574评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,480评论 2赞 267

[随摘]Attention Model in NLP

推荐阅读更多精彩内容