注意力机制

1. Attention机制由来

意力机制借鉴了人类注意力的说法，比如我们在阅读过程中，会把注意集中在重要的信息上。在训练过程中，输入的权重也都是不同的，注意力机制就是学习到这些权重。最开始attention机制在CV领域被提出来，但后面广泛应用在NLP领域。

2. Encoder-Decoder 框架

需要注意的是，注意力机制是一种通用的思想和技术，不依赖于任何模型，换句话说，注意力机制可以用于任何模型。只是我们介绍注意力机制的时候更多会用encoder-decoder框架做介绍。

Encoder-Decoder 框架可以看作是一种深度学习领域的研究模式，应用场景异常广泛。下图是文本处理领域里Encoder-Decoder 框架最抽象的一种表示。

图1:Encoder-Decoder框架

在NLP领域，可以把Encoder-Decoder框架看作是：将一个句子（篇章）转换成另一个句子（篇章）。最直观的例子就是机器翻译，将一种语言的表达翻译成另一种语言。对于句子对<source，target>，将给定输入句子
source，通过Encoder-Decoder框架生成目标句子target。其中，source和target都是一组单词序列：
$source = <x_1, x_2, ..., x_m> ; target = <y_1, y_2, ..., y_n>$

Encoder是对source进行编码，转换成中间语义 $C$ ：
$C = F(x_1, x_2, ..., x_m)$
对于解码器Decoder，其任务是根据中间语义C和当前已经生成的历史信息来生成下一时刻要生成的单词：
$y_i = G(C, y_1, y_2, ..., y_{i-1})$

3. 最常见的attention模型——Soft Attention

我们从最常见的Soft Attention模型开始介绍attention的基本思路。

在上一节介绍的Encoder-Decoder框架是没有体现出“注意力模型”的，为什么这么说呢？我们可以看下target的生成过程：
$y_1 = f(C) \\ \\ y_2 = f(C, y_1) \\ \\ y_3 = f(C, y_1, y_2)$
其中， $f$ 是Decoder的非线性变换函数。从上面式子中可以看出，在生成目标句子的单词时，不论生成哪个单词，它们使用的输入句子source的语义编码 $\textbf{C}$ 都是一样的，没有任何区别。而语义编码 $\textbf{C}$ 又是通过对source经过Encoder编码产生的，因此对于target中的任何一个单词，source中任意单词对某个目标单词 $y_i$ 来说影响力都是相同的，这就是为什么说图1中的模型没有体现注意力的原因。

没有引入注意力的模型在输入句子比较短的时候问题不大，但是如果输入句子比较长，此时所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，因此很多细节信息会被丢失。这也是为何要引入注意力模型的重要原因。

下面从一个例子入手，具体说明下注意力机制是怎么做的。

比如机器翻译任务，输入source是英文句子：Tom chase Jerry；输出target想得到中文：汤姆追逐杰瑞。在翻译“Jerry”这个单词的时候，在普通Encoder-Decoder模型中，source里的每个单词对“杰瑞”的贡献是相同的，很明显这样不太合理，因为“Jerry”对于翻译成“杰瑞”更重要。如果引入Attention模型，在生成“杰瑞”的时候，应该体现出英文单词对于翻译当前中文单词不同的影响程度，比如给出类似下面一个概率分布值：
$（Tom，0.3）（Chase，0.2）（Jerry，0.5）$

每个英文单词的概率代表了翻译当前单词“杰瑞”时注意力分配模型分配给不同英文单词的注意力大小。同理，对于target中任意一个单词都应该有对应的source中的单词的注意力分配概率，可以把所有的注意力概率看作 $A \in R^{n*m}$ ，其中 $m$ 表示source长度， $n$ 表示target长度。而且，由于注意力模型的加入，原来在生成target单词时候的中间语义 $C$ 就不再是固定的，而是会根据注意力概率变化的 $C_i$ ，加入了注意力模型的Encoder-Decoder框架就变成了如图2所示。

图2: 加入Attention模型的Encoder-Decoder框架

根据图2，生成target的过程就变成了下面形式：
$y_1 = f_1(C_1)\\ y_2 = f_1(C_2, y_1)\\ y_3 = f_1(C_3, y_1,y_2)$
因为每个 $\textbf{C}_i$ 可能对应着不同的注意力分配概率分布，比如对于上面的英汉翻译来说，其对应的信息可能如下：
$C_{汤姆} = g(0.6*f_2("Tom"), 0.2*f_2("Chase")，0.2*f_2("Jerry")) \\ C_{追逐}= g(0.2*f_2("Tom"), 0.7*f_2("Chase")，0.1*f_2("Jerry")) \\ C_{杰瑞}= g(0.3*f_2("Tom"), 0.2*f_2("Chase")，0.5*f_2("Jerry")) \\$
其中， $f_2$ 表示Encoder对输入英文单词的某种变换函数，比如如果Encoder是用RNN模型的话，这个 $f_2$ 函数的结果往往是某个时刻输入 $x_i$ 后隐层节点的状态值；g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数，一般的做法中，g函数就是对构成元素加权求和，即：
$C_i = \sum_{j=1}^{L_x} a_{ij}h_j$
其中， $L_x$ 代表输入句子Source的长度， $a_{ij}$ 代表在Target输出第 $i$ 个单词时Source输入句子第 $j$ 个单词的注意力分配系数，而 $h_j$ 则是Source输入句子中第 $j$ 个单词的语义编码。假设下标 $i$ 就是上面例子所说的“汤姆”生成如下图：

图3: C(汤姆)的计算过程

那另一个问题来了：注意力概率分布是怎么得到的呢？为了便于说明，我们假设图1的Encoder-Decoder框架中，Encoder和Decoder都采用RNN模型，那么图1变成下图4:

图4: RNN作为具体模型的Encoder-Decoder框架

那么注意力分配概率分布值的通用计算过程如图5:

图5: 注意力分配概率计算

上图中

h_j

表示Source中单词

j

对应的隐层节点状态

h_j

，

H_i

表示Target中单词

i

的隐层节点状态，注意力计算的是Target中单词

i

对Source中每个单词对齐可能性，即

F(h_j, H_{i-1})

，而函数

F

可以用不同的方法，然后函数

F

的输出经过softmax进行归一化就得到了注意力分配概率分布。

上面就是经典的soft Attention模型的基本思想，区别只是函数 $F$ 会有所不同。

Attention机制的本质思想

从我的角度看，其实Attention机制可以看作，Target中每个单词是对Source每个单词的加权求和，而权重是Source中每个单词对Target中每个单词的重要程度。因此，Attention的本质思想会表示成下图6：

图6: Attention机制的本质思想

将Source中的构成元素看作是一系列的<Key, Value>数据对，给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，即权重系数；然后对Value进行加权求和，并得到最终的Attention数值。将本质思想表示成公式如下：
$Attention(Query, Source) = \sum_{i=1}^{L_x} Similarity(Query, Key_i) * Value_i$
其中， $L_x$ 表示Source的长度。

深度学习中的注意力机制中提到：

因为在计算 Attention 的过程中，Source 中的 Key 和 Value 合二为一，指向的是同一个东西，也即输入句子中每个单词对应的语义编码，所以可能不容易看出这种能够体现本质思想的结构。
另一种解释是将Attention机制看作一种软寻址。

因此，Attention机制的具体计算过程实际上分成了3个阶段，如图7:

图7: Attention机制的具体计算过程

第一阶段可以引入不同的函数和计算机制，根据Query和某个 $Key_i$ ，计算两者的相似性或者相关性，最常见的方法包括：求两者的向量点积、求两者的向量cosine相似性或者引入额外的神经网络来求值，如下：
$加性模型：Similarity(Query, Key_i) = V^T * tanh(WKey_i + UQ)\\ 点积：Similarity(Query, Key_i) = Query \cdot Key_i \\ Cosine 相似性： Similarity(Query, Key_i) = \frac{Query \cdot Key_i}{|Query| \cdot |Key_i|}\\ MLP网络：Similarity(Query, Key_i) = MLP(Query, Key_i)$

第二阶段引入类似SoftMax的计算方式，对第一阶段的得分进行数值转换，一方面可以进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布；另一方面也可以通过SoftMax的内在机制更加突出重要元素的权重。即一般采用的公式如下：
$a_i = Softmax(Sim_i)=\frac{e^{Sim_i}}{\sum_{j=1}^{L_x} e^{Sim_j}}$
第三阶段的计算结果 $a_i$ 即为 $value_i$ 对应的权重系数，然后进行加权求和即可得到Attention数值：
$Attention(Query, Source) = \sum_{i=1}^{L_x} a_i \cdot Value_i$
通过如上三个阶段的计算，就可以求出针对Query的Attention数值。

4. 其他attention模型

soft vs. hard

上面介绍的是soft Attention，hard Attention的区别在于soft Attention中 $a_{ij}$ 是概率分布，而hard Attention取值为0/1。Hard Attention在图像上有使用，具体可见引入attention机制。

global vs. local

这里的global attention其实就是soft Attention，global attention需要考虑encoder中所有的 $h_j$ ；而local Attention直观上理解是只考虑局部的 $h_j$ 。

self-attention

Self-attention是Google在transformer模型中提出的，上面介绍的都是一般情况下Attention发生在Target元素Query和Source中所有元素之间。而Self Attention，指的是Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的注意力机制。当然，具体的计算过程仍然是一样的，只是计算对象发生了变化而已。

上面内容也有说到，一般情况下Attention本质上是Target和Source之间的一种单词对齐机制。那么如果是Self Attention机制，到底学的是哪些规律或者抽取了哪些特征呢？或者说引入Self Attention有什么增益或者好处呢？仍然以机器翻译为例来说明，如图8和图9:

图8: self-attention 实例1

图9: self-attention实例2

从图8和图9可以看出，self-attention可以捕获同一个句子之间的一些句法特征（如图8有一定距离的短语结构）或者语义特征（如图9展示的its的指代对象Law）。

很明显，引入 Self Attention 后会更容易捕获句子中长距离的相互依赖的特征，因为如果是RNN或者LSTM，需要依次序列计算，对于远距离的相互依赖的特征，要经过若干时间步步骤的信息累积才能将两者联系起来，而距离越远，有效捕获的可能性越小。但是Self-Attention在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来，所以远距离依赖特征之间的距离被极大缩短，有利于有效地利用这些特征。除此之外，Self-Attention对于增加计算的并行性也有直接帮助作用。这是为何Self-Attention逐渐被广泛使用的主要原因。

Scaled Dot-Product Attention

具体做法是点乘 $K$ 和 $Q$ ，然后除以 $\sqrt{d_k}$ ，并经过Softmax，以此得到 $V$ 的权重。也就是说Attention计算过程如下式，其中 $\frac{1}{\sqrt{d_k}}$ 是scaled factor：
$Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

注意力的计算一般有两种：加性注意力（additive attention）、乘法（点积）注意力（multiplicative attention）。（这里可以和第3部分计算相似度对应）

加性注意力是最经典的注意力机制，它使用了有一个隐藏层的前馈网络（全连接）来计算注意力; 乘法注意力就是Transformer用的方式。这两种注意力在复杂度上是相似的，但是乘法注意力在实践中要更快速、具有高效的存储，因为它可以使用矩阵操作更高效地实现。

Transformer原文：

While the two are similar in theoretical complexity, dot-product attention is much faster and more space-efficient in practice, since it can be implemented using highly optimized matrix multiplication code.

Multi-Attention

Multi-Head Attention是用不同的 $W^Q、W^K、W^V$ 得到不同的Attention，最后将这些Attention拼接起来作为输出。公式如下：
$MultiHead(Q,K,V) = Concat(head_1, head_2, head_h)W^o \\ where head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)$
其中， $W_i^Q \in R^{d_{model} \times d_k}，W_i^K \in R^{d_{model} \times d_k}，W_i^V \in R^{d_{model} \times d_k}，W^o \in R^{hd_v \times d_{model}}$ ；在Transformer模型中， $d_k=d_v=d_{model}/h=64$ 。

Scaled Dot-Product Attention和Multi-Attention如下图所示：

图：(left) Scaled Dot-Product Attention. (right)Multi-Head Attention

学习资料

最后编辑于：2021.05.03 18:00:18

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,569评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,499评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,271评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,087评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,474评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,670评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,911评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,636评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,397评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,607评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,093评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,418评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,074评论 3赞 237
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,092评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,865评论 0赞 196
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,726评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,627评论 2赞 270

注意力机制

注意力机制

目录

1. Attention机制由来

2. Encoder-Decoder 框架

3. 最常见的attention模型——Soft Attention

Attention机制的本质思想

4. 其他attention模型

soft vs. hard

global vs. local

self-attention

Scaled Dot-Product Attention

Multi-Attention

学习资料

推荐阅读更多精彩内容