Attention Is All You Need简记(多头注意力、自注意力、层归一化、位置嵌入)

首先注意力模型可以宏观上理解为一个查询（query）到一系列（键key-值value）对的映射。

将Source（源）中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target（目标）中的某个元素Query（查询），通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，通过softmax归一化后，对权重和相应Value进行加权求和，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。目前在NLP研究中，key和value常常都是同一个，即key=value。

注意力模型可以宏观上理解为一个查询（Query）到一系列（键key-值value）对的映射

Attention Is All You Need（2017.6）

放缩点积attention层图示及定义式

逐向量来看上图结构

其中 $Z$ 是归一化因子。 $K、V$ 是一一对应的，它们就像是 key-value 的关系，那么上式的意思就是通过 $q_t$ 这个 query，通过与各个 $k_s$ 内积的并 $softmax$ 的方式，来得到 $q_t$ 与各个 $v_s$ 的相似度，然后加权求和，得到一个 $d_v$ 维的向量。此处在进行 $q_t$ 、 $v_s$ 相似度计算时，使用点积，除此之外还有拼接，感知机等方式。

其中因子 $\sqrt{d_k}$ 起到调节作用，使得上方内积不至于太大（太大的话 softmax 后就非 0 即 1 了，不够“soft”了），其中 $\sqrt{d_k}$ 指的是键向量维度的平方根。

1、多头attention（Multi-head attention）

多头attention允许模型同时注意来自不同位置的不同表示子空间的信息

多头attention（Multi-head attention）结构如上图，Query，Key，Value首先进过一个线性变换，然后输入到放缩点积attention，注意这里要做h次，也就是所谓的多头，每一次算一个头，头之间参数不共享，每次Q，K，V进行线性变换的参数 $W$ 是不一样的。然后将h次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。

可以看到，google提出来的多头attention的不同之处在于进行了h次计算而不仅仅算一次，论文中说到这样的好处是可以允许模型在不同的表示子空间里学习到相关的信息。

2、自注意力（Self Attention）

所谓 Self Attention，其实就是 Attention(X,X,X)，X 就是前面说的输入序列。Self-attention即K=V=Q，例如输入一个句子，那么里面的每个词都要和该句子中的所有词进行attention计算。目的是学习句子内部的词依赖关系，捕获句子的内部结构。更准确来说，Google 所用的是 Self Multi-Head Attention。

自注意力可以提取句子自身词间依赖，比如常用短语、代词指代的事物等。或者说，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。

对于使用自注意力机制的原因，论文中提到主要从三个方面考虑（每一层的复杂度，是否可以并行，长距离依赖学习），并给出了和RNN，CNN计算复杂度的比较。

1、可以看到，如果输入序列n小于表示维度d的话，每一层的时间复杂度self-attention是比较有优势的。当n比较大时，作者也给出了一种解决方案self-attention（restricted）即每个词不是和所有词计算attention，而是只与限制的r个词去计算attention。

2、在并行方面，多头attention和CNN一样不依赖于前一时刻的计算，可以很好的并行，优于RNN。

3、在长距离依赖上，由于self-attention是每个词和所有词都要计算attention，所以不管他们中间有多长距离，最大的路径长度也都只是1。能够无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构。

先来看一个翻译的例子“I arrived at the bank after crossing the river” 这里面的bank指的是银行还是河岸呢，这就需要我们联系上下文，当我们看到river之后就应该知道这里bank很大概率指的是河岸。在RNN中我们就需要一步步的顺序处理从bank到river的所有词语，而当它们相距较远时RNN的效果常常较差，且由于其顺序性处理效率也较低。

Self-Attention则利用了Attention机制，计算每个单词与其他所有单词之间的关联，在这句话里，当翻译bank一词时，river一词就有较高的Attention score。利用这些Attention score就可以得到一个加权的表示，然后再放到一个前馈神经网络中得到新的表示，这一表示很好的考虑到上下文的信息。总之Self-Attention机制对每一个词得到新的考虑了上下文信息的表征。

3、位置嵌入（Position Embedding）

上述模型并不能学习序列的顺序。换句话说，如果将 K,V 按行打乱顺序（相当于句子中的词序打乱），那么 Attention 的结果还是一样的。学习不到顺序信息，那么效果将会大打折扣（比如机器翻译中，有可能只把每个词都翻译出来了，但是不能组织成合理的句子）。这就引出了位置向量（Position Embedding）。

将每个位置编号，然后每个编号对应一个向量，通过结合位置向量和词向量，就给每个词都引入了一定的位置信息，这样 Attention 就可以分辨出不同位置的词了，进而学习位置信息了。

在Attention Is All You Need一文中，Google直接给出了位置向量构造公式：

这里的意思是将 id 为 $p$ 的位置映射为一个 $d_{pos}$ 维的位置向量，这个向量的第 $i$ 个元素的数值就是 $PE_i(p)$ 。

位置向量是绝对位置信息，相对位置信息也很重要。Google 选择前述的位置向量公式的一个重要原因如下：由于我们有 sin(α+β)=sinα·cosβ+cosα·sinβ 以及 cos(α+β)=cosα·cosβ−sinα·sinβ，这表明位置 p+k 的向量可以表示成位置 p、k 的向量的线性变换，这提供了表达相对位置信息的可能性。

结合位置向量和词向量有几个可选方案，可以把它们拼接起来作为一个新向量，也可以把位置向量定义为跟词向量一样大小，然后两者加起来，Attention Is All You Need使用的是后者。

4、Layer Normalization

LN(左)和BN(右)对比示意图

我们指出BN并不适用于RNN等动态网络和batchsize较小的时候效果不好。Layer Normalization（LN)的提出有效的解决BN的这两个问题。LN和BN不同点是归一化的维度是互相垂直的，如图1所示。在图1中 $N$ 表示样本轴， $C$ 表示通道轴， $F$ 是每个通道的特征数量。BN如右侧所示，它是取不同样本的同一个通道的特征做归一化；LN则是如左侧所示，它取的是同一个样本的不同通道做归一化。

LN是和BN非常近似的一种归一化方法，不同的是BN取的是不同样本的同一个特征，而LN取的是同一个样本的不同特征。在BN和LN都能使用的场景中，BN的效果一般优于LN，原因是基于不同数据，同一特征得到的归一化特征更不容易损失信息。但是有些场景是不能使用BN的，例如batchsize较小或者在RNN中，这时候可以选择使用LN，LN得到的模型更稳定且起到正则化的作用。RNN能应用到小批量和RNN中是因为LN的归一化统计量的计算是和batchsize没有关系的。

5、transformer

综合上述部分组成整体结构 $transformer$

transformer模型分为编码器和解码器两个部分。

编码器由6个相同的层堆叠在一起，每一层又有两个支层。第一个支层是一个多头的自注意机制，第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个残差连接（residual），然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是 $d_{model}$ 。

解码器也是堆叠了6个相同的层。不过每层除了编码器中那两个支层，解码器还加入了第三个支层，如图中所示同样也用了残差连接以及layer normalization。

另一篇关于transformer：transformer再记（编码器）

酷文章：BERT大火却不懂Transformer？读这一篇就够了

有用的文章：关于transformer各组件的说明

transformer代码注解

最后编辑于：2019.03.25 17:12:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 162,825评论 4赞 377
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,887评论 2赞 308
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 112,425评论 0赞 255
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,801评论 0赞 224
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 53,252评论 3赞 299
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 41,089评论 1赞 226
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,216评论 2赞 322
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 31,005评论 0赞 215
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,747评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,883评论 2赞 255
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,354评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,694评论 3赞 265
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,406评论 3赞 246
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,222评论 0赞 9
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,996评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,242评论 2赞 287
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 36,017评论 2赞 281