自然语言处理N天-Transformer学习（读书笔记02）

新建 Microsoft PowerPoint 演示文稿 (2).jpg

这个算是在课程学习之外的探索，不过希望能尽快用到项目实践中。在文章里会引用较多的博客，文末会进行reference。
搜索Transformer机制，会发现高分结果基本上都源于一篇论文Jay Alammar的《The Illustrated Transformer》（图解Transformer），提到最多的Attention是Google的《Attention Is All You Need》。

对于Transformer的运行机制了解即可，所以会基于这篇论文来学习Transformer，结合《Sklearn+Tensorflow》中Attention注意力机制一章完成基本的概念学习；
找一个基于Transformer的项目练手

3.Transformer的一些笔记

今天的文本来自《聊聊 Transformer》https://zhuanlan.zhihu.com/p/47812375 最近学习都会围绕Transformer进行，就算我不会推导公式，但是大致原理要懂，然后找一个demo实现能对得上。
同样也是介绍了Transformer的架构，但是这篇文章拆解得更加清晰。

Encoder

在google论文中，Encoder和Decoder都是由6层相同的层组成。Encoder每一层由2部分构成。

multi-head self-attention
position-wise feed-forward network
这两部分由一个残差连接(residual connection)，然后接Layer Normalization。

Decoder

multi-head self-attention mechanism
multi-head context-attention mechanism
position-wise feed-forward network
和Encoder一样也是由残差连接，最后接一个Layer Normalization。

注意Decoder和Encoder不同的地方在 multi-head context-attention mechanism

在接下来的三个小节，是从Attention-> self-sttention-> scaled dot-product attention，很细心。

Attention

Attention是Encoder层的输出经过加权平均后再输入到Decoder层中。它主要应用在 seq2seq 模型中，这个加权可以用矩阵来表示，也叫 Attention 矩阵。它表示对于某个时刻的输出 y，它在输入 x 上各个部分的注意力。这个注意力就是我们刚才说到的加权。
attention分为“乘性attention”和“加性attention”

self-attention

attention机制有两个隐状态， $h_i$ 和 $s_t$ ，而self-attention实际上输出序列就是输入序列。因而自己计算自己的 attention 得分。

context-attention

context-attention 是 encoder 和 decoder 之间的 attention，是两个不同序列之间的attention，与来源于自身的 self-attention 相区别。
不管是哪种 attention，我们在计算 attention 权重的时候，可以选择很多方式，常用的方法有additive attention、local-base attention、general attention、dot-product attention、scaled dot-product attention（我一个都没听说过……）
Transformer模型采用的是最后一种scaled dot-product attention

scaled dot-product attention

为什么使用scaled dot-product attention。Google给出的解答就是上一节的Q（Query）、V（Value）、K（Key），注意看看这里的描述。通过query和key的相似性程度来确定value的权重分布。
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$
scaled dot-product attention 和 dot-product attention 唯一的区别就是，scaled dot-product attention 有一个缩放因子，叫 $\frac{1}{\sqrt{d_k}}$ 。这个在上一节中也有提到，我略过了，因为没有看懂。 $d_k$ 表示 Key 的维度，默认用 64。
对于 $d_k$ 很大的时候，点积得到的结果维度很大，使得结果处于softmax函数梯度很小的区域。这时候除以一个缩放因子，可以一定程度上减缓这种情况。

multi-head attention

论文提到，他们发现将 Q、K、V 通过一个线性映射之后，分成 h 份，对每一份进行 scaled dot-product attention 效果更好。
然后，把各个部分的结果合并起来，再次经过线性映射，得到最终的输出。
这就是所谓的 multi-head attention。上面的超参数 h 就是 heads 的数量。论文默认是 8。

Layer normalization

normaliztion的目标是把输入转化为均值为0，方差为1的数据。
说到 normalization，那就肯定得提到 Batch Normalization。
BN 的主要思想就是：在每一层的每一批数据上进行归一化。我们可能会对输入数据进行归一化，但是经过该网络层的作用后，我们的数据已经不再是归一化的了。随着这种情况的发展，数据的偏差越来越大，反向传播需要考虑到这些大的偏差，这就迫使我们只能使用较小的学习率来防止梯度消失或者梯度爆炸。
BN 的具体做法就是对每一小批数据做归一化。
而Layer normalization也是归一化数据的一种方式，不过LN是在每一个样本上计算均值和方差，而不是 BN 那种在批方向计算均值和方差。

Mask

mask 表示掩码，它对某些值进行掩盖，使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask，分别是 padding mask 和 sequence mask。

padding mask 在所有的 scaled dot-product attention 里面都需要用到
sequence mask 只有在 decoder 的 self-attention 里面用到。
padding mask，每个批次输入序列长度是不一样的，要对输入序列进行对齐。具体来说，就是给在较短的序列后面填充 0。因为这些填充的位置，其实是没什么意义的，所以我们的 attention 机制不应该把注意力放在这些位置上，所以我们需要进行一些处理。
具体的做法是，把这些位置的值加上一个非常大的负数(负无穷)，这样的话，经过 softmax，这些位置的概率就会接近0。而Transformer的 padding mask 实际上是一个张量，每个值都是一个 Boolean，值为 false 的地方就是我们要进行处理的地方。

文章前面也提到，sequence mask 是为了使得 decoder 不能看见未来的信息。也就是对于一个序列，在 time_step 为 t 的时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。因此我们需要想一个办法，把 t 之后的信息给隐藏起来。
那么具体怎么做呢？也很简单：产生一个上三角矩阵，上三角的值全为 1，下三角的值权威0，对角线也是 0。把这个矩阵作用在每一个序列上。（同样没看懂具体的实现方式）

Positional Embedding

现在的 Transformer 架构还没有提取序列顺序的信息，这个信息对于序列而言非常重要，如果缺失了这个信息，可能我们的结果就是：所有词语都对了，但是无法组成有意义的语句。为了解决这个问题。论文使用了 Positional Embedding：对序列中的词语出现的位置进行编码。
在实现的时候使用正余弦函数。

Position-wise Feed-Forward network

这是一个全连接网络，包含两个线性变换和一个非线性函数(实际上就是 ReLU)。
$FFN = max(0, xW_1 + b_1)W_2 + b_2$
这个线性变换在不同的位置都表现一样，并且在不同的层之间使用不同的参数。这里实现上用到了两个一维卷积。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,999评论 4赞 368
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,102评论 1赞 302
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 110,709评论 0赞 250
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,439评论 0赞 217
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,846评论 3赞 294
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,881评论 1赞 224
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,062评论 2赞 317
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,783评论 0赞 205
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,517评论 1赞 248
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,762评论 2赞 253
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,241评论 1赞 264
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,568评论 3赞 260
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,236评论 3赞 241
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,145评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,941评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,965评论 2赞 283
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,802评论 2赞 275