【NLP论文笔记】XLNet: Generalized Autoregressive Pretraining for Language Understanding（XLNet模型理解）

本文主要用于记录谷歌发表于2019年的一篇论文。该论文提出的XLNet模型在19年再一次屠榜了之前由Bert模型刷爆的多项NLP基础任务，号称新一代NLP领域的基准预训练模型。本笔记主要为方便初学者快速入门，以及自我回顾。

为了更好的理解本文，建议读者先对Bert模型有深入的理解（毕竟本文很多知识点都是建立在Bert之上的），这里也贴一个我之前的一篇论文笔记是专门来讲Bert的，大家也可以看一下加深理解。

论文链接：https://arxiv.org/pdf/1906.08237.pdf

基本目录如下：

摘要
核心思想
总结

------------------第一菇 - 摘要------------------

1.1 论文摘要

以Bert为代表的一批基于去噪自编码（denoising）思想的预训练模型，因为具有同时对上下文语料建模的能力，而在各项基础NLP任务上取得了超过传统基于自回归思想的语言模型的优异表现。然而，该种预训练方法需要在训练阶段对输入语句的部分词进行遮罩（MASK），而显然在微调和预测阶段是不存在这种遮罩的，这就形成了一种在预训练阶段和下游微调任务阶段的训练方法不一致的差异（discrepancy）。因此，为了能同时习得上下文信息，但又不采用引入MASK的这种训练方法，我们提出了一种全新的模型（即新的预训练方法得到的）XLNet，这种由生成式的自回归预训练方法得到的模型，能够克服上述提到的Bert的缺点，但又能通过最大化某一种期望概率（下文详解）来达到同时学习上下文的目的。同时，XLNet还采用了最新一代的Transformer特征提取模型（Transformer-XL，Bert是初代17年那版的），实验也论证表明XLNet在20项NLP基础任务上的表现要优于Bert，包括QA问答，语句推断，情感分析和文档排序等。

------------------第二菇 - 核心思想------------------

2.1 预训练方法总结

在深入了解XLNet模型之前，我们还是要先回顾一下之前NLP领域的一些预训练模型（即用非监督的训练方法来习得词或句的向量表征）。在Bert提出之前，其实我们在NLP领域主流只有一种基于语言模型的预训练方法（包括ELMO等等），所以我们先来聊一聊这种预训练方法。

1）基于语言模型（AR LM）的学习（代表：ELMO）
具体来讲，给定一段文本 $x = (x_1, x_2,...,x_T)$ ，基于语言模型的训练思想就是，利用上（下）文信息，去预测当前词的一个概率（训练目标自然是最大化当前词的概率）。如果是从前往后看，则基本的思想如下式，

$p(x) = \prod_{t=1}^{T}p(x_t | x_{<t})$

即利用 $x_t$ 之前的词来预测 $x_t$ （如果是从后往前看，则相反，是利用其后面的词来预测），因此，整一个模型的训练目标函数就可以写成，

AR的目标函数

其中 $h_\theta(x_{1:t-1})$ 就是被各种特征提取模型（RNN, Transformer等）提炼出来的前t个单词的一种向量表征。因此，很明显，该种训练方法最大的缺陷就是，不论是前向还是后向，每一次模型在做训练的时候都只能看到单边的信息，而显然，大部分的NLP下游任务都是需要同时考虑上下文信息的（Bi体系只是单词的Concact，并没有在预测的时候同时起作用），这种训练方法的整体思路也比较简单，也有很严格的数学含义，这里就不做具体展开阐述了。接下来，我们再简单聊一聊Bert的训练方法到底有哪些优缺点。

2）基于自编码（AE）的学习（代表：Bert）
这里不详解Bert了，其优点非常明显，即能够同时习得上下文的信息（做到真正的双向），还有一个好处是能够比较好的学习到长时的依赖（主要是靠Transformer做到的）。但是其缺点我们也不容忽视，首当其冲的是不具有语言模型的特性，即不能够用来生成文本。另外，其因为引入[MASK]的缘故，也存在训练与预测的Discrepancy。还有一个比较容易被忽视的缺点是，预测时的不相关性，即一个句子中的多个词被MASK以后，Bert的处理其实是不会考虑这几个词之间的相关性的（即有一个条件独立的假设），大家可以仔细品味一下Bert的目标函数（如下图），

BERT的目标函数

论文中的背景介绍给出了很好的一个总结，这边也照搬过来～
综合考量这两种训练方法，其各自的优缺点可以从以下三个方面来考量，

a. Independence Assumption：条件独立性假设，这点Bert完败，而AR语言模型体系并未有该假设。

b. Input Noise: 输入的噪声，这点Bert完败（即[MASK]），而AR语言模型体系并未有输入的噪声。

c. Context Dependency：这点Bert完胜，因为其同时考量了上下文信息是双向的，而AR语言模型体系是单向的。

说了那么多，想必大家也应该明白了，XLNet要做的其实就是要取Bert之长，补AR语言模型体系之短。接下来，我们就来看看XLNet到底是如何做到这一点的～

2.2 排列语言模型

众所周知，语言模型最大的问题是不能利用上下文信息，因此，XLNet从很老的一篇文章（NADE）中得到了灵感，提出了一种排列语言模型的训练方法，从而使得训练的时候能同时看到上下文的信息。具体的解释如下，

假设给定一段文本 $t = (x_{1}, x_{2},x_{3},x_{4})$ ，那我们传统的语言模型训练的时候，根据单向的顺序，我们知道对于 $x_{1}$ 来说，它是看不到后面3个词的信息；对于 $x_{2}$ 来说，是看不到后面2个词的信息；对于 $x_{3}$ 来说看不到后面1个词的信息；只有 $x_{4}$ 能完整的看到前面3个词的信息。因此，为了解决这一弊端，XLNet提出的办法是对该段文本的词重新排序（即全排列，4个词，就是4的阶乘，有24种排列方式），然后再对每一种排列顺序，依次建模，比如，其中一种顺序是， $t = (x_{4}, x_{3},x_{2},x_{1})$ ，这种顺序刚好跟初始文本相反，而在这一种顺序中，变成 $x_{1}$ 能看到其他3个词的信息了～对于每一种排序，其都遵循语言模型的训练模型，即：

$p(x_{1}, x_{2},x_{3},x_{4}) = \prod_{t=1}^{T}p(x_t | x_{<t})$

因此，大家可以想象一下，如果我们把24种排列全都学了一遍（且假设权重相同），那其实就相当于每一个单词的不同排列中的预测都能看到不同的单词，这样综合下来，就达到了我们让单词的预测同时看到上下文的效果～

因此，此时XLNet的训练目标函数可以表示为，

XLNet的目标函数

其中， $z_T$ 就是当前文本的所有排列的组合，当然真正实现的时候，作者并没有真的把所有全排列都输入进去了一遍，不然那数据量要爆炸了，纵使是谷歌也抗不住啊～文中其实也说了是用一种采样的方法来选择排列的组合，可能也就采样了5-10个样本（这里其实给后面的研究者埋藏了一个优化点，即如何更好的采样，目的肯定是尽可能让每一个词都看到更多的词汇，具体怎么搞就留给各路大牛了😄～），且权重是一样的～这里大家可以自己思考一下，为什么权重是一样的😁～，这边也贴一张原文的图，来方便大家的理解～

排列语言模型示意图

上图中，大家可以看到，在预测单词 $x_{3}$ 的时候，4种排列顺序，让其看的词汇也是不一样的～从而达到了同时看到上下文信息的一个效果～。至此，整个XLNet的核心思路已经讲清楚了（对于只是想初步了解一下XLNet的同学，看到这里也就可以了）。但离掌握XLNet还差一段距离，所以接下来，我们还得具体去聊一聊，XLNet的一些结构的设计细节以及训练细节。

2.3 双流自注意力机制

敏锐的读者显然应该注意到了，上述任意排列组合所带来的一个问题，即标准的基于Transformer的语言模型可能会失效，其实是无法对上述的任意排列来建模的，我这边直接用论文中的附录A来解释一下。

假设，我们现在有两种不同的排列， $z^{(1)}, z^{(2)}$ 满足以下的关系式，

$z^{(1)}_{<t} = z^{(2)}_{<t} = z_{<t}$

但是，

$z^{(1)}_{t} = i\neq j = z^{(2)}_{t}$

这带来的后果就是，在不同位置的同一词汇，竟然会有同样的模型预测结果，这显然是不合理，参考论文中的式子～

公式1

论文中说的比较抽象，我这边用一个具体的例子来形象的描述一下～

假设我现在有一个句子是，“ 我爱北京天安门”，其中有一种排列顺序是， $z=[1,3,4,2]$ ，假设我们要预测 $z_3 = 4$ （即预测第4个词是哪一个词，假如我们要预测“天安门(x)”, 则下面式子的意思就是利用第1个词是“我”和第3个词是"北京"的条件下第4个词是“天安门”的概率～），则可用如下式子来表示[1]，

例子1

（注：这里我必须再强调一下容易引起误解的地方，这里的数字代表的是预测的顺序，而不是这个位置上的词被替换为了新的词，比如上述顺序1342，13指的是利用第1个词来预测第3个词，而不是说第2个词用第3个词来替换了，那就改变了原有的语句的输入顺序，那显然是不合理的哈～）

再看另一个例子，还有一种排列顺序为 $z=[1,3,2,4]$ ，我们要预测 $z_3 = 2$ ，假如我们要预测第2个词为“天安门(x)”的概率，也可以用下面的式子来表达[1]，

例子2

所以通过比较上面俩个式子，大家有木有发现一个问题，即原有模型的位置不确定性会带来的预测偏差。因为上面两种排列带来的后果就是，"天安门"这个词在第2个位置和在第4个位置模型认为其概率是一样的（两个式子的右半部分是相等的），但在真实的语意中其概率肯定是不相等（毕竟原句就是在第4个位置，怎么说第4个位置的概率也应该大于第2个位置），所以这就是上面论文中的附录所要解释的问题。而本论文中提出的，双流自注意力机制就是为了解决这个位置不确定性而设计出来的～

简单来讲，这里的双流一个指的是“文本信息流”，还有一个就是“位置流”，即我得告诉模型，要预测的词是在哪一个位置～因此，论文提出了一个新的概率计算公式，

新的目标函数

这里其实没有任何变化，唯一的区别就是引入了位置信息（ $z_t$ ）～作者在文中也提到了利用注意力机制和引入 $z_t$ 来获取文本上下文信息 $x_{z<t}$ 中的有效信息，从而更好的预测单词。为了能让这一套运转起来，有2个最基本的条件需求去满足，

1）为了要去预测 $x_{z<t}$ ， $g_\theta(x_{z<t}, z_t)$ 必须要包含位置信息 $z_t$ ，但是不能包含该词本身的信息 $(x_{zt})$ ，如果都知道了这个词，那就都不用预测了～

2）为了要预测后面的词汇（即 $t$ 之后的）， $g_\theta(x_{z<t}, z_t)$ 又必须要包含有该词本身的信息 $(x_{zt})$ ，不然后面的词就少信息了。

而显然上述两点在初代Transformer中是完全矛盾的存在。因此，作者提出了2种隐状态的表示方法，

1）内容隐状态 $h_\theta(x_{z\leq t})$ ，缩写为 $h_{zt}$ ，这一层隐状态用于存储内容信息（跟初代Transformer一致），既有其上下文信息，也包括 $x_{zt}$ 本身的内容信息。

2）查询隐状态 $g_\theta(x_{z<t}, z_t)$ ，缩写为 $g_{zt}$ ，这一层隐状态用于存储 $x_{z<t}$ 上下文信息和位置信息 $z_t$ ，就是不包括 $x_{zt}$ 本身的内容信息。

在计算的时候，第一层的查询流是初始化的训练参数，内容信息流就是词向量，后面几层，都可以论文中的公式推导如下，

双流自注意力机制推导公式

其参数更新的流程和初代是一致的，只不过在微调阶段，我们就不需要查询流了，直接用内容流就可以了～这里作者也强调了一点，为了减少计算量，不可能每一个词都要去做预测的，而为了在预测阶段能尽可能多的看到词汇，论文中作者阐述了一种简单的方法，即会对输入序列进行分段（cutting_point, c），然后选择后半段的K个词进行预测。之所以从后半段中选，可能也是考虑到后半段的词能看到的词汇肯定比前半段的要多，能更好的利用上下文的信息把～最后，必须要再贴一个论文中的图，方便大家进一步理解XLNet的双流自注意力机制～

双流自注意力机制示意图

这张图的左上角是内容流，可以看到1234都有红线指向K,V；左下角是查询流，仅有234有红线指向K,V，而1只有红线指向Q。相信理解了上述过程的同学，看懂这张图是非常简单的～右边的俩个矩阵也很简单，上面那个是内容信息流矩阵，红点表示能看到，白点表示遮罩了（即不用），很清晰的能看到，下面的查询流，对角线全被遮罩了，因为不允许看到自己的文本信息～

至此，整套XLNet的双流自注意力机制核心部分已经全部说明白了～说实话不是特别好懂，尤其是排列语言模型的巧妙变化，还是要花点时间去理解的～但是XLNet还有一大块的更新，是来自于第二代特征提取模型Transformer-XL的，接下来我再啰嗦几句～

2.4 来自Transformer-XL的启发

Transformert-XL也是19年由CMU和谷歌大脑共同提出的，对Transformer特征提取器的升级改进版～该论文的链接在此，该论文也确实值得另开一个篇章来讲（同样也涉及了很多细节，有空了我补上）。

这里我简单提两句（细节推导还是要看原始论文），该模型最大的升级改造点有俩个，

1）Segment Recurrence Mechanism
还是从问题开始讲，假设一段文本有1000字，这个时候初代Transformer是如何对这段文本进行建模编码的？方法大致有2种，

a）对这段文本根据max_sentence_length进行分段，变为一段段的，假设每段有100个词（记为segment吧），那么我们对其建模的时候，只能是对每一个segment单独去建模（暂且不论其预测阶段很耗费时间），然后再综合每一个segment的结果，这种方法最大的问题是每一个segment之间的相关性，我们完全没有考虑进来，这对于长文本内部词之间的依赖简直是毁灭打击性的处理办法。。。

b）OK，我们不把他们分开，那么准备好足够的钱，弄一个足够大显存的GPU，对长文本一起建模，弄个序列1w之类的哈哈～开个玩笑，正常人应该是不会这么搞的～

好，那么既然以上两种办法都不能很好的解决，我们只能更新模型架构了，也就是论文中新提出的片段循环机制（你可以想想层的类RNN结构体，每一个时刻都类比是一个片段），简单理解就是把第一个segment的每一个输出，都连接到下一个segment之中，如下图所示，每一个结点的输出都与下一个segment对应位置的结点有联系（想连多个也可以）

Transformer_XL片段循环机制示意图.png

而且必须强调一下，其在预测阶段也很迅速，因为上一个词汇的信息都是会存入到cache中，而不用重新计算（初代Transformer是很蛋疼的每一次都要重新计算的。。。）

理解到了这一点，我们再来看，XLNet是怎么用这个思想的，来运用在排列语言模型中的。假设我们心中有俩个segment是从一个长序列(S)中提取出来的，记为 $\widetilde{x} = S_{1: T}$ ， $x = S_{T+1:2T}$ ，对应序列组合为 $\widetilde{z}$ ， $z$ ，当我们得到了第一个片段对于每一层的内容信息流输出 $\widetilde{h}^{(m)}$ ，接着我们预测下一个片段的时候就可以用公式，

XLNet的片段循环机制计算公式.png

其中 $[.,.]$ 就是根据纬度进行连接操作，其实也比较好懂，只要理解了片段循环机制以后，当然里面还有很多细节，这里就不一一展开了～强调一下，仅有内容信息流是会过来的，位置信息流因为记录的是其本身的位置，肯定是不会进入到下一个segment的～

2）Relative Positional Encoding
相对位置编码，其实是实现上述片段循环机制的核心要素，而XLNet中也是采用了这一种相对位置编码的方式。

我们还是先来看，这方法要解决的问题是什么。举个例子，现在有2个segment，分别是 1 2 3 | 4 5 6，另一种情况下的2个segment，分别是4 2 3 | 1 5 6。那么大家试想一下，我们初代Transformer是怎么来实现的，输入的是绝对位置信息，即1永远是在第一位（在2个片段中都是第一位），那么对于5而言，其第一种情况和第二种情况，在计算15的attention的时候，是不是就是一样了呢？（位置一样，内容一样），但这显然是不合理，因为第一种情况的1远比第二种情况的1离5要远，其计算得出的值显然是不相等的，因此，采用原有的绝对位置编码的方式肯定是错的～因此，对应的相对位置的编码信息就变的很好理解了，我们要输入的其实是15真正的位置的偏差，比如第一种情况差了3个位，第二种情况是相邻的（差0）。所以相对位置编码的核心思想，其实就是为了适应片段循环机制而改造出来的～基本上，我觉得了解到这一步，就可以了，具体的细节推导，大家可以看一下原始论文，限于篇幅，我就不具体展开了～也可以参考这篇，还附带了源码分析～写的很明白了～

至此，整一套XLNet的核心部分已经全部讲完了！能坚持并完全看懂到这的同学，应该也是收获满满了～其他一些小的优化细节和结果屠榜的细节我觉得很简单，而且对于理解XLNet本身也不是很重要，这里就没有再细说了，总之我觉得核心思路是一定要掌握的～毕竟这也是NLP领域的一个小小里程碑啊～！！！

------------------第三菇 - 总结------------------

3.1 总结

到这里，整篇论文的核心思想及其创新点已经说清楚了。本论文主要集中在于阐述XLNet的核心思想，并且解释了如何实现整一套XLNet，附上了详实的对比实验，来验证模型的可行性。

简单总结一下本文就是先罗列了一下该论文的摘要，再具体介绍了一下自己对XLNet的理解，以及详细解释了一些XLNet涉及的训练方法并举例详细说明了很多容易懵逼的地方，希望能帮到大家，也有助于自己复习。总的来说，谷歌这篇论文也是一个小小的里程碑。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出，多多交流，大家一起进步～😁

参考文献：
【1】https://fancyerii.github.io/2019/06/30/xlnet-theory/

最后编辑于：2020.02.10 17:50:56

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,847评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,208评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,587评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,942评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,332评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,587评论 1赞 218
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,853评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,568评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,273评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,542评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,033评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,373评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,031评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,073评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,830评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,628评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,537评论 2赞 269