ALBert论文阅读笔记-缩减版的bert，模型参数更少，性能更好

引言

自从Bert被提出来后，后续的研究者大多基于bert进行改造，提升预训练语言模型性能，从而提高下游任务的性能。比如ERINE、BERT_WWM、MASS、MT-DNN、RoBERT等等。从GLUE榜上我们可以看到，似乎现在的语言模型有越来越大的趋势，虽然我们的训练资源也是从GPU单卡到GPU多卡，到现在TPU，但不是每个公司都这么有钱，特别对个人，有可能就是一块卡，怎么样在资源有限的情况下，玩起来这些高大上的模型了？我们知道bert的base版本12层，参数量接近110M，这样大的模型在线上部署的时候效果是怎么样的？下表是在linux环境下基于GTX 1080运行结果。

环境	序列长度	请求次数	总时间(s)	平均耗时(ms)
GPU+checkpoint	128	10000	135.6	13.56
GPU+checkpoint	12	1000	10.3	10.3
CPU+checkpoint	128	1000	212	212
CPU+checkpoint	12	1000	83	83
CPU+tfserving	128	1000	351	351

我们可以看到序列长度越短，推断时间也越短；
GPU的推断性能远大于cpu；
基于tfserving的推断，因为是基于grpc远程调用，在服务启动和调用上会带来一定的耗时。那么有没有一种压缩版的bert，可以提高线下训练和线上推断的性能呢？下面这篇论文可以提供一种解决方案。

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

Google 201909发表

1. 摘要

Bert在2018一经提出，提高了很多nlp任务的baseline，但是Bert模型参数量大，在推断资源有限的情况下，我们应该怎么样用bert这种好的预训练模型。为了解决问题，本文提出了两种参数简化的方法，加速Bert的预训练和推断；并且我们提出了一个新的自监督的loss函数，SOP学习到句子间的内部特征。我们提出的模型，参数量更小，并且在GLUE,RACE等NLP 任务上达到最佳性能。

2. Bert简介

BERT的全称是Bidirectional Encoder Representation from Transformers，是Google2018年提出的预训练模型，即双向Transformer的Encoder，这是真正基于self attention实现双向。模型的主要创新点都在预训练模型上，即用了Masked LM和Next Sentence Prediction（NSP），两种loss直接相加，优化的话可以加权相加，两种方法分别捕捉词语和句子级别的representation。

Bert一经提出，迅速火遍NLP，GLUE毫无悬念获得第一名，高于基于ELMO，gpt等语言模型的一大截，一时间打开了迁移学习两阶段的大门，第一步基于无监督的语料训练自己的MLM，然后基于自己的一些数据进行finetune，从而获得很好的效果。

3. ALBERT论文细节以及实验结果

3.1 参数缩减方法

本文提出两种模型参数缩减的方法，具体如下：

从模型角度来讲，wordPiece embedding是学习上下文独立的表征维度为E，而隐藏层embedding是学习上下文相关的表征维度为H。为了应用的方便，原始的bert的向量维度E=H，这样一旦增加了H，E也就增大了。ALBert提出向量参数分解法，将一个非常大的词汇向量矩阵分解为两个小矩阵，例如词汇量大小是V，向量维度是E，隐藏层向量为H，则原始词汇向量参数大小为V*H，ALBert想将原始embedding映射到V*E（低纬度的向量），然后映射到隐藏空间H，这样参数量从 V*H下降到V*E+E*H，参数量大大下降。但是要注意这样做的损失确保矩阵分解后的两个小矩阵的乘积损失，是一个有损的操作。
层之间参数共享。base的bert总共由12层的transformer的encoder部分组成，层参数共享方法避免了随着深度的加深带来的参数量的增大。具体的共享参数有这几种，attention参数共享、ffn残差网络参数共享。

3.2 SOP预训练任务

我们知道原始的Bert预训练的loss由两个任务组成，maskLM和NSP(Next Sentence Prediction)，maskLM通过预测mask掉的词语来实现真正的双向transformer，NSP类似于语义匹配的任务，预测句子A和句子B是否匹配，是一个二分类的任务，其中正样本从原始语料获得，负样本随机负采样。NSP任务可以提高下游任务的性能，比如句子对的关系预测。但是也有论文指出NSP任务其实可以去掉，反而可以提高性能，比如RoBert。

本文以为NSP任务相对于MLM任务太简单了，学习到的东西也有限，因此本文提出了一个新的loss，sentence-order prediction(SOP)，SOP关注于句子间的连贯性，而非句子间的匹配性。SOP正样本也是从原始语料中获得，负样本是原始语料的句子A和句子B交换顺序。举个例子说明NSP和SOP的区别，原始语料句子 A和B， NSP任务正样本是 AB，负样本是AC；SOP任务正样本是AB，负样本是BA。可以看出SOP任务更加难，学习到的东西更多了（句子内部排序）。

3.3 实验结果

本文提出了2种参数压缩的方法以及1个新的loss，下面主要对这几种方法进行实验，实验结果如下：

下图2展示了BERT-large和ALBERT-large两个模型的输入和输出embedding的L2以及余弦距离，我们可以看出ALBERT模型的距离比BERT模型
更层距离更加平滑，这说明权重共享有助于稳定网络的参数。

dis_layers.png

其中BERT和ALBERT模型的参数配置如下，我们可以看到当减小embedding的维度以及使用了参数共享的方法，模型的参数量大大减小。

param_sharing_result.png

Bert和ALBert的模型性能比较如下，我们可以看到总体来说，ALBERT的性能优于Bert，并且参数量较小接近5倍，性能也是最优的。

model_result.png

4. 总结与问题

本文提出了2种模型参数压缩的方法，即embedding矩阵分解法以及层参数共享法，并通过实验证明词方法的有效性；
同时本文也提出了一个新的预训练任务，SOP，是一个比NSP任务更难并且学习到的东西更多的任务，可以学习到句子内部的顺序。
通过实验证明了这3个创新方案的有效性，目前排在GLUE排行榜第一名。

几个思考问题如下：

论文提及到下游任务性能提高，并且参数量大大减小，训练速度也极大提高，推断速度是不是也是同步的提高，这是需要实验证明；
论文采用矩阵分解来将大矩阵变成两个小矩阵，是不是也会带来损失；

参考文献

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations