语义表示模型新方向《DistillBert》

从应用落地的角度来说,bert虽然效果好,但有一个短板就是预训练模型太大,预测时间在平均在300ms以上(一条数据),无法满足业务需求。知识蒸馏是在较低成本下有效提升预测速度的方法。最近在看知识蒸馏方面的内容,对《DistillBert》做个简单的介绍。

提纲

1. Bert后演化的趋势

2.知识蒸馏基本原理

3.《DistillBert》详解

4. 后话

一、Bert后演化的趋势

Bert后,语义表示的基本框架已确定,后续大多模型以提升精度、提升速度来做。基本以知识蒸馏、提升算力、多任务学习、网络结构优化四个方向来做。

如何提升速度?

invida发布transformer op,底层算子做fuse。

知识蒸馏,以distillBert和tinyBert为代表。

神经网络优化技巧。prune来裁剪多余的网络节点,混合精度(fp32和fp16混合来降低计算精度从而实现速度的提升)

如何提升精度?

增强算力。roberta

改进网络。xlnet,利用transformer-xl。

多任务学习(ensemble)。微软发布的mk-dnn

二、知识蒸馏的基本原理

    知识蒸馏是从算法层面提速的有效方式,是趋势之一。知识蒸馏从hinton大神14年《Distilling the Knowledge in a Neural Network》这篇paper而来。

    定义两个网络,一个teacher model,一个student model。teacher model是预训练出来的大模型,teacher model eval结果出来的softlabel作为student model学习的一部分。student model的学习目标由soft label和hard label组成。

    其中有个核心的问题,为什么要用soft label呢?因为作者认为softlabel中包含有hard label中没有信息,也就是样本的概率信息,可以达到泛化的效果。

    细节参考这篇博文:https://blog.csdn.net/nature553863/article/details/80568658

三、DistillBert

DistillBert的网络结构:

student model的网络结果与teacher model也就是bert的网络结构基本一致。主要包含如下改动:

每2层中去掉一层。。作者调研后结果是隐藏层维度的变化比层数的变化对计算性能的影响较小,所以只改变了层数,把计算层数减小到原来的一半。

去掉了token type embedding和pooler。

每一层加了初始化,每一层的初始化为teacher model的参数。

2. 三个损失函数:

(1)Lce损失函数

      Lce损失函数为Teacher model的soft label的损失函数,Teacher model的logits ti/T(T 为温度),通过softmax计算输出得到teacher的概率分布,与student model logits si/T(T为温度),通过softmax计算输出得到student的概率分布,最后计算两个概率分布的KL散度。

(2)Lmlm损失函数

      Lmlm损失函数为hard label的损失函数,是bert 的masked language model的损失函数。

(3)Lcos损失函数

      计算teacher hidden state和student hidden state的余弦相似度。官方代码用的是:nn.CosineEmbeddingLoss。

整体计算公式为:   

Loss= 5.0*Lce+2.0* Lmlm+1.0* Lcos

3. 参数配置

training阶段:计算8个卡,16GB,V100的GPU机器,90个小时

性能: DistilBERT 比Bert快71%,训练参数为207 MB 。

四、实验结果

DistillBert在GLUE数据集上的表现

下图为Ablation test的结果,可以看出Lce、Lcos、参数初始化为结果影响较大。

五、后话

    知识蒸馏本质是什么?  个人理解,其实知识蒸馏实际相当于引入先验概率(prior knowledge), soft label即是网络输入的先验概率,soft label与真实世界的事物类似,呈各种概率分布。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,333评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,812评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,016评论 0 246
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,293评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,650评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,788评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,003评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,741评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,462评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,681评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,168评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,528评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,169评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,119评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,902评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,846评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,719评论 2 274

推荐阅读更多精彩内容