Rethingking The Value of Network Pruning

背景

加速卷积神经网络的方法主要可以分三个方面：1. 针对卷积操作优化，例如使用FFT实现卷积操作；2. 量化操作，例如网络的二值化（BinaryNet）；3. 在结构上简化，使模型变小。在结构上简化模型也可以分三类：张量分解、连接稀疏化，基于通道的裁枝。首先张量分解是将张量分解成多个小张量，但是输出的通道数并没有变化，因此对于1*1的卷积层很难通过张量分解的方法做压缩，而当前很多模型结构都用到了大量的1*1卷积（例如ResNet，GoogleNet，Xception等）。其次连接稀疏化是将两层之间的连接变稀疏，但是这种稀疏化处理通常是没有固定模式规律的，所以尽管理论上有很高的加速效果，但是实际实现很复杂，因为通过稀疏化处理，数据无法再通过原来的张量存储，需要使用稀疏矩阵/稀疏张量来存储，那么卷积操作也变成稀疏卷积。最后相比于前两种方法，基于通道的裁枝既可以减少通道数，又不会改变数据的存储方式，因此其对于CPU和GPU都有很好的加速效果，同时也不需要实现特殊的卷积操作。

模型压缩的典型工作：

Low-rank Decomposition 低秩分解：

使用SVD等技术来近似于权重矩阵（它具有低秩矩阵）。

在全连接层上工作很好，但CNN的计算量主要在卷积层。

Weight Quantization 量化权值：

如HashNet量化网络权值（采用共享权重和哈希索引大大节省存储空间）

但不能节省运行时间（因为权重还需要恢复从而进行网络推理inference）

二值化是个很好的方法（或用三值化{-1,0,1}）。

Weight Pruning/Sparsifying 权重修剪或稀疏：

有论文将训练好的网络里的小权值修剪掉（即设为0），这样也可以用稀疏格式储存权值。

但是需要专用的稀疏矩阵运算库或特殊硬件来加速，且运行内存也没有减少。

Structured Pruning/Sparsifying 结构修剪或稀疏化：

有提出在训练好的网络中，修剪那些较小权值连接的Channel，再微调网络恢复精度方法的论文

有提出在训练前随机停用channel从而引入稀疏，有提出neuron-level的稀疏方法从而修剪神经元获得紧凑网络，也有提出结构化稀疏学习（SSL）的方法，去稀疏CNN不同层级的结构（filters、channels、layers）。

Neural Architecture Learning （NAS）神经结构学习：

有关于自动学习网络结构的方法，如谷歌通过强化学习来搜寻最佳网络结构，或者其他的给定巨大网络结构，从中学习出最佳子图网络。

但是资源消耗太大，时间太长。

摘要

传统的模型剪枝思路：训练一个冗余模型+剪枝+微调，剪枝的意义在于保留重要的权重，裁剪冗余的权重，以此尽可能保证准确率。实际上，对于所有STOA的模型结构剪枝算法，微调一个剪枝后的模型相比于从头训练一个剪枝候的模型，结果不会更好，甚至更差。意思就是说，剪枝之后保留的权重相比于剪枝之后网络模型的结构，并不那么重要，或者说，Network Pruning更多地是在进行网络结构的搜索。根据实验观察，本文发现：1、训练一个大的参数冗余的模型并不是必要的；2、保留对于大网络重要的权重对于小模型而言并不那么重要；3、剪枝之后的网络结构本身而非保留的权重对于最后模型的有效性更为重要。

介绍

传统剪枝的两点共识：

1、训练一个效果优良的大模型很重要，以此保证高准确率；

2、剪枝之后的模型结构和保留的权重都很重要，因此是fine-tuning而非train from scratch

本文认为在进行结构剪枝（structured pruning method）（在卷积通道上进行剪枝）上述两个共识可能并不是必须的。

两个观察：

1、对于预先定义（predefined）目标模型的结构剪枝，直接从头训练剪枝模型不比微调剪枝之后的模型效果差，甚至更好；

2、对于事先不知道（auto-discover）目标模型的结构剪枝，从头训练也不比微调的结果差，甚至更好。

意思是说结构比参数重要，模型剪枝可能本质就在做网络结构的搜索。此外，从参数冗余的大模型继承权重参数似乎并不是那么好，可能让剪枝之后的模型陷入局部优化。

对于非结构化的网络剪枝（unstructured，weight level），在小数据集上从头训练往往与微调剪枝模型效果相当，但是在大数据集上不是如此。

从头训练有两种方式：

剪枝模型与大模型训练同样的轮数显然不公平，因为剪枝模型一轮训练的计算量明显远低于大模型。

因此，一种方法是使得训练大模型和训练小模型的总体计算量是相同的（FLOPs），换言之，剪枝降低了几倍的计算量，训练轮数就是训练大模型的几倍，称之为Scratch-B。另外一种的使得训练剪枝模型的轮数跟训练大模型一样，称之为Scratch-E。

剪枝方法

Predefined Structured Pruning

L1-norm based Filter Pruning

以往一些剪枝的操作主要是减少了全连接层的参数，全连接层的参数量占比最多（比如VGG-16中全连接层操作参数占了90%，但计算量只占了不到1%）, 但是主要的计算量集中在卷层操作。意即对权重矩阵进行稀疏化并不能充分减少计算量。论文提出对卷积层进行剪枝操作，然后进行retrain，不会造成稀疏连接（稀疏矩阵操作需要特殊的库等来处理），全连接层可以使用平均池化层来代替以减少参数量。

pruning filters and feature maps

第 $i$ 层卷积层的输入特征图为 $h_i\times w_i\times n_i$ ，卷积核维度为 $n_{i+1}\times k\times k\times n_i$ ，单个卷积核记为 $F_{i,j}$ ，输出特征图维度为 $h_{i+1}\times w_{i+1}\times n_{i+1}$ ，总计算量为 $w_{i+1}\times h_{i+1}\times k\times k\times n_i\times n_{i+1}$ ，去除一个卷积核，将减少的计算量为 $w_{i+1}\times h_{i+1}\times k\times k\times n_i$ ，因此，如果去除 $m$ 个卷积核，将减少的计算量倍数为 $m/n_{i+1}$ 。

在单层中确定去除那些卷积核：

衡量每层中单个卷积核的相对重要性：绝对值的和（矩阵L1范数和） $\sum\vert F_{i,j}\vert$

具有较小权重的卷积核可以认为倾向于产生较小激活的特征图（相比于同层内的其他卷积核）

选择前m个最小的绝对值，删除对应的卷积核和特征图，相比于随机选择相同数量的filters和选择最大值filters的结果比较，效果更好。

算法：

对于每一个filter matrix按列绝对值求和

对求和结果排序

裁剪掉m个绝对值最小的filters，以及对应的输出，它又是下一层的输入，所以也得去掉下一层卷积核的对应通道

剩余的kernel weights保留

决定每层对剪枝的敏感性：

每一卷积层进行单独剪枝，查看在validation set上准确度的变化，对于VGG-16，一些卷积层的卷积核数量是一样的，所以对于敏感度差不多的卷积层，使用相同的比例进行剪枝，而对于敏感度比较大的层，选择最小的比例进行剪枝或者不进行剪枝。

跨越多层的剪枝：

之前的一些剪枝策略是逐层剪枝，然后进行retraining，但是这样是非常耗时的。

两种策略

独立剪枝：就是每一层是独立的，当剪枝层的输入特征图通道减少，决定该去掉哪些卷积核时，范数的计算还是应该考虑原始卷积的所有通道，然后进行剪枝

贪心剪枝：就是考虑到上一层被剪掉的情况，当剪枝层的输入特征图通道减少，决定该去掉哪些卷积核时，范数的计算要去掉对应输入特征图减少的通道，然后进行剪枝

Retraining

剪枝之后，应该retraining（类似fine-tune）

一次性剪枝然后retrain

逐层剪枝进行retrain

第二种策略结果可能会更好，但是需要更多的epochs

ThiNet

作者主页

prune以filter（卷积核）为单位，根据该层filter的输出来判断该filter是否对结果有贡献，如果没有贡献或贡献很小，则直接把这个filter去掉，关键在于filter的选择方式，依据则是如果可以用某一层的输入的一个子集代替原来的输入得到尽可能类似原来的输出的话，那么子集以外的输入就可以去掉，则其对应的前面一层的卷积核也就可以去掉。如下图。

以去掉冗余卷积核做prune的研究还有很多，关键在于选择方式，比如计算filter的绝对值和，认为如果一个filter的绝对值和比较小，说明该卷积核并不重要，这种算法暂且叫Weight sum；还有计算激活层输出的feature map的值的稀疏程度，如果feature map的值很稀疏，也就是大部分值是0，那么该feature map对应的filter也是冗余的，可以去掉，这种算法暂且叫APoZ（Average Percentage of Zeros）。

ThiNet的示意图

Filter selection：
不同于一些方法：用第 $i$ 层的数据来指导剪枝第 $i$ 层的卷积核，本文使用第 $i+1$ 层来确定第 $i$ 层的剪枝，如前所述：

如果能用第 $i+1$ 层的输入的某一子集来估计该层的输出，那么输入中的其他通道就可以被去掉，而第 $i+1$ 层的输入来源于第 $i$ 层的输出，那么对应第 $i$ 层的卷积核就可以去掉。

Pruning：

同时去掉第 $i+1$ 层输入的weak channel，和与其对应的第 $i$ 层的卷积核，网络结构不变，只是变瘦了。

Finetuning：

当对每一层做prune后，都fine-tune1到2个epoch，然后等所有层都prune后，再fine-tune多个epoch。

因此整体上就是上述三步迭代应用到每一层上，依次对每一层做prune。

Data-drive channel election：

将一个卷积操作定义为： $<I_i,W_i,*>$ ， $I_i$ 表示输入特征图，维度为 $H\times W\times C$ ， $W_i$ 表示卷积核，维度为 $D\times C\times H\times W$

目标是移除一些不太重要的卷积核 $C\times H\times W$ ，而由于第 $i+1$ 层的卷积核数量没变，因此第 $i+1$ 层的输出的维度是不变的，意即第 $i+2$ 层的输入 $I_{i+2}$ 不变，根据这样的想法，就可以移除第 $i$ 层中对 $I_{i+2}$ 影响很小的那些卷积核，这样对整个网络的性能影响也很小。换句话说，就是最小化 $I_{i+2}$ 的重构损失。

Collecting training examples

从 $I_{i+2}$ 上任意取一位置分量 $y$ ，有：

逐通道的卷积结果

意即可以寻找一个子集 $S\subset (1,2,...C)$ ，使得：

贪心算法：给定输入 $(\hat{x}_i,\hat{y} _i )$ ，优化：

r表示压缩率

m是图像数量和位置数量的乘积。

由于 $S$ 包含channel较多，因此求解速度会很慢，因此定义另一个集合 $T$ ，集合 $T$ 所包含的channel要少于 $S$ ，满足：

T是S相对于全集的补集

则优化下式：

优化目标

对于ResNet这样的网络，在每一个stage的每一个block中一般有三层卷积，其中最后一层卷积的结果需要和skip connection的结果做element-wise product，这样的话就得保证该block的最后一层卷积的输出channel个数和skip connection的输出channel个数一样。因此在文中采用只对一个block的前两层卷积做prune，而不动最后一个卷积层，如下图Figure3。另外对于VGG-16网络，由于前面10层卷积占据了90%的计算量，而全连接层又占据了86%的参数，因此作者采用对前面10层卷积层进行prune，达到加速目的，另外将所有全连接层用一个global average pooling层代替。

Regression based Feature Reconstruction

Channel Pruning for Accelerating Very Deep Neural Networks

对于一个训练好的模型，本文方法通过一个2步迭代的算法逐层裁枝，优化函数是LASSO回归和最小二乘法重建误差。

与ThiNet类似，本文不去考虑单个参数的重要性，而是直接最小化输出特征图的重建误差，逐层地做裁枝，为了降低特征图B的通道，通过最小化特征图C的重构误差得到。

最小化C的重构误差

第一步是选择通道，第二步是特征图重建，目的是最小化重建误差，本文提出两步迭代的算法：首先选取最具代表性的通道，即裁剪B层到C层的卷积；其次重建特征图，调整B层到C层的参数W，使C层特征图重建误差最小。迭代交替进行以上两步。通过基于LASSO回归的方法来找到最具代表性的通道。

假设特征图B到特征图C的卷积表示为 $n\times c\times k_h\times k_w$ ，特征图B $X:N\times H_{in}\times W_{in}\times c$ ，特征图C $N\times H_{out}\times W_{out}\times n$ ， $N$ 表示batch_size，将特征图B的通道由 $c$ 降为 $c^{’}$

优化目标

$||\beta ||_0$ 表示非零项数， $\beta_i$ 是向量 $\beta$ 的分量，为0就表示对应通道被去掉， $X_i:N\times k_h\times k_w$ ， $W_i:n\times k_h\times k_w$ 都表示单通道的特征图/卷积核。但由于上式中的约束条件是0-范数，属于 $l_0$ 优化问题，求解为NP难问题，因此进一步将0-范数放宽到1-范数，得优化函数为：

选择通道：

固定参数 $W$ 不变，求解 $\beta$ ，则上述优化问题可以进一步转化为LASSO回归问题：

$Z_i=X_iW_i^T(N*n)$ ，上式可以通过SGD方法找到最优解，是比较常见的优化问题。

重构特征图：

固定 $\beta$ 不变，上式可以转化为最小二乘估计问题：

最小二乘估计问题同样为常见的优化问题，也可以利用SGD的方法得到最优解，最后做出调整，保证范数为1：

对多分支网络进行剪枝：

对ResNet进行剪枝

在裁剪第一个卷积时，并不删掉其输入特征图的通道，而是新加一层采样层（其用处就是对输入特征图按 $\beta$ 来进行采样，同时保留了原本的输入特征图作为shortcut的输入），对于残差块的第一个卷积层的输入进行通道采样，估计 $Y_1+Y_2$ 的重构误差。

Automatic Structured Pruning

Network Slimming

利用batch normalization中的缩放因子 $\gamma$ 作为重要性因子，即 $\gamma$ 越小，所对应的channel就不太重要，就可以裁剪（pruning）

对BN层中的scale factor $\gamma$ 进行L1正则化，使其变得稀疏。

剪枝思路

BN：

$\hat{z}=\frac{z_{in}-\mu_B}{\sqrt{\sigma _B^2+\varepsilon } } ,z_{out}=\gamma \hat{z} +\beta$

直接用 $\gamma$ 来评估channel的重要程度。 $\gamma$ 的数越小，说明该channel的信息越不重要，也就可以删减掉该Channel。

为什么不用 $\beta$ 作为重要性因子？

feature map的信息量是来源于方差而非均值。方差越大则该feature map内的特征就越明显。

$z_{out }$ 服从分布 $N(\beta ,\gamma ^2)$ ，因此方差越小，信息量就越少，就越不重要

某些通道特征图的方差越小，意即对下一层特征图的所有单元的贡献值越平均，将其去掉，仅仅只是做了特征评议，不影响相对差异

因此对BN的缩放因子添加smooth L1正则化（不是Fast R-CNN中的smooth L1 Loss），损失函数定义为：

损失函数

训练方法为：

训练方法

第一步：初始化网络；

第二步：加入Channel稀疏惩罚项，训练网络；

第三步：通过固定阈值来删减channel，如删减70%的channel；

第四步：Fine-tune。由于删减channel后精度会下降，故再训练去微调网络；

第五步：可以再跳到第二步，实现多次精简网络；

第六步：得到精简后的网络。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,847评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,208评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,587评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,942评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,332评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,587评论 1赞 218
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,853评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,568评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,273评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,542评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,033评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,373评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,031评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,073评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,830评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,628评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,537评论 2赞 269

Rethingking The Value of Network Pruning

背景

摘要

介绍

剪枝方法

推荐阅读更多精彩内容