【CV论文笔记】Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet网络理解）

本文主要用于介绍何恺明大神于2015年提出的空间金字塔池化网络（SPPNet网络），该网络架构也可以当作是R-CNN加速改进版。本笔记主要为方便初学者快速入门，以及自我回顾。

论文链接：https://arxiv.org/pdf/1406.4729.pdf
源码地址：http://research.microsoft.com/en-us/um/people/kahe/

基本目录如下：

摘要
核心思想
总结

------------------第一菇 - 摘要------------------

1.1 论文摘要

现有的深度卷积神经网络都要求图像的输入是固定大小的（比如：224*224），然而这种“要求”其实都是“人为”的，且有可能会造成下游图像识别任务准确率的下降。本文提出的新的网络架构，我们采用了一种新的池化策略，“空间金字塔池化”（SPP-net）。该架构能对任意输入的图像尺度都生成固定长度的（fixed-length）的特征表达。金字塔池化对目标变形这种情况也具有很好的鲁棒性。在ImageNet 2012数据集上，我们的SPP-net相比于其他风格迥异的CNN网络架构，在准确率上有了一定的提升。

SPP-net同样能适用于目标检测领域。利用该网络架构后，我们只需对整张图片提取一次特征，然后在不同的候选区域上池化特征，来生成固定纬度的输出特征，用于后续的检测器训练。这种方法能够避免R-CNN中因重复计算图片特征而造成的资源浪费。实验表明，该方法在测试阶段，比R-CNN快了整整24-102倍，并且还同时在效果上有提升。

------------------第二菇 - 核心思想------------------

2.1 深度卷积神经网络的限制

毫无疑问，深度卷积神经网络的运用正在计算机视觉领域掀起一场新的变革。多项实验表明其效果碾压了过去多种传统图像算法，但是在训练和测试CNN网络阶段，有一个致命的问题始终存在，即：所有的CNN网络都会要求输入的图像大小是固定的（比如：224*224），这在很大程度上限制了输入的图片的大小尺度。若是一张任意大小的输入图像，想要进入到训练好的CNN中，其必要经过裁剪或缩放。而裁剪经常会错失一些图像的关键信息，缩放经常会造成图像的几何形状变化（如下图所示），最终造成整体准确率的下降。

图片预处理示意图.png

那么问题来了，为什么现在流行的CNN网络架构会要求图像的输入大小是一个定值呢？其实非常容易理解，熟悉卷积操作的同学肯定能够想到，卷积的滑动窗口其实对输入图像是没有任何限制的，因此经过多轮卷积操作得到的特征图（feature map）其大小是可以随输入图像大小任意变化的，那么问题只能是出在全连接层（FC），因为全连接层的大小我们是不能任意改变的，一旦全连接层的大小已经设定了，那倒着往前推，就让整个网络架构的输入的图像大小固定了。

了解到这一层面后，其实大家应该可以猜到本文要做的事情了，即，为了让输入的图像大小是可以任意变化的，只有在整个CNN网络架构的最后一层做一点文章了，而这也就是本文的提出的，取代FC层的SPP层（如上图下面的流程所示）。

2.2 SPPNet网络架构详解

跟着论文的节奏，我们先来看一下，图像经过一系列卷积操作以后，生成的特征图（feature map）是怎么样，

卷积操作后的特征图.png

很明显，而且上面也讨论了，卷积操作对输入图像大小无要求，而最核心重要的特征图的处理，就是SPPNet网络的关键。

我们先明确一点，SPPNet中紧跟在卷积层后的空间金字塔池化层（spatial pyramid pooling）的输入是不固定的，但是输出是固定的。之所以输出是固定的，是因为，其后面仍然是需要接FC层去做下游任务的，因此，空间金字塔池化层就是一个对特征图中的特征进一步整合处理的过程。

接下来，我们重点理解一下空间金字塔池化层的概念，直接上一张原文中的示意图，

空间金字塔池化层示意图.png

理解这张图，就需要深刻理解原文中的一句话，

“These spatial bins have sizes proportional to the image size, so the number of bins is fixed regardless of the image size.”

这里真的是好绕，一会儿spatial bins跟图片大小输入有关，一会儿number of bins又跟图片大小无关。。。第一次看的时候我也很蒙蔽，但是结合对BoW（词袋模型）和示意图的理解，我这里说明一下我对这句话的理解。

首先理解一个简单一点的，即number of bins是与图像无关的。这里的bins其实指的是最终整个池化层产生的结果是固定的，再直白一点就是，不管你那些bins是怎么得来的，但是最终输出加在一起的只要那么多。结合上图，就是，16 + 4 + 1 = 21。数字21就是bins的大小。

接着，我们再去理解spatial bins是与图片大小输入有关的。

先申明一件事情，上面的16，4，1其实就是池化得到的特征数，只不过，经过了第一层池化后得到了 $4*4$ 的特征输出，第二层池化后得到了 $2*2$ 的特征输出，第三层池化后得到了1个特征输出，所有的纬度都是256，这样他们才能拼接成一个固定大小的。

而空间金字塔池化的命名也由此而来，层层得加，每一层融合的空间信息是不一样的，自上而下，逐渐增加。试想，对于所有的池化层（并行，非串行）来说，输入的特征图大小是一样的，第三层只提炼了1个特征，是不是就可以简单理解为是全局池化了，融合的是全图的空间信息，第二层提炼出了4个特征，自然每一次只融合了1／4的空间信息。

然后我们再来理解为什么spatial bins与图像大小输入有关。因为图像大小不一致，最终得到的特征图大小就不一致，但是经过池化后的特征数量又是一致的，那只能是池化层的大小（即spatial bin）是在动态变化的。比如，

当最终的特征图是 $13*13$ 的时候，要得到 $2*2$ 的输出，池化层的大小为7，步幅为6；但是当特征图是 $10*10$ 的时候，要得到 $2*2$ 的输出，池化层的大小为5，步幅为5。所以，针对不同的特征图，我们要想得到固定数量的特征，所设计的池化核的大小就是不一样的，而池化核就是作者这里指的spatial bins。

至此，理解该架构中最难的一句话，已经解释清楚了。简单总结一下，所谓的空间金字塔池化层，就是利用多个不同大小的池化核提取出固定大小的特征数。

2.3 SPPNet网络的训练过程

当然，细心的读者也已经发现了，如果真的要在训练时候满足任意尺度，那池化核的参数也要成千上万了，这显然是不可能的，本文作者也说了，其实真正训练的时候只考虑2种纬度的，分别为 $224*224$ ， $180*180$ 的。其训练也分为2个过程，

1）首先进行单一尺寸的训练（Single-size training）：仅仅针对 $224*224$ 来设计的3个池化核的大小，如下图所示，

池化核大小.png

文中给出的解释是，先单独训练单一尺寸的能提升模型的效果～

2）然后再进行多尺寸的训练（Multi-size training）：这里作者多考虑了一种 $180*180$ 的，有一个细节就是，训练的图片不是重新裁剪的，而是直接将之前 $224*224$ 缩放过来的，目的是为了保证图片的内容是一致的，因此其后的FC层等的参数都是共享的，唯一变化的就是池化核的参数～而在训练的时候，也是一个轮次训练一种池化核参数。

值得一提的是，上面定义的尺寸也只是在训练的时候固定了图像的大小，在真正测试的时候，是可以接受任意尺寸的图像大小的（当然，也不是真的任意的，这取决于设计的池化核的区间范围）。

2.4 SPPNet网络架构的运用

SPPNet在图像分类上，取得了一定的提升，具体的展示过程，比较简单，有兴趣的同学自己看论文即可，这边重点讲一下，其在目标检测上的运用。

在那个年代（2015），R-CNN是最好的目标检测算法之一，但是其最大的弊端在于，对于其提取出的每一个候选区域框（约2000个），都需要经过一次CNN网络来提取特征，造成了大量的时间浪费，而运用SPPNet能将特征提取的操作只进行一次，从而大大提高了时效性。

我们来直接看一下论文中给出的示意架构图，

SPPNet运用于目标检测的架构图.png

一张图片只经过一次CNN网络提取特征，拿到了特征图以后，我们再根据一种映射关系（论文的附录中有介绍），从原图生成的候选框中，找到特征图上的位置，然后将特征图经过空间金字塔池化层（可接受任意大小哦～），输出的维度还是固定的，再用于后续的训练。因此，将R-CNN中的重复提取特征的操作大大简化了，自然整个效率就上去了～

具体的实验效果这边就不展开了，同样有兴趣的同学可以翻看原始论文～上面有很详细的实验过程和结论。

------------------第三菇 - 总结------------------

3.1 总结

到这里，整篇论文的核心思想已经说清楚了。本论文主要是提出了一种新的网络架构SSPNet，主要用以解决CNN网络需要固定输入图像大小的顽疾，并附以详细的实验论证过程，证明其可行性，为后续发展奠定了基础。

简单总结一下本文就是先罗列了一下该论文的摘要，再具体介绍了一下本文作者的思路，也简单表述了一下自己对SPPNet网络的理解。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出，多多交流，大家一起进步～😁

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,117评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,328评论 1赞 293
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,839评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,007评论 0赞 206
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,384评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,629评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,880评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,593评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,313评论 1赞 243
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,575评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,066评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,392评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,052评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,082评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,844评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,662评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,575评论 2赞 270