【CV论文笔记】Fully Convolutional Networks for Semantic Segmentation（全卷积网络理解）

本文主要用于介绍大神Jonathan Long于2015年提出的全卷积网络，该网络也是深度学习应用于图像语义分割的入门代表作（毕竟是多达万次的引用量）。本笔记主要为方便初学者快速入门，以及自我回顾。

论文链接：https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf
Github地址：https://github.com/shelhamer/fcn.berkeleyvision.org

基本目录如下：

摘要
核心思想
总结

------------------第一菇 - 摘要------------------

1.1 论文摘要

卷积神经网络是一种能够提炼多层特征的肉眼可见的强大模型。本文提出了一种仅利用卷积本身，并且是能够端到端训练的，像素级别的语义分割模型，并且该模型表现超过了当时（2015年）的主流模型。本文的核心点就在于“全卷积”网络的提出，该网络的输入图片可以是任意大小的，然后通过一系列的推理学习，再输出同样的大小的图片。我们在文中清晰具体的定义了全卷积网络是如何适用于类似语义分割这样的spatially dense (空间密集型）预测任务的。我们同时还将全卷积网络与与之前的主流模型（包括AlexNet, VGGNet, GoogLeNet等）建立起关联，通过微调之前的模型，将其改进适用于语义分割任务。我们还通过设计跳级结构（skip architecture）来融合了粗粒度和细粒度的特征信息来提高模型的精度。最终，实验表明我们的模型表现优良，同时所需的推理时间也少于0.2秒／图。

------------------第二菇 - 核心思想------------------

2.1 全卷积网络

我们废话不多说，直戳本文核心，全卷积网络。
我们先看这个网络是什么，再去探讨为什么要这么做～

2.1.1 全卷积网络到底是什么？

其实关于这个网络，论文中一句话就已很简单的表明了其核心思想，

However, these fully connected layers can also be viewed as convolutions with kernels that cover their entire input regions.

即，只要将卷积层的滤波器的尺寸设置为和输入数据体的尺寸一致，就可以将一个全连接层转化为卷积层！

举个例子，一个 $K = 4096$ 的全连接层，输入数据体的尺寸为 $7*7*512$ ，这个全连接层可以被等效的看作一个 $F = 7, P = 0, S = 1, K = 4096$ 的卷积层（滤波器与输入尺寸一致），因此就只有一个单独的深度列覆盖并滑过输入数据体，输出自然就变为了 $1*1*4096$ ，该结果与一开始用的全连接层效果是等价的～（大家可以思考一下，此等替换过后，参数的数量是否有变化😖）

因此，根据上述转换，作者就将利用卷积层替换最后全连接层的网络，定义为全卷积网络（以下简称FCN）（因其只含有卷积层而得名），如下图，就是作者在文中的图示（改自AlexNet），

全卷积网络.png

2.1.2 为什么需要FCN？

不扯太多语义分割的历史，我们直接上结论，传统的利用CNN做的像素级别分类大体上弊端有，

存储开销太大，每次滑动窗口中的图像块都要扔进模型中进行识别，随着滑动窗口的次数和大小增加，所需存储的空间都会急剧上升！
计算效率低下，相邻的像素块基本上是重复的，而对每个像素块都需要进行卷积操作，其特征的提取操作自然有很多都是重复的！
像素块的大小限制了感知区域的大小，像素块永远都只能是图像的一部分，只能提取一部分局部特征，其最终的性能自然也会受影响！

而转换为FCN后，上述弊端都将得到不同程度的规避。

举例来说（上述图示的模型结构），

本来（即传统方法）我们想让 $224*224$ 尺寸的浮窗（即滑动窗口），以步长为 $32$ 在 $384*384$ 的图片上滑动，把每个经停的位置都要输入到模型中去识别判断，最后得到 $6*6（(384 - 224)/32 + 1）$ 个位置的类别得分。

那么现在（即转为全卷积后），假如 $224*224$ 的输入图片经过卷积层和下采样层之后得到 $7*7*512$ ，那么我们的原图输入 $384*384$ 同样的卷积层和下采样层后，得到 $12*12*512$ ，而此时我们已经用卷积层替换了全连接层，最终经过3个卷积层，我们得到 $6*6*1000 （(12 - 7)/1 + 1 = 6）$ ，而这个结果正好就是传统方法中的浮窗经停的 $6*6$ 个位置的得分！

上述的这个例子，已经清楚的说明了一件事情，即：面对384×384的图像，让（含全连接层）的初始卷积神经网络以32像素的步长独立对图像中的224×224块进行多次评价，其效果和使用把全连接层变换为卷积层后的卷积神经网络进行一次前向传播是一样的【1】

还有一件事情值得一提，即FCN的输入图片可以是任意大小的！而传统的CNN却不可以，因为传统的CNN在进入全连接层时，feature map （假设大小为 $n*n$ ）要拉成一条向量，而向量中每个元素（ $n*n$ ）作为一个结点都要与下一个层的所有结点全连接，因此其权值个数已经是固定的了，即最后一层feature map的大小是固定了，那么层层前推，自然输入大小也是固定的了～而FCN由于没有全连接层了，自然也无需固定输入图像的大小～

2.2 模型架构

看到这里，想必大家已经对全卷积网络有了一个直观的概念，在介绍论文的模型图之前，我还是贴一张比较简单的图【1】如下，以便大家后续理解，

端到端像素级预测网络结构.png

可以看到，经过多次的卷积和池化操作以后，我们所得到的图像越来越小，分辨率越来越低，其中图像到 $H/32*W/32$ 时是图片最小的一层，所产生的图就叫做热图（heatmap），注意区分与特征图（featuremap）的概念！那为了得到图像中每一个像素的类别，我们就需要对该热图进行上采样（upsampling），把图像放大到原图像的大小！上采样的方法有很多，文中采用的是反卷积（deconvolution）的方法，最终得到原图的大小，再逐像素计算Loss！理解了上图以后，就好办了，我们直接上原论文中的模型架构图，

模型架构图.png

其实该图非常好理解，我们先看第一行，里面有5个pool，因此conv7（6-7均为卷积层了已经）的热图已经是原始图的1/32，因此对应上采样后应该放大32倍（即图中32x），十分的直观，作者称其为FCN-32s，但实验发现其精度不大行，因此，由提出了一种跳级链接结构，即将conv7的热图与pool4出来的特征图进行合并（有说直接相加的，有说拼接的，我倾向拼接），而我们都知道，pool4是原图的1/16，因此，conv7需要先放大2倍（即图中2x conv7），这样才能保持尺度一致，之后再上采样放大16倍（即图中16x）。而第三行的解析逻辑同第二行，文中作者也贴了图，来表明其跳级结构的效果确实还可以，

实验结果.png

至此，论文中整一套用于语义分割的模型架构及思路已经梳理完了。原论文中还有很多细节是本文没有具体展开的，有兴趣的可以直接看论文～另外再盗用一下，其他博主指出的FCN的缺点总结如下【1】，

得到的结果还是不够精细。进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。
对各个像素进行分类，没有充分考虑像素与像素之间的关系。忽略了在通常的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺乏空间一致性。

------------------第三菇 - 总结------------------

3.1 总结

到这里，整篇论文的核心思想已经说清楚了。本论文主要是提出了一种用于语义分割的全卷积网络模型架构，并且通过实验论证了其可行性。而且自这篇论文发表后，现在主流模型也都采用了全卷积网络，其影响力可见一斑。

简单总结一下本文就是先罗列了一下该论文的摘要，再具体介绍了一下本文作者的思路，也简单表述了一下，自己对全卷积网络的理解。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出，多多交流，大家一起进步～😁

参考文献
【1】https://zhuanlan.zhihu.com/p/30195134
【2】http://simtalk.cn/2016/11/01/Fully-Convolutional-Networks/

最后编辑于：2020.02.20 22:34:35

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,298评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,701评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,078评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,687评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,018评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,410评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,729评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,412评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,124评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,379评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,903评论 1赞 257
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,268评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,894评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,014评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,770评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,435评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,312评论 2赞 260