论文学习22“Fully Convolutional Networks for Semantic Segmentation”

《Fully Convolutional Networks for Semantic Segmentation》是CVPR2015年的best paper，作者来自于加州伯克利，主要关注点是图像分割。在准备上一次组会分享的paper的时候，看到u-net系统就是用的FCN全卷积网络，所以找到了这篇paper，来看看FCN 的厉害之处。

背景：

CNN近年来发展迅速，在图像领域更是主流方法，驱动着物体检测、关键点检测等的发展，但CNN对于图像语义分割却在时间和精度方面都表现不好。本文提出了全卷积网络(FCN)的概念，针对语义分割训练一个端到端，点对点的网络，达到了state-of-the-art。这是第一次训练端到端的FCN，用于像素级的预测；也是第一次用监督预训练的方法训练FCN。

FCN的提升地方主要是三个技术：卷积化、上采样和跳跃结构。

卷积化就是FCN把CNN最后的全连接换成了卷积网络。将分类网络变化成热图的输出，并且能够实现任意大小图像输入得到指定输出结果。原始的CNN网络最后的全连接输出的是一个一维的结果，这对于普通的分类需求可能没有影响，但是对于图像语义分割，我们需要输出一个多维结果，至少是二维的，所以我们将全连接层换成卷积层，使得最后输出高维结果，这就是卷积化。

针对于图像在经过下采样后怎样回到原始图像大小，作者尝试了三种方法：Shift-and-stitch即稀疏滤波，反卷积和patchwise训练。经过比较，我们选择了反卷积。上采样就是反卷积层，如上图的heatmap即是上采样的结果，在典型的CNN结构中,如AlexNet,VGGNET均是使用池化层来缩小输出图片的大小，而对于我们的图像语义分割需要得到一个和原图像一样大小的分割图，所以对池化后的图像进行反卷积。本文所选择的反卷积方法是双线性插入。

我们将经过卷积化和上采样的模型分别在AlexNet，VGG16或者GoogleNet进行实验，实验结果如下图所示。

结果表明：对比3种性能较好的CNN：AlexNet, VGG16, GoogLeNet进行实验，结果显示VGG16最优。但直接反卷积得到的分割结果并不理想，因为池化层数多了影响图像分辨度，所以FCN引入了跳跃结构。

跳跃结构如下图所示，只对最后一层上采样得到的结果并不尽如人意，所以我们将不同池化层进行上采样，结合起来提升最后的结果，下图有结果对比。

就拿FCN-16S来解释，如下图所示，一个原始图像大小经过5层pool图像变成原始图像大小的32分之一，首先conv7先经过一个2倍步长的上采样成为原始图像的16分之一大小，就和pool4层的输出大小一样，我们将pool4的输出和2倍步长上采样的图像fusion，然后进行一个16倍步长的上采样恢复到原图大小。

用PASCAL VOC 2011数据集，在VGG16网络，分别进行FCN-32s-fixed，FCN-32s，FCN-16s，FCN-8s的试验。FCN-32s-fixed是指不属于端对端的学习方式，即只对最后一层进行finetune。结果如下图所示：

结果表明：对比FCN-32s-fixed, FCN-32s, FCN-16s, FCN-8s，证明最好的dense prediction组合是8s，在8s的时候我们的结果已经达到一个峰值；作者分别用FCN-8s在PASCAL VOC 2011和2012的上进行测试，并将其与先前的最新的SDS和著名的R-CNN进行比较。结果如下图所示：

试验表明作者的FCN-8s在性能上相比较当前最优的SDS提升了20%，而训练时间却减少了114倍，足以看出作者方法的精妙之处。

作者在NYUDv2上进行试验，NYUDv2是使用Microsoft Kinect收集的RGB-D数据集。它具有1449个RGB-D图像，其中像素标签已经被合并成40个类别的语义分割任务，其中795幅图像作为训练集，654幅图像作为测试集。下图给出了模型在几个不同变化中的改变。首先训练FCN-32s在RGB中的结果，然后RGB结合深度信息得到RGBD进行训练，接着用三维深度编码HHA进行训练，结果不尽如人意，但我们将RGB和HHA进行“后期融合”（就是把最后一层结果累加，得到预测值）效果提升明显，然后将FCN-32s改成FCN-16s效果更好。

结果表明：FCN-32s和FCN-16s在RGB-D和HHA的图像数据集上，优于state-of-the-art。

作者接着又在SIFT Flow数据集下实验，和目前较为先进的模型的比较：

FCN有两大明显的优点：一是可以接受任意大小的输入图像，而不用要求所有的训练图像和测试图像具有同样的尺寸。二是更加高效，因为避免了由于使用像素块而带来的重复存储和计算卷积的问题。

同时FCN的缺点也比较明显：一是得到的结果还是不够精细。进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。二是对各个像素进行分类，没有充分考虑像素与像素之间的关系，忽略了在通常的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺乏空间一致性。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271

论文学习22“Fully Convolutional Networks for Semantic Segmentation”

推荐阅读更多精彩内容