R-CNN文章详细解读

这是13年的文章《Rich feature hierarchies for accurate object detection and semantic segmentation》，网上虽然很多文章写过，但是有些很乱，有些不详细，自己也花了不少时间看原文和各种博客，想写篇详细的自己记录下并分享出来。

先介绍几个物体检测的相关知识

不同于分类问题，物体检测可能会存在多个检测目标，这不仅需要我们判别出各个物体的类别，而且还要准确定位出物体的位置

下面图片上有猫，有狗，还有小黄鸭，这是多物体检测:

1.png

物体检测算法常用到的概念

下面我们讲解一下在物体检测算法中常用到的几个概念：Bbox，IoU，非极大值抑制。

Bounding Box(bbox)

bbox是包含物体的最小矩形，该物体应在最小矩形内部，如上图红色框蓝色框和绿色框。

物体检测中关于物体位置的信息输出是一组(x,y,w,h)数据，其中x,y代表着bbox的左上角(或者其他固定点，可自定义)，对应的w,h表示bbox的宽和高.一组(x,y,w,h)可以唯一的确定一个定位框。

Intersection over Union(IoU)

对于两个区域R和R′,则两个区域的重叠程度overlap计算如下:
O(R,R′)=|R∩R′|/|R∪R′|

2.png

在训练网络的时候，我们常依据侯选区域和标定区域的IoU值来确定正负样本。

非极大值抑制(Non-Maximum Suppression又称NMS)
非极大值抑制(NMS)可以看做是局部最大值的搜索问题，NMS是许多计算机视觉算法的部分。如何设计高效的NMS算法对许多应用是十分关键的，例如视频跟踪、数据挖掘、3D重建、物体识别以及纹理分析等。

这里我们主要针对非极大值抑制在物体检测上的应用，非极大值抑制就是把不是极大值的抑制掉，在物体检测上，就是对一个目标有多个标定框，使用极大值抑制算法滤掉多余的标定框。

下图一个小猫有多个红框标定：

3.png

使用非极大值抑制算法后:

4.png

介绍完上面的一些基础知识后开始正式介绍R-CNN

下图标为slow R-CNN是因为这图是介绍fast rcnn的ppt，所以最初的R-CNN叫作slow R-CNN

5.png

6.png

如上图所示，R-CNN这个物体检查系统可以大致分为四步进行：
1.获取输入图像
2.提取约2000个候选区域
3.将候选区域分别输入CNN网络（这里需要将候选图片进行缩放）
4.将CNN的输出输入SVM中进行类别的判定

上述四个步骤是一个大致的过程，而且是一个检测的过程，实际上训练过程比较麻烦，下面开始详细介绍。

一、候选区域的提取

这部分有很多传统的方法可以选择，本文为了和之前的物体检测算法进行对比，选择了selective search方法

二、缩放候选区域

因为CNN对输入图像的大小有限制，所以在将候选区域输入CNN网络之前，要将候选区域进行固定尺寸的缩放。
缩放分为两大类（该部分在原文附录A）：

1）各向同性缩放，长宽放缩相同的倍数

tightest square with context：
把region proposal的边界进行扩展延伸成正方形，灰色部分用原始图片中的相应像素填补，如下图(B)所示
tightest square without context：
把region proposal的边界进行扩展延伸成正方形，灰色部分不填补，如下图(C)所示

2）各向异性缩放, 长宽放缩的倍数不同
不管图片是否扭曲，长宽缩放的比例可能不一样，直接将长宽缩放到227*227，如下图(D)所示

7.png

在放缩之前，作者考虑，在region proposal周围补额外的原始图片像素（pad p）。上图中，第一层p=0，第二层p=16。

最后试验发现，采用各向异性缩放并且p=16的时候效果最好。

三、测试方法

测试时其实分两个结果
1.分类
在测试的时候，先对带检测图像提取出约2000个候选区域，将每个区域都进行缩放，然后将缩放后的图片输入CNN进行特征提取，对CNN输出的特征用SVM进行打分(每类都有一个SVM，21类就有21个SVM分类器)，对打好分的区域使用NMS即非极大抑制(每类都单独使用)。

这里SVM怎么打分的这些细节没有细讲，只是简单的说检测的时候使用20004096维度的特征矩阵与4096N的SVM参数矩阵相乘(N为所要分的类别数)，我也没看过原码，所以也不太清楚，知道的可以讨论一下。

到这里分类就完成了，但是得到的位置只是候选区在图像中的位置，而候选区的位置并不一定就是ground truth，即检测目标的真实位置。

2.定位(回归)
将CNN对候选区域提取出的特征输入训练好的线形回归器中，得到更为精确的位置定位，具体情况会在下面训练方法中详细介绍。但要明确的是，这些回归器是按照类来训练的，即每类分类完后进行回归。

四、训练方法

1.预训练
训练的时候，文章用了个trick，他先用ILSVRC2012数据库训练Alexnet，训练的时候目标时图片分类，因为ILSVRC2012数据库没有分类的标定数据。这步称为预训练。

2.fine-tuning
这种方法也是当数据量不够的时候，常用的一种训练方式，即先用别的数据库训练网络，然后再用自己的数据库微调训练(fine-tuning)。微调期间，定义与ground truth的IoU大于0.5的候选区域为正样本，其余的为负样本。
这里训练时，网络输出要有所改变，因为分类问题，网络输出为N+1，其中N为正样本的类别数，1为背景。
对于VOC，N=20，对于ILSVRC2013, N=200。

3.目标分类
因为最终目标分类是通过SVM进行分类的，而不是通过网络框架中的softmax分类的。

下面先说一下在SVM的训练中，正负样本的定义，为什么这样定义，然后再说一下为什么不直接用softmax输出的结果而是再训练SVM来进行分类的。

1）SVM正负样本的定义，为什么fine-tuning与SVM正负样本定义不一样？
在训练SVM时，正样本为groundtruth，负样本定义为与ground truth的IoU小于0.3的候选区域为负样本，介于0.3与0.7之间的样本忽略。
fine-tuning时担心过拟合的原因，要扩大正样本的样本量，所以定义比较宽松，但是SVM是最终用于分类的分类器，而且SVM原理就是最小的距离最大化，越难分的数据越有利于SVM的训练，所以对样本的定义比较严格。

2）为什么不直接用softmax的输出结果？
因为在训练softmax的时候数据本来就不是很准确，而SVM的训练使用的是hard negative也就是样本比较严格，所以SVM效果会更好。

4.回归器训练
回归器是线性的，输入为Alexnet pool5的输出。
bbox回归认为候选区域和ground-truth之间是线性关系(因为在最后从SVM内确定出来的区域比较接近ground-truth,这里近似认为可以线性关系)

训练回归器的输入为N对值， $\{(P^i, G^i)\}_{i=1,2,...,N}$ ，分别为候选区域的框坐标和真实的框坐标，下面在不必要时省略i。这里选用的Proposal必须和Ground Truth的IoU＞0.6才算是正样本.

从候选框P到预测框 $\hat{G}$ 的基本思路如下：

因为我们在分类之后得到候选框P $(P_{x}, P_{y}, P_{w}, P_{h})$ ，其中 $P_{x}$ 和 $P_{y}$ 为候选框的中心点， $P_{w}$ 和 $P_{h}$ 为候选框的宽高，下面介绍中所有框的定位都用这种定义，即x和y表示中心点坐标，w和h表示框的宽高。知道候选框的表示，那么只要估计出出候选框与真实框的平移量和尺度缩放比例，就可以得到我们的估计框了

1）先求平移量(Δx,Δy)

Δx= $P_{w}d_{x}(P)$ , Δy= $P_{h}d_{y}(P)$

即R-CNN论文里面的:
$\hat{G_{x}}=P_{w}d_{x}(P)+P_{x}$ , $\hat{G_{y}}=P_{w}d_{y}(P)+P_{y}$

2）算尺度放缩量 $(S_{w},S_{h})$
$S_{w}=P_{w}d_{w}(P), S_{h}=P_{h}d_{h}(P)$
$\hat{G_{w}}=P_{w}exp(d_{w}(P)), \hat{G_{h}}=P_{h}exp(d_{h}(P))$

我们要学习的是 $d_{x}(P),d_{y}(P),d_{w}(P),d_{h}(P)$ 这四个变换，就可以得到估计框了。

这四个变换可以用下列公式表示：
$d_{*}(P) = w^{T}_{*}\Phi_{5}(P)$
上式中 $\Phi_{5}(P)$ 为Alexnet pool5输出的特征，所以要求 $d_{x}(P),d_{y}(P),d_{w}(P),d_{h}(P)$ 这四个变换，只需求出 $w^{T}_{*}$ 即可。

该回归器的损失函数为：
$w_{*}=\mathop{\arg\min}_{\hat{w}_{*}}\sum_{i}^{n}(t^{i}_{*}-\hat{w}^{T}_{*}\Phi_{5}(P^{i}))^2+\lambda\|\hat{w}_{*}\|^2$
上式中的 $t^{i}_{*}$ 可以通过如下公式求出：
$t_{x}=(G_{x} - P_{x})/P_{w}$
$t_{y}=(G_{y} - P_{y})/P_{h}$
$t_{w}=log(G_{w}/P_{w})$
$t_{h}=log(G_{h}/P_{h})$
所以通过输入的特征值训练，从而求出 $\hat{w}_{*}$ ，就可以得到回归器

五、参考

最后编辑于：2019.11.27 11:25:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,117评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,963评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,897评论 0赞 240
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,805评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,208评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,535评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,797评论 2赞 311
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,493评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,215评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,477评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,988评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,325评论 2赞 252
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,971评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,807评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,544评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,455评论 2赞 266