Faster R-CNN：使用RPN实时目标检测

论文：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

0 背景

目标检测网络大多依靠区域生成（region proposal）算法来假设目标的位置。R-CNN 是采用 Selective Search 算法来提取(propose)可能的 RoIs(regions of interest) 区域，然后对每个提取区域采用标准 CNN 进行分类。选择性搜索（Selective Search ）方法就是在目标对象周围设定2000个形状大小位置不一的候选区域，目标物体在候选区域的可能性还是比较大的。然后对这些区域卷积，找到目标物体，虽然大多数区域都是无用的。与寻找几乎个区域比起来，这种方法要高效的多。

Fast R-CNN，不在原始图像生成备选区域，而是先整张图片通过卷积网络得到特征图，然后在特征图上使用备选区域算法得到感兴趣的区域在特征图的映射，之后使用 Rol Pool将所有区域变成同样尺寸，大大减少了这些目标检测网络的运行时间，但是区域生成的计算成为整个检测网络的瓶颈。

Faster R-CNN引入了一个区域生成网络（Region Proposal Network，RPN），该网络与检测网络共享输入图像的卷积特征，从而使接近零时间成本的区域生成成为可能。RPN是一个全卷积网络，可以同时在每个位置预测目标边界和目标分数。RPN经过端到端的训练，可以生成高质量的区域候选框，然后提供给Fast R-CNN用于检测。

1 网络结构

Faster R-CNN 由两个模块组成：第一个模块是区域生成的深度全卷积网络，第二个模块是使用备选区域的Fast R-CNN检测器。整个系统是一个单个的，统一的目标检测网络。使用最近流行的“注意力”机制的神经网络术语，RPN模块告诉Fast R-CNN模块在哪里寻找目标。

针对一张图片，需要获得的输出有：

边界框(bounding-boxes) 列表；
每个边界框的类别标签；
每个边界框和类别标签的概率

1.1 基础网络

Faster R-CNN 第一步是采用基于分类任务(如ImageNet)的 CNN 模型作为特征提取器。输入图片表示为 H × W × D 的形式，经过预训练 CNN 模型的处理，得到卷积特征图(conv feature map)。

Faster R-CNN 最早是采用在 ImageNet 训练的 ZF 和 VGG，其后出现了很多其它权重不同的网络.。如MobileNet 是一种小型效率高的网络结构，仅有 3.3M 参数；而ResNet-152 的参数量达到了 60M；新网络结构，如 DenseNet 在提高了结果的同时，降低了参数数量。

以 VGG16 为例：

VGG16 网络结构

VGG16 图片分类时，输入为 224×224×3 的张量(即，一张 224×224 像素的 RGB 图片)。网络结构最后采用 FC 层(而不是 Conv 层)得到固定长度的向量，以进行图片分类.。对最后一个卷积层的输出拉伸为1维的向量，然后送入 FC 层。官方实现中是采用的卷积层 conv5/conv5_1 的输出。

在深度上，卷积特征图对图片的所有信息进行了编码，同时保持相对于原始图片所编码 “things” 的位置。例如，如果在图片的左上角存在一个红色正方形，而且卷积层有激活响应，那么该红色正方形的信息被卷积层编码后，仍在卷积特征图的左上角。因此利用特征图检测目标所在的位置是可行的。

VGG vs ResNet

ResNet 结构逐渐取代 VGG 作为基础网络，用于提取特征。ResNet 相对于 VGG 的明显优势是，网络更大，因此具有更强的学习能力.。这对于分类任务是重要的，在目标检测中也应该如此。另外，ResNet 采用残差连接(residual connection) 和 BN (batch normalization) 使得深度模型的训练比较容易。

1.2 RPN

然后，RPN(Region Propose Network) 对提取的卷积特征图进行处理，寻找可能包含目标的预定义数量的区域(regions，边界框)。为了生成候选区域，在最后的共享卷积层输出的卷积特征图上做 3x3 卷积，卷积核共有512个（VGG），后面是ReLU，这样每个 3x3 区域会得到一个512维的特征向量。然后这个特征向量被输入到两个全连接层——一个边界框回归层（reg）和一个边界框分类层（cls）。

下面解释 k, 2k, 4k 的含义。

1.2.1 锚点（anchor）

基于深度学习的目标检测中，可能最难的问题就是生成长度不定(variable-length)的边界框列表（bounding-boxes），边界框是具有不同尺寸（sizes）和长宽比（aspect ratios ）的矩形。在构建深度神经网络时，最后的网络输出一般是固定尺寸的张量输出(采用RNN的除外)。例如，在图片分类中，网络输出是 (C, ) 的张量，C是类别标签数，张量的每个位置的标量值表示图片是类别的概率值。

在 RPN 中，通过采用 anchors（锚）来解决边界框列表长度不定的问题，即在原始图像中统一放置固定大小的参考边界框。上面说到RPN对特征图做3x3的卷积，假设每一次卷积需要预测 k 个候选区域，因此，reg层具有 4k 个输出，编码 k 个边界框的坐标，cls层输出 2k 个分数，估计每个区域是目标或是背景的概率。这 k 个区域就是被 k 个参考边界框初始化， k 个参考框就是 k 个锚点，作为第一次预测目标位置的参考 boxes。锚点的中心位于卷积核滑动窗口的中心。默认情况下每个滑动位置使用3个不同尺度（128², 256², 512²）3个不同长宽比（1:2, 1:1, 2:1）的锚点，k=9。对于大小为W×H（通常约为2400）的卷积特征图，总共有 W×H×k 个锚点。对于RPN的最后两个全连接层，参数的个数为 512×(4+2)×k.

9个锚点

不同于直接检测目标的位置，这里将问题转化为两部分。对每一个 anchor 而言：

anchor 是否包含相关的 object？
如何调整 anchor 以更好的拟合相关的 object？

有一种简单的方法来预测目标的边界框，即学习相对于参考边界框的偏移量。假设参考 box：( $x_{center}, y_{center}, height, width$ )，待预测量：( $\Delta x_{center}, \Delta y_{center}, \Delta height, \Delta width$ )，一般都是很小的值，以调整参考 box 更好的拟合所需要的。

虽然 anchors 是基于卷积特征图定义的，但最终的 anchos 是相对于原始图片的.

由于只有卷积层和 pooling 层，特征图的维度是与原始图片的尺寸成比例关系的. 即，数学地表述，如果图片尺寸 w×h，特征图的尺寸则是w/r×h/r. 其中，r 是下采样率(subsampling ratio). 如果在卷积特征图空间位置定义 anchor，则最终的图片会是由 r 像素划分的 anchors 集。在 VGG 中， r=16。

原始图片上的 Anchor Center

左：Anchors；中：单个点的 Anchor；右：全部Anchors.

1.2.2 RPN结构

RPN 输入是卷积特征图，输出图片生成的 proposals

RPN 利用所有的参考边界框(anchors)，输出一系列目标的良好的 proposals。针对每个 anchor，都有两个不同的输出：

anchor 内是某个 object 的概率。RPN 不关注于 anchor 是某个 object class，只是确定其可能是一个 object (而不是背景background). 即： RPN 不关心 object 类别，只确定是 object 还是 background。
anchor 边界框回归输出。边界框的输出用于调整 anchors 来更好的拟合预测的 object。

RPN是全卷积网络。

对于分类层，每个 anchor 输出两个预测值：anchor 是背景(background，非object)的 score 和 anchor 是前景(foreground，object) 的 score.

对于回归层，也可以叫边界框调整层，每个 anchor 输出 4 个预测值：
（Δxcenter,Δycenter,Δwidth,Δheight），用于 anchors 来得到最终的 proposals。根据最终的 proposal 坐标和其对应的 objectness score，即可得到良好的 objects proposals.

1.2.3 损失函数和训练

RPN 有两种类型的预测值输出：二值分类和边界框回归调整。

为了训练RPN，我们为每个锚点分配一个二值类别标签（是目标或不是目标）。我们给两种锚点分配一个正标签：（i）具有与实际边界框的重叠最高交并比（IoU）的锚点，或者（ii）具有与实际边界框的重叠超过0.7 IoU的锚点。注意，单个真实边界框可以为多个锚点分配正标签。通常第二个条件足以确定正样本；但我们仍然采用第一个条件，因为在一些极少数情况下，第二个条件可能找不到正样本。对于所有的真实边界框，如果一个锚点的IoU比率低于0.3，我们给非正面的锚点分配一个负标签。既不正面也不负面的锚点不会有助于训练目标函数。

然后，随机采样 anchors 来生成batchsize=256 的 mini-batch，尽可能的保持 foreground 和 background anchors 的比例平衡。

RPN 对 mini-batch 内的所有 anchors 采用二分类交叉熵来计算分类 loss。然后，只对 mini-batch 内标记为 foreground 的 anchros 计算回归 loss。为了计算回归的目标targets，根据 foreground anchor 和其最接近的 groundtruth object，计算将 anchor 变换到 object groundtruth 的偏移值 Δ。

Faster R-CNN没有采用简单的 L1 或 L2 loss 用于回归误差，而是采用 Smooth L1 loss. Smooth L1 和 L1 基本相同，但是，当 L1 误差值非常小时，表示为一个确定值即认为是接近正确的，loss 就会以更快的速度消失.

非极大值抑制(Non-maximum suppression)

由于 Anchors 一般是有重叠，因此，相同目标的候选区域也存在重叠。

为了解决重叠 proposals 问题，采用 NMS 算法处理，丢弃与一个 score 更高的 proposal 间 IoU 大于预设阈值的 proposals.

虽然 NMS 看起来比较简单，但 IoU 阈值的预设需要谨慎处理. 如果 IoU 值太小，可能丢失 objetcs 的一些 proposals；如果 IoU 值过大，可能会导致 objects 出现很多 proposals。IoU 典型值为 0.7。

Proposal 选择

NMS 处理后，根据 sore 对topN 个 proposals 排序. 在 Faster R-CNN 论文中 N=2000，其值也可以小一点，如 50，仍然能的高好的结果.

1.3 RoI Pooling

当获得了可能的相关目标和其在原始图像中的对应位置之后，问题就更加直接了，采用 CNN 提取的特征和包含相关目标的边界框，采用 RoI Pooling 处理，并提取相关目标的特征，得到一个新的向量。

RPN 处理后，可以得到一堆没有分类得分的目标 proposals。待处理问题为，如何利用这些边界框并分类。

一种最简单的方法是，对每个 porposal，裁剪，并送入pre-trained base 网络，提取特征；然后，将提取特征来训练分类器. 但这就需要对所有的 2000 个 proposals 进行计算，效率低，速度慢。Faster R-CNN通过重用卷积特征图来加快计算效率，即采用 RoI(region of interest) Pooling 对每个 proposal 提取固定尺寸的特征图。然后 R-CNN 对固定尺寸的特征图分类。

RoI Pooling

目标检测中，包括 Faster R-CNN，常用一种更简单的方法，即：采用每个 proposal 来对卷积特征图裁剪crop，然后利用插值算法(一般为双线性插值 bilinear)将每个 crop resize 到固定尺寸14×14×ConvDepth. 裁剪后，利用 2×2 kernel 的 Max Pooling 得到每个 proposal 的最终7×7×ConvDepth 特征图.

之所以选择该精确形状，与其在下面的模块(R-CNN)中的应用有关。

1.4 R-CNN（Region-based CNN）

R-CNN利用RoI Pooling提取的特征进行分类，采用全连接层来输出每个可能的目标类别的分类得分，是Faster R-CNN框架中的最后一个步骤。

R-CNN 有两个不同的输出：

对每个 proposal 分类，其中类别包括一个 background 类(用于去除不良 proposals)；
根据预测的类别class，更好的调整 proposal 边界框.

R-CNN 对每个 proposal 的特征图，拉平后采用 ReLU 和两个大小为 4096 维的全连接层进行处理。然后，对每个不同目标采用两个不同的全连接层处理：一个全连接层有 N+1 个神经单元，其中 N 是类别 class 的总数，包括 background class；一个全连接层有 4N 个神经单元，是回归预测输出，得到 N 个可能的类别分别预测 Δcenterx,Δcentery,Δwidth,Δheight。

训练和目标

R-CNN 的目标基本上是与 RPN 目标的计算是一致的，但需要考虑不同的可能的 object 类别 classes.

根据 proposals 和 ground-truth boxes，计算其 IoU。与任何一个 ground-truth box 的 IoU 大于 0.5 的 proposals 被设为正确的 boxes。IoU 在 0.1 到 0.5 之间时设为 background。这里忽略没有任何交叉的 proposals。这是因为，在此阶段，假设已经获得良好的 proposals。当然，所有的这些超参数都是可以用于调整以更好的拟合 objects。

边界框回归的目标计算的是 proposal 与其对应的 ground-truth间的偏移量，只对基于 IoU 阈值设定类别后的 proposals 进行计算。随机采用一个平衡化的 mini-batch=64，其中，25% 的 foreground proposals(具有类别class) 和 75% 的background proposals.

类似于 RPNs 的 losses，对于选定的 proposals，分类 loss 采用 multiclass entropy loss；对于 25% 的 foreground proposals 采用 SmoothL1 loss 计算其与 groundtruth box 的匹配。

由于 R-CNN全连接网络对每个类别仅输出一个预测值，当计算边框回归loss 时需谨慎，只需考虑正确的类别。

后处理

类似于 RPN，R-CNN 最终输出一堆带有类别分类的objects，在返回结果前，再进一步进行处理。

为了调整边界框，需要考虑概率最大的类别的 proposals. 忽略概率最大值为 background class 的proposals.

当得到最终的 objects 时，并忽略被预测为 background 的结果，采用 class-based NMS. 主要是通过对 objects 根据类别class 分组，然后根据概率排序，并对每个独立的分组采用 NMS 处理，最后再放在一起.

最终得到的 objects 列表，仍可继续通过设定概率阈值的方式，来限制每个类的 objects 数量.

2 Faster R-CNN 训练

Faster R-CNN在论文中是采用分步方法，对每个模块分别训练再合并训练的权重. 自此，End-to-end 的联合训练被发现能够得到更好的结果.

当将完整的模型合并后，得到 4 个不同的 losses，2 个用于 RPN，2 个用于 R-CNN。4 种不同的 losses 以加权和的形式组织. 可以根据需要对分类 loss 和回归 loss 设置权重，或者对 R-CNN 和 RPNs 设置不同权重.

采用 SGD 训练，momentum=0.9. 学习率初始值为 0.001，50K 次迭代后衰减为 0.0001. 这是一组常用参数设置。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,117评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,328评论 1赞 293
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,839评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,007评论 0赞 206
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,384评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,629评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,880评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,593评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,313评论 1赞 243
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,575评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,066评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,392评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,052评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,082评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,844评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,662评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,575评论 2赞 270