R-CNN

 1. 摘要
 2. 引言
 3. 目标检测
 4. 附录

1. 摘要

  R-CNN的两个关键点:①通过CNNs自下而上的获取proposals,用于定位和目标分割;②当标签数据不足时,通过监督预训练作为辅助,然后在特定区域进行微调来提升性能。

2. 引言

  近十来年,在各种视觉识别任务中,人们基本在使用SIFT和HOG描述子。但在2010-2012年之间视觉识别研究进展缓慢,通过集成系统和一系列小组件来实现识别的进展甚微。

  R-CNN通过“区域识别”模式来解决定位问题。在测试时,R-CNN对一张输入图片生成大约2000个不同的proposals,然后通过CNN对每一个proposal提取一个固定长度的特征向量,然后对每个区域通过SVM进行分类。每个proposal区域的图像通过仿射变换获取相同大小(CNN输入大小,如Fig 1)。
Fig 1
  还存在一个问题是标注数据太少,不足以训练一个大型CNN。传统的方法是通过无监督预训练,然后有监督微调。而R-CNN采用有监督预训练后再微调的模式,结果表明这也是有效的。

3.R-CNN 目标检测

  R-CNN包含3个模型,①proposal生成器,②生成固定长度特征向量的CNN网络,③SVM分类器。
(1)模块设计
  Region proposals:如objectness,selective search等
  Feature extraction:通过CNN提取一个4096-d的特征向量,特征提取通过5层卷积层和2层全连接层实现。
(2)Test-time detection
  Run-time annalysis:两个特性使检测有效:①所有类别的CNN参数共享,②相对于其他方法,CNN计算得到的特征向量是低维的。共享的结果就是计算proposal和特征的时间被分摊到所有类别。只有在特定类别的计算上,如特征向量和SVM参数及非极大值抑制之间是通过点积计算。实际上这种点积在运行时被转化为批量化的矩阵相乘。
  因此R-CNN即使对于上千类别也是有效的。这种有效性,不仅是由于proposal和共享参数,R-CNN的存储空间相对UVA也较小,仅1.5G。
(3)训练
  Supervised pre-training:首先通过ILSVRC2012对CNN进行预训练,训练集具有类别标签,但没有box标签。
  Donmain-specific fine-tuning:为适应检测任务,通过SGD和proposal内图像对CNN进行微调。除了替换ImageNet的1000类分类层,其他结构未作改变。当IoU > 0.5时,视为正样本。初始学习率未0.001,每个batch正负样本比例为32:96。

4. 附录

(1)proposal转换
  CNN需要固定大小的输入(如227x227)。对于检测任务,proposal是任意的矩形框。对于将proposal转化为CNN输入大小,在此进行了两种方法的比较。①将obj包括在最小范围内的背景中,并缩放到CNN输入大小,如B列,图片中包含了一部分背景,缩放后,图像不扭曲,有的位置用灰度值填充。这种方法的另一变种是,包含的背景部分很小,缩放后,很大一部分用灰度值填充。②截取obj,直接进行缩放,不会产生灰度值填充,但是图像会发生扭曲。
(2)正负样本和softmax
  为什么在CNN微调时和SVM分类时的正负样本定义不同?在微调CNN时,计算proposal与ground-truth之间的IoU,当大于0.5时标记为正样本。在训练SVM时,对于每个类仅使用ground-truth作为正样本,但IoU小于0.3的作为负样本。也就是,IoU在0.3-1之间但不是ground-truth的proposal被忽略了。
  一个历史原因是,刚开始,我们是在ImageNet预训练的CNN的基础上对SVMs进行训练,当时没考虑CNN的微调。在这个过程中,发现SVMs这种设定标签的方式是最优的(包括在微调CNN之后)。当我们开始对CNN进行微调时,采用和SVM相同的标签设置时,发现性能不如现在这种微调标签设置。
  我们的假设是,在微调时的正负样本定义不是根本性问题,而是用于微调的数据较少导致的。当我们引入0.5-1的proposal作为正样本时,正样本容量增加近30倍。我们推测,在微调这么大的网络时,这么大的数据集是有效的。但是我们也注意到这部分数据不是最优的,因为这部分正样本实际上并没有对obj进行准确定位(假设只有ground-truth是准确定位的)。
  这就导致了第二个问题:为什么要在微调后再训练SVMs?如果直接用微调网络的最后一层(21-way softmax分类器)作为obj detector会更为简洁。我们进行过测试,但性能明显下降。这可能是以下因素导致的:①用于微调的正负样本,对于定位并不精确;②这个softmax分类器是在随机负样本上训练得到的,性能不如困难负样本训练的结果好。
  所以,推论是,如果在微调阶段,采用足够多及精确定位的数据,那么不采用SVM层,直接softmax分类性能也可能不低于训练后的SVM,这将有效加速训练过程,增加检测的实时性能。
(3)Bbox 回归
  通过SVM检测分类得到一个score之后,采用一个回归器来预测一个检测的bbox。这类似于DPM中的回归方法。与DPM的区别是,直接通过CNN计算得到的特征进行回归,而不是通过DPM计算的几何特征进行回归。
  R-CNN中,存在N个proposal和ground-truth对:

xywh分别表示box的中心坐标和宽高。我们的目标是学习P到G的变换映射。
  总共要学习四个函数:
前两个是P bbox中心的尺寸不变映射,后两个是P bbox的高宽在对数空间的变换。在学到这些函数后,通过下述四个函数来将P映射到预测的ground-truth box :
bbox回归存在两个问题:①正则化参数高达1000,②如果P离G太远 ,那么学习到的函数将毫无意义,所以通过计算P和G的IoU值来进行过滤。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270