YOLO9000: Better, Faster, Stronger简介

reference:https://arxiv.org/abs/1612.08242

author: Joseph Redmon , Ali Farhadi

Abstract

提出了一些新的想法将YOLO改进成了YOLOv2，也想办法将物体检测和分类方法结合了起来。

Introduction

大多数物体检测算法的检测类别还不够多，用于物体检测的图片数据集没有分类的多。所以本文提出了一个新的方法来将这些数据集都运用起来。本文还提出了将物体检测和分类的过程结合在一起的算法。

Better

YOLO算法的召回率和局部错误率需要改进。本文也想办法化简了网络。

Batch Normalization

通过在YOLO中增加批量归一化，在mAP数值上增加了超过2%，而且也给模型提供了一些正则效果。在加入批量归一化之后，即使删除模型中的dropout也不会产生过拟合。

High Resolution Classifier

为了使网络对于高分辨率的输入图片产生好的结果，所以本文使用了在ImageNet上预训练过的以448*448分辨率为输入的网络

Convolutional With Anchor Boxes

本文参考了Faster-RCNN中的RPN网络，用Anchor Box来进行预判定。

Dimension Cluster

YOLO的预选框是手工挑选的，所以如果能改用更好的预选框会对训练有帮助。本文使用k-means方法来挑选好的预选框。如图所示

image.png

Direct location prediction

在引入anchor box的时候有第二个问题，模型不稳定，这种不稳定主要来自直接预测box的(x,y)值。所以，本文中直接预测相对于grid cell的坐标位置。如图所示

image.png

Fine-Grained Features

本文中通过添加一个passthrough层将高分辨率的特征图和低分辨率的特征图联结在了一起。

Multi-Scale Training

为了能让网络适应不同大小的输入图像，所以每过10个批次就换一个维度的图片作为输入来训练图片，最后的模型对低分辨率和高分辨率的图片都有很好的识别效果。具体表现如图

image.png

Further Experiments

和其他算法的比较如图

image.png

Faster

其他网络常用VGG-16作为特征抽取器，但是它计算量大，速度较慢，所以本文使用GoogleNet

YOLOv2在PASCAL VOC2012上的表现和COCO test-dev2015上的表现如下

image.png

Darknet-19

运用了类似VGG模型的3*3卷积核，也运用了NIN，还有全局平均池化和1*1卷积核来压缩特征表示。也运用了批标准化来稳定训练，加速收敛，并对模型产生正则效果。最后，模型被称为DarkNet-19，有19个卷积层和5个最大池化层。架构如表6所示

image.png

Training for classification

在ImageNet 1000上进行了160轮的训练。使用的是随机梯度下降，初始学习率为0.1，权重衰减为0.0005，动量为0.9。在训练时还使用了标准的数据增强。

Training for detection

把网络修改了，去掉了最后一层卷积层，用1024个3*3的卷积核后跟1000（如果要分1000类）个1*1的卷积核。然后是一些训练的细节。

Stronger

在训练时将检测数据集和分类数据集的图片混合着作为输入。当训练检测的图片时，可以反向传播YOLOv2的损失函数。如果训练分类图片时，只反向传播分类结构的损失函数。
然后检测数据集和分类数据集的类别又不同，比如检测数据集中是"dog"而在分类数据集中有好多更细分类的标签，所以需要多标签模型。

Hierarchical classification

用WordNet这个数据库来对标签进行层级分类。WordNet是一个直连图，比如"dog"就和"canine"及"domestic animal"连在一起。为了避免使用全图结构，本文将这个图简化成层级树来使用，就像ImageNet中的用法。
为了运用这个分类树，本文在树的每个节点及其继续分类的条件概率。如果要计算一个特殊点的概率，那么直接按照树的连接就行了。如图

image.png

对某个标签，在训练时会追溯它的祖先标签，以及在计算softmax的时候，同一类的标签是分在一起的。如图

image.png

模型的鲁棒性不错，在分类时如果发现一张狗的图片，即使没有办法细分，它也会返回"dog"标签。

Dataset combination with WordTree

使用WordTree来进行数据集的合并，如图所示

image.png

Joint classification and detection

结果表现不错

Conclusion

本文介绍了YOLOv2和YOLO9000。YOLOv2是一个实时检测系统，在不同大小的图片上能很好的平衡速度和准确率。
YOLO9000是一个通过合并检测和分类，能检测超过9000类物体的实时系统。本文使用WordTree来合并ImageNet和COCO数据集。
然后吹了一下本文提出的方法也可以在其他领域使用。
本文表示未来准备研究将模型用在弱监督图片分割上，也考虑通过给分类数据集增加若标签来加强检测的结果。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,198评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,663评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,985评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,673评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,994评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,399评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,717评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,407评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,112评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,371评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,891评论 1赞 256
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,255评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,881评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,010评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,764评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,412评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,299评论 2赞 260

YOLO9000: Better, Faster, Stronger简介

Abstract

Introduction

Better

Batch Normalization

High Resolution Classifier

Convolutional With Anchor Boxes

Dimension Cluster

Direct location prediction

Fine-Grained Features

Multi-Scale Training

Further Experiments

Faster

Darknet-19

Training for classification

Training for detection

Stronger

Hierarchical classification

Dataset combination with WordTree

Joint classification and detection

Conclusion

推荐阅读更多精彩内容