YOLOv2与YOLOv3学习笔记

部分行间公式由于未知问题无法渲染,公式完整版请移步个人博客

基本思路

YOLOv2是YOLO的第二个版本,该物品检测系统仍然只需要“Look Once”,其整体结构如下所示:

yolo_main.png

其主要由两个部分构成:

  • 神经网络:将图片计算为一个13\times 13 \times 125的向量,该向量包含了预测的物品位置和类别信息
  • 检测器:将神经网络输出的向量进行“解码”操作,输出物品的分类和位置信息。

神经网络部分

YOLOv2的神经网络部分使用了一个带跳层的神经网络,具体结构如下所示:

yolo_net.png

神经网络的设计没有太大飞跃性的改变,相对于YOLOv1的神经网络设计主要有以下改变:

  • 每个卷积层后添加了批标准化层,加速了网络的收敛。
  • 在第16层开始分为两条路径,将低层的特征直接连接到高层,可提高模型性能。
  • 移除全连接层,最终的输出向量中保存了原来的位置信息。
  • 输入尺寸变为416\times 416 \times 3,识别更高分辨率的图片。

该网络最终输入图片尺寸为,416\times 416 \times 3输出向量尺寸为13 \times 13 \times 125

检测器部分

YOLOv2使用了Anchor Box的方法,神经网络输出的向量尺寸是13\times 13 \times 125,其中13 \times 13是将图片划分为13行和13列共169个cell,每个cell有125数据。对于每个cell的125个数据,分解为125 = 5 \times (5+20),即每个cell包括5个anchor box,每个anchor cell包括25个数据,分别为物品存在置信度,物品中心位置(x,y),物品尺寸(w,h)和类别信息(20个)。如下图所示:

yolo_result.png

对于每个cell包括5个anchor box信息,每个anchor box包括25个数据,分别:

  • 为是否有物品(1个)
  • 物品位置(4个)
  • 物品种类(20个)

其中是否有物品的标记conf_{ijk}比较容易理解,表示位于i,jcell的第k个anchor box中有物品的置信度。20个物品种类向量也较好理解,哪一个数据最大即物品为对应的类别。

对于物品位置的四个数据分别为x_{ijk},y_{ijk},w_{ijk},h_{ijk},与物品位置中心点和尺寸的关系为:

$$b_x = f(x_{ijk}) + c_x \\ b_y = f(y_{ijk}) + c_y \\  b_w = p_w e^{w_{ijk}} \\ b_h = p_h e^{h_{ijk}}$$

其中,b_x,b_y为物品中心点的实际坐标,b_w,b_h为物品的尺寸(长宽)。c_x,c_y的为该cell(x行y列)距离图片左上角的像素数,f的含义推测为将范围为0~1的输入值缩放到0~cell长度。p_wp_h为该anchor box的预设尺寸。如下图所示:

detection.PNG

每个cell包括5个anchor box,这5个anchor box有不同的预设尺寸,该预设尺寸可以手动指定也可以在训练集上训练获得。在YOLOv2中,预设尺寸是通过在测试集上进行类聚获得的。

模型训练

神经网络部分基于模型Darknet-19,该模型的训练部分分为两个部分:预训练和训练部分

  • 预训练:预训练是在ImageNet上按分类的方式进行预训练160轮,使用SGD优化方法,初始学习率0.1,每次下降4倍,到0.0005时终止。除了训练224x224尺寸的图像外,还是用448x448尺寸的图片。
  • 训练:去除Darknet的最后一个卷积层,并将网络结构修改为YOLOv2的网络,在VOC数据集上进行训练。训练使用的代价函数是MSE代价函数。

另外,在训练过程中,还引入了多尺寸训练,由于网络删除了全连接层,所以该网络并不关心图片的具体大小,训练时使用320~608尺寸的图像{320,352,....,608}。

YOLOv3

YOLOv3是YOLO最新的更新,其主要的改进在以下方面:

  • 网络结构改变:网络的结构由Darknet-19变为Darknet-53,跳层的现象越来越普遍。
  • 尾部激活函数改变:尾部的激活函数(类别预测)由softmax改为sigmoid
  • 尺度数量改变:anchor box的数量由5个改为3个

网络

网络结构如下所示:

YOLO3_net.PNG

网络结构明显参考了ResNet的设计,将低层的特征直接连接到高层。同时注意一点,网络可能没有使用pool层,而是使用stride=2的卷积层实现下采样。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容