【视觉跟踪Visual Tracking】 DL分支:MDNet—Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

一、Visual Tracking领域

最近因为团队业务需要,涉及实时视频流中Object Tracking技术,所以读了一些Paper和前人写的一些综述性质的文章。

VOT领域目前要有三大技术分支:
1、图像特征+分类器的传统方法:如HOG+SVM等
2、CF(Correlation Filter):如DCF、KCF、SRDCF等
3、基于DL的End2End模型:如MDNet、TCNN等

MileStone:
1、~2013:传统特征+分类
2、2013~2015:CF类模型出现
3、2015~:CNN 的end2end模型出现

目前DL类模型在效果上显著超过CF类,但性能到目前为止还是落后于CF类“几个世纪”。因此,目前效果和性能兼具的实用性Tracking模型还是CF类,如SRDCF。传统方法无论在效果or性能上在VOT竞赛中已经被远远落下。

二、MDNet

MDNet是在2015年VOT竞赛的冠军,这篇文章其实2015年底就出来了。MDNet是Korea的POSTECH这个团队做的,与TCNN和CNN-SVM同一出处。

2015年底的时候,Visual Tracking领域继Object Detection之后,陆续将CNN引入,但是大部分算法只是用在大量数据上训练好的(pretrain)的一些网络如VGG作为特征提取器,结果证明确实用了CNN深度特征对跟踪结果是有较大的改进的。那么其实自己设计一个网络来做跟踪是大家都能够想到的思路,Korea的POSTECH这个团队就做了MDNet。

为什么直到2015年CNN才在目前跟踪Tracking领域看到呢?
1、很难收集海量的训练数据;
2、CF类的模型在效果和性能上,都取得了不错的效果
3、在ImageNet上预训练的深度特征方法,效果有提升但不明显

三、MDNet Motivation

1、Prerain问题。在大规模数据上预训练CNN做深度特征提取,显然不如直接在视频跟踪数据上直接训练跟踪模型的CNN更合理。对于跟踪目标,它们的类型虽然可能不同,但应该存在某些共性包括边缘梯度等,是需要网络去学习的。
2、Multi-Domain问题。直接用跟踪数据来训练CNN是比较困难的,统一个Object,在一个视频帧序列中是目标,在另外一个序列中可能就是北京。另外,每个序列中目标的差异很大,还有一些额外的挑战如background clutter、occlusions、illumination variations等。
3、网络大小问题。在Detection、Classification、Segmentation中的CNN网络都很大,因为Label的规模都很大。然而在Tracking中,Label只有两类:目标 or 背景。模型太大会导致在数据在空间上太稀疏,也会导致计算耗时。

四、Multi-Domain NetWork(MDNet)

1、Network Architecture

MDNet网络结构

输入层:RGB3通道107✖️107大小的Bounding Box(目标框/候选框)
卷积层:VGG-M模型改造了Filter大小,保证conv-3输出3✖️3的feature map
全连接层:fc4/fc5是两个512的FC层分别含有Relu和Dropout
Domain-specific Layers:fc6是最终的二分类层,一共K个,对应K个Domain(其实就是K个标注的视频),每次训练的时候只有对应该视频的fc6被使用,前面的层都是共享的。

2、Learning Algorithm

CNN采用SGD优化,为了学到不同视频中目标的共性,采用Domain-specific的训练方式:假设用K个视频来做训练,一共做N次循环,在第k个迭代,只用来自kmodK的视频帧序列的正负样本进行训练,同时fc6中只有对应该视频的branch才会被使用。
整个过程重复,直到网络收敛或者预设的总迭代数达到。通过这个Offline的学习过程,domain-independent 信息在前面几个共享层中将被有效的学习和建模。

五、Online Tracking And Learning using MDNet

将Offline 学习到的multi-domain模型,用于Tracking时,fc6层的K个分支,会用一个新的唯一的全连接层fc6替换掉。之后online fine-tune fc4~6 三个全连接层。

1、Tracking Control 和 Network Online Update

Tracking 策略比较简单,主要两个环节:选择候选目标框集合+判断每个目标框是目标的概率。最终最大概率的候选框即为预测的目标框。
Network Online update是相对略复杂的,分为Long-term 和 Short-term 更新,主要是为了从robustness 和 adaptiveness两个角度权衡。

2、Bounding Box Regresssion

因为CNN深度特征的高度抽象性,以及模型筛选Positive样本框中使用了Data augmentation 策略,导致最终预测最大概率的目标框不能准确的包含target。为了提升accuracy,借鉴在detection中的bbox regression 分支,将conv3的feature基础上,通过linear regression对候选框做一个微调。做regression的基础是候选框的打分>0.5。
Bbox regression仅在第一帧做一次训练,一个原因是太耗时,另外一个是过度的调整也存在风险。

3、Tracking 和 Update的过程描述

Online Tracking Algorithm

核心环节包含:
1)训练 Bbox regression model
按照高斯分布采样10000个回归样本框,计算样本框和ground truth的IoU,仅保留IoU>0.6的样本,并从中随机1000个作为最终样本。计算样本对应的conv3 特征,将512个3*3 feature map拉伸和拼接成一个向量,训练线性回归模型。

2)生成Positive 和Negative 样本框
【Offline multi-domain模型的样本】
每一帧生成50正样本,200负样本,要求正样本IoU>=0.7,负样本IoU<=0.5。
从全部序列包含的帧集合中随机8帧,构成一个mini-batch,其中包含400(850)个正样本,然后从中随机32个作为mini-batch中最终的正样本;将包含的1024(应该是8200?)个负样本,送到CNN中并选择打分最高的96个(Hard Negative Mining策略)作为mini-batch最终的负样本。

【Online Learning模型的样本】
每一帧生成50正样本,200负样本,要求正样本IoU>=0.7,负样本IoU<=0.3。正样本最大集合500,负样本最大集合5000。其他Hard Negative Mining 策略同Offine模型。

3)生成候选框
为每一帧生成候选目标框,按照Gaussian分布采样出256个候选框。候选框用(x,y,s)表示。高斯分布mean是前一帧目标框的位置,covariance是diagonal matrix diag(0.09r^2, 0.09r^2, 0.25),其中r是前一帧目标框宽和高的均值。初始目标的scale乘以1.05^s作为每个候选框的scale(不是通过采样得到?)

4)其他训练细节
A)multi-domain 用K个序列训练,迭代100K次,conv层的lr=0.0001,fc层lr=0.001。
B)Online Learning的第一帧,fc层迭代30次,fc4-5的lr=0.0001,fc6的lr=0.001。在后续的帧中,每次update模型时训练迭代10次,lr是第一帧的3倍。
C)Momentum 和 weight decay分别是0.9和0.0005

六、实验结论

1、OTB50和OTB100

image.png

2、VOT2014

image.png

3、结论

总结一下MDNet效果好的原因:
用了CNN特征,并且是专门为了tracking设计的网络,用tracking的数据集做了训练
有做在线的微调fine-tune,这一点虽然使得速度慢,但是对结果很重要
Candidates的采样同时也考虑到了尺度,使得对尺度变化的视频也相对鲁棒
Hard negative mining和bounding box regression这两个策略的使用,使得结果更加精确

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 155,770评论 4 358
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,116评论 1 286
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 105,656评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,372评论 0 201
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,704评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,166评论 1 204
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,535评论 2 306
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,259评论 0 193
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,882评论 1 236
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,218评论 2 239
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,760评论 1 255
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,126评论 2 249
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,667评论 3 228
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,935评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,644评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,171评论 2 265
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,119评论 2 258

推荐阅读更多精彩内容