[Paper Share - 7]Learning to Segment Every Thing

导读
本文是FAIR几位大神的最新作品。文章挺有意思地提出一种部分监督学习分割的方法。简单来说就是学习一个将检测参数迁移为分割参数的函数,从而实现在分割信息不完整的数据集上训练,并且测试阶段能对训练阶段没有分割信息的类别也能预测其实例分割掩膜。论文链接

1.Introduction

实例分割一般来说都需要强监督信息,但是强监督信息不好获取,标注分割信息成本太高。但是现有很多数据集都有Boxes信息,所以作者就像,能不能用起这些boxes信息来训练实例分割呢?于是,他们想到了这样一个部分监督实例分割任务(partially supervised instance segementation):
1)给定一个数据集,其中某些类别组成的子集包含完整的实例掩膜信息(instance mask annotation),而剩余类别组成的子集只包含bounding boxes信息。
2)然后实力分割算法需要利用这个数据集训练一个模型,能对所有的类别进行分割。
为了解决这个部分监督的问题,作者提出一个基于Mask R-CNN的新的迁移学习方法。(关于Mask R-CNN,后面我会补上这一篇论文的解读。)Mask R-CNN非常合适用于解决这个问题,因为它将实例分割问题分解为两个子任务:目标检测和mask预测。所以,通过学习一个从目标检测参数到实例分割的迁移函数来解决上述问题,所以在测试阶段,实例分割的参数并不是通过训练期间学习到的,而是通过迁移函数预测得到的。
作者接下来的工作主要包括两个方面,
1.首先在COCO数据集上进行模拟实验,将COCO数据集分成两部分,一部分有分割标注,另一部分丢弃分割标注。因为COCO数据集包含完整的分割标注。所以这部分实验能很好地量化实验的效果。
2.第二部分实验,作者还用上了VG数据集,VG数据集包含大量的boxes信息,但是没有分割标注,并且很多类别是同义词,作者选择了其中出现频率最大的3000类来进行大规模的实验。由于整数据及缺少分割标注信息,所以很难量化的评估模型的效果。
下图展示了实验的一些输出。其中红色框是在训练阶段是没有分割标注的ground truth信息的,但是模型一样较好的预测出了。

VG数据集上

2.Related Work

这部分我们就快进吧,没什么干货。快进>>>

3.Learning to Segment Every Thing

这里先提一下一些标记:C是一些我们想要训练的类别的集合,A是其中一个子集,这个子集拥有完备的分割标注,而B是剩余的一个子集,B只包含Bounding Boxes,没有分割标注信息。C=AUB。
如下图2,是文章提出的Mask* R-CNN模型。Mask* R-CNN通过迁移函数T(·),从Wdet预测其对应类别的分割参数Wseg,在训练的时候,T只需要A的mask标注,和B的boxes信息,但是在测试时,可以在AUB上进行预测。同时,Mask Head还有个互补的MLP,这个MLP的参数与类别无关。


图2

如公式1所示,对于某个类别的object detection weights,注意这里的weight和类别相关的,mask weight与其关系由函数T表示,其中θ是要学习的参数。

T

但是T这个函数和其对应的参数θ却是与类别无关的,也就是无论哪个类别,都可以用这个函数来预测分割参数。T在实验中可以是一个小的全连接网络。图2中的detection weights其实包含两种类型的,一个是ROI分类的参数Wcls,另一个是Bounding Boxes的回归参数Wbox,在实验中,可以使用Wdet=Wcls或者Wdet=Wbox,当然也可以是两个的concat,Wdet=[Wcls,Wdet]。

3.2 Trainning

训练过程中,目标检测部分,使用AUB的boxes的损失;但是,训练实例分割分支和T函数时,只是考虑A的mask损失。因此文章进行了两个驯良方法:1.分两阶段训练,2端到端的训练。

Stage-wise training在分两步训练的实验中,第一阶段,作者先用AUB的数据集训练好一个Faster RCNN;第二阶段,固定CNN主体网络和目标检测分支的参数,训练实例分割分支。这个方法的好处是,我们可以一次训练好目标检测分支,然后快速的评估T函数的选择方法。但是这个训练方法机械的分割了两部分的训练,影响效果。
End-to-End joint training端到端的联合训练,这种训练方法一般能提升效果。原则上,我们可以直接对AUB的boxes损失和A的mask损失进行反向传播,但是这会导致一个矛盾,Wdet通过T函数只能接收到来自A的mask损失的梯度。而,我们希望Wdet对于A和B应该是均衡的,这样的话,在A上学习到的函数T能很好地迁移到B。因此作者做出了一些改变,在A的mask损失进行梯度反向传播时,只对参数θ进行求导,不对Wdet进行求导。这样避免A的mask损失回传到Wdet。

3.4 Fused FCN+MLP Mask Head

Mask分支,作者考虑两种配置:1,一个全卷积网络,输出时MxM的mask。2,MLP,由全连接层组成。但是作者觉得两种类型的Mask Head应该结合互补,FCN能抓住细节比如物体边界,而MLP能抓住主体。在最后实现细节上,对于K类的mask prediction是KxMxM,而MLP的输出时1xMxM,所以MLP的输出将会平铺K次。并加到每个类别上。

4.Experiments on COCO

作者想在COCO数据集上做实验,将COCO上80个类别分成20和60,其中前面20个类别正式PASCAL VOC的20个类别,另外60个不包含在VOC中,分别用voc和non-voc表示。

Baseline and oracle本文的baseline是Mask RCNN,起中mask head是一个FCN,并且这个Mask RCNN的Wseg是类别无关的,也即使不管什么类别,Wseg都是相同的。而本文还用了一个Oracle(神级模型)来做对比,这个模型用了COCO所有的mask数据集来训练,所以,基本上是本文提出的方法的上限。

4.2 Ablation Experments

Input to T 这个实验探究T的输入是什么好。从图a可以看出,显然是Wcls+Wbox一块传入T函数会获得更好的效果。然后看到,虽然本文方法在B上测试不如oracle的效果好,毕竟训练时没用到B的mask信息,但是,在A上的测试却比oracle略好,说明,本文的方法没有牺牲了强监督的效果来换取在B上的表现。

a

Structure of T 这部分比较了T函数去什么形式的性能。做了两种实验,1是简单的仿射变黄,2是一个2到3层的MLP。同时作者还测试了ReLU和LeakyReLU。结果表明2层的MLP+LeakyReLU效果最佳。

b

Impact of the MLP Branch 这部分比较了MLP分支的作用,可以看到MLP能提升效果。

c

Effect of end-to-end training 以上a,b,c的实验都是用两阶段训练法得到的结果,然后作者对比了end-to-end的训练方法的效果。从d可以看到,只有当停止T对Wdet的梯度传播才能带来效果的提升。

d
4.3 Reault of Our Full Method

然后作者将前面的发现全部集合起来,组成Mask* R-CNN(Mask R-CNN +‘tansfer + MLP’ ,T是'cls+box,2-layer,LearkyReLU')。和baseline,oracle进行了对比。可以看到Mask* RCNN超越了baseline 20%(相对的),但是oracle显然是上限。

2

然后下图展示了一些结果,上一行的baseline,下一行是Mask* RCNN。

4

5 Large Scale Instance Segmentation

接着作者进行了大规模实验,将COCO作为A数据集,然后另外2920个类的数据从VG数据集中取出,作为B数据集,A和B的类别没有交集。训练时采用两阶段训练方法。
定性结论 可以得到一些有趣的结论:

  1. Mask* RCNN 学习到了一些抽象的概念,比如阴影和小路,这些在分割中很难做到的。
  2. 能分割出独立的树,但是遇到树林时就失败了。
  3. 有时会做出一些合理的分割,比如将冰箱的把手分割出来。

下展示一些结果:

5

好了,今晚的论文分享到这里,下次分享Non-local Neural Networks.晚安各位。
------少侠阿朱 2017.12.13 于深圳

转载请注明出处哦 简书 知乎

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270