【CV论文笔记】Rethinking on Multi-Stage Networks for Human Pose Estimation(MSPN网络理解)

本文主要用于介绍与人体关键点预测相关的MSPN网络。本笔记主要为方便初学者快速入门,以及自我回顾。

论文链接:https://arxiv.org/pdf/1901.00148.pdf

基本目录如下:

  1. 摘要
  2. 核心思想
  3. 总结

------------------第一菇 - 摘要------------------

1.1 论文摘要

现有的姿态预测模型基本都是2个套路,要么是单阶段的(single-stage),要么就是多阶段的(multi-stage)方法。虽然多阶段的模型看起来总是合理靠谱不少,但是他们最近的实践表现却总是不如单阶段的模型。本论文就是专门研究这种情况的。我们认为现有的多阶段模型不靠谱的原因来自于一些设计上的缺陷。因此,我们提出了很多新的改进,包括单阶段的模型设计,交叉特征叠加,还有coarse-to-fine的监督。我们新的方法刷新了COCO数据的记录~开源代码地址为https://github.com/megvii-detection/MSPN

------------------第二菇 - 核心思想------------------
论文开头提出的疑问就是,在COCO数据集上,多阶段的模型架构,似乎表现的都不如单阶段的模型架构。而这种现象是与我们的第一直觉相违背的,因此,本论文的主要工作就是为了去仔细研究一下其背后的原理,探究多阶段模型的设计问题。

而本文也提出了一种多阶段的姿态关键点网络(MSPN, multi-stage pose estimation network)。简单来说,有3个提升的方面,
1)我们注意到现有的多阶段的方法的single-stage module都不够优秀。比如Hourglass module在各个模块中的所有层的channels个数都相同。这种设计很明显与现今一些好的模型架构设计不符。我们发现只是简单的采用现今架构中的一些网络(比如CPN中的GlobalNet),就能够取得比较好的效果。
2)重复的上下采样过层(即级联结构)会造成信息的丢失,从而使得最后的优化变的困难。而我们提出了一种方法用于将各个阶段的特征信息进行整合,从而减少在训练时信息丢失的情况。
3)我们发现在多阶段的过程中姿态的定位会越来越精细,因此我们采用了一种coarse-to-fine监督训练策略。

大致理解了上述的设计指导思想之后,我们再来具体看看MSPN网络架构。

2.1 MSPN网络架构

直接先上一张论文中也贴出的网络架构图如下,

MSPN网络架构图.jpg

论文中描述到,利用了CPN中的ResNet-based GlobalNet,作为single-stage module,可以很清晰的从上图中看到,不同的尺度下提取出的特征会被一起用于之后的预测。这里论文还强调了一件事情,该架构本身并不是新颖的创新,但是将其用于多阶段的架构中,那尚属首次😄~

2.1.1 Cross Stage Feature Aggregation

因为之前作者分析提到多阶段存在信息丢失的问题,因此本文特别提出了一种新的跨阶段的特征融合方式,具体的连接就如上黄色线条所示。在每一个阶段中,下采样和上采样都会分别将特征信息通过一个简单的1*1卷积,一起输入到下一阶段中(可以视为是跨阶段的残差连接),具体的示意图如下,

特征融合方式.jpg
2.1.2 Coarse-to-fine Supervision

因为每一个阶段对关键点预测出的精度也不一样,因此作者提出了一种新的监督训练方式,核心其实就是一句话,

we further propose to use different kernel sizes of the Gaussian in different stages

其实很好理解,就是在开始的阶段允许有较大的误差,然后逐步提高标准。直接看一下原文中的示意图,应该也是一目了然,

不同阶段训练示意图.jpg

至此,整一套网络设计已经讲明白了,我们再来看一下实验的一些结论。

2.2 实验结论

我们直接来看几张结果表,

实验结果1.jpg

作者设定了stage个数为1的时候,不同的模型对算法的效果影响,很明显,随着网络复杂度增加,模型效果的提升越来越不明显。

实验结果2.jpg

其中图形化的结果对比如下,

实验结果3.jpg

很明显的可以发现,随着stage的个数增加,自然网络的精度也在增加,但是MSPN的增加最为明显。

实验结果4.jpg

明显可以看出,采用了CTF的策略相比于CSFA的策略提升会更加明显一些。

至此,主要的实验结论也介绍完了。可以发现,本文的创新并不多,但主要是提出的几点改进,非常不错,很有借鉴意义。

------------------第三菇 - 总结------------------

3.1 总结

到这里,整篇论文的核心思想已经说清楚了。本论文主要是针对多阶段的姿态识别模型提出了几点改进意见,并提出了一种新的网络结构MSPN,并对此改进提供了充实的理论依据和实验证明,为后续发展奠定了基础。

简单总结一下本文就是先罗列了一下该论文的摘要,再具体介绍了一下本文作者的思路,也简单表述了一下,自己对整个MSPN网络的理解。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出,多多交流,大家一起进步~😁

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容