四月份论文列表

2019.4.5
Attention to Scale: Scale-aware Semantic Image Segmentation
这篇是2015年cvpr的文章，虽然发表时间比较早，但是没看作者时就觉得这篇文章写得很好，提出的attention to scale算是比较开创性的，最后看到一作，才发现原来是deeplab系列的一作，果然是大佬。文章内容的话，从现在的角度来看，其实不是很难理解。前一段时间一篇cvpr19的paper叫SK-Net，提出了一种多支路的融合方式，讲的很玄，其实说穿了就是attention to scale。主要是针对语义分割中的多支路的share-net这一类方法，多支路融合不是简单的相加，而是经过一个attention module学习一个不同的支路的attention分配，在每个位置进行softmax之后对原特征加权求和。
2019.4.8
Path Aggregation Network for Instance Segmentation
这篇文章是2018年商汤做实例分割的，主要是FPN的延续。论文中贡献点写的比较杂乱，个人觉得比较有意义的也就是Adaptive feature pooling，原来FPN中得到不同level的特征图后，将不同大小的proposal分配给不同的特征图，听起来就比较麻烦，而且道理上也不太讲得通，大的proposal不一定就是语义信息弱的，小的proposal也不一定就是语义信息强的。因此，干脆所有proposal都分配给所有的特征图，最后做一个上采样融合。至于说top-down之后又加了一条bottom-up aggregation，可能的优势就是把长路径变得更长了，感觉这个insight不是很强，属于单纯增加路径长度的，网络变深了，精度也就高了。
2019.4.9
RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
这篇文章发表时间比较早，是2016年的工作。主要是解决语义分割中视野域和分辨率不能兼得的问题。另一个解决方案是dilated conv，但是这种卷积计算量和显存占用都比较大，而且实际应用时不能像论文中说的处理分辨率为原图1/4的特征图，最多到1/8。refinenet就是利用逐步融合的想法，bottom-up结合too-down的特征传播，跟FPN的连接方式很像，跟U-Net的区别就是上采样没有采用反卷积。问题就是，融合的方式麻烦了一点。不过，论文中有一个问题就是没有写计算量和显存占用，我感觉采用那么多卷积的融合方式，参数量也不会少。
这两天看的几篇multi-branch文章基本上都在讲short-range和long-range相互补充，比如PANet就是延长了long-range的长度，RefineNet也是这么讲的。这也可以用作之后工作的一个解释。

RefineNet
2019.4.17
Deep High-Resolution Representation Learning for Human Pose Estimation
用来做human pose的一篇文章，不过感觉基本上这些不同任务最后都会归结到分类上。每个key-point生成一张原图大小的heatmap，跟分割有点像。所以也可以拿来看看。比较特别的就是连接方式，跟其他的方法不同，原图大小（好像也不是，可能是四分之一）的特征图一直在传递，不同分辨率之间相互增强，最后只用最大的分辨率进行预测。就是相互增强的方式可能会有点用，插值+conv1x1. 据说反卷积会造成空洞，这种做法倒是也可以避免引入反卷积。

有一张图挺有意思的，总结了一下现在的bottom-up top-down方法，可以观赏一下。
P.S. 吐槽一下，全文都是low-to-high和high-to-low，看得我头都大了，就不能说bottom-up和top-down吗~~
2019.4.18
High-Resolution Representations for Labeling Pixels and Regions
上一篇工作的延续，拿来做分割和检测了。改动很小，只是把所有分辨率的分类结果都拿来融了一下，这也很正常，这个方法本来就比较适合做这类任务。实验量感人，到底是有卡的人。然而实验结果存疑，别的我没怎么看，只看了在pascal-context上的结果，miou报了59类和60类的，两个指标全都是SOTA，可是一部分baseline只报了59类，另一部分只报了60类。别的不说，encnet的原论文里两个结果都给了，60类的是比本文的方法高的，然而文章却没有展示这个结果。并且，encnet原文中只训了50epoch，不到两万次迭代，初始学习率0.001，本文6万次迭代，初始学习率0.004，怎么59类的miou就可以直接抄encnet原文的呢？放图：

本文的结果，注意EncNet的结果

EncNet59类

注意，下图中refinenet的结果和本文给的refinenet的结果是一样的，可是encnet的结果本文却没放，很迷啊~~~

EncNet60类

FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction
这篇文章是万里老师组做的一个backbone的工作。感觉自从imagenet竞赛不办了以后，做backbone的文章就越来越水了，影响力也越来越小。不过这篇文章insight还是有的，主要关注于resnet系列和densenet系列为了方便梯度优化，一个引入了identity connection，一个直接把low-level的特征concat到高层。然而，由于下采样是不可避免的，因此实际上并没有那个底层的特征可以不经过变换直通到最后，也就是存在isolated convolution。因此，文章提出一个像鱼一样的结构，在body和head之间存在几条通路是可以直连的。网络连接比较复杂，可能受分割的启发更大一些。不过宗旨还是没变的，只是相比于resnet和densenet，这篇文章把shortcut这种想法进一步发挥了一下。

2019.4.25
More is Less: A More Complicated Network with Less Inference Complexity
这篇文章是颜老板他们17年发在cvpr上的一篇文章，主要做的是模型加速（还是稀疏编码来着）。用一个小网络预测为0的位置（这里需要用relu来把负值都变成0），跟原特征图进行点乘。因为矩阵是稀疏的，所有为0的位置都不用乘了（可能是caffe底层这么写的），节省了很多计算量。能借鉴的就是用一个小网络预测每个位置的attention，可是基本上现在都这么搞了，还是用不上。

不过，这篇文章还简单说了一下caffe卷积是怎么实现的，就是把矩阵展开，卷积操作变成矩阵乘法，提高并行度，空间换时间。输入特征U是XYC大小，卷积核W是kxkxCxT，对于U*来说，就是把每次移动卷积核覆盖到的kkC个值变成一行，一共移动XY次，卷积核每个大小kkC,一共T个。
2019.4.27
Deformable Convolutional Networks && Deformable ConvNets v2: More Deformable, Better Results
没有很认真的看，细节方面没怎么看明白，工作是很好的工作，很硬核。主要是在原有卷积的基础上，学习一个offset，对卷积进行变换，使其覆盖到的区域为可形变的；除此之外，还搞了一个deformable ROI pooling，基本原理差不多，不过感觉实现起来都比较困难。至于v2，就没什么好说的了，做的特征图可视化比较有意思。
Pay less attention with lightweight and dynamic convolutions
这篇文章里提出了dynamic卷积，主要是去解决nlp中self-attention计算量的问题。对于每个time step，直接根据这个位置的输入进行预测，而不需要参考global的信息，每个位置的kernel参数是根据这个位置的输入进行动态学习的，卷积核采用共享参数的深度可分离卷积。很神奇的地方在于，没有global aggregation，效果反而比self-attention更好。可能因为self-attention还是会带来更多的冗余吧。当然，如果能把这两者的优势结合起来，就更好了。

An Empirical Study of Spatial Attention Mechanisms in Deep Networks
这篇也是代老师组的工作，方法上没什么创新，只是把现有的一些比较好的方法作了一下统一，包括self attention，transformer attention，普通conv，dynamic conv，deformable conv。提出self attention应该包括四个factor，目前的self attention只包含了第一项，即query content & key content。在这四项上对以上方法分别进行了形式上的统一，最后做了众多消融实验，这个我也没认真看。