极小人脸检测

0.505字数 10681阅读 2177

(原文献链接:Finding Tiny Faces;GitHub链接:Finding Tiny Faces)

tags: 人脸检测


Figure 1

图1:我们描述了一个检测器,通过利用尺度,分辨率和上下文这些新颖特性来检测小目标,可以从据报告有1000个人中找到大约800个人的脸。 检测器的置信度由右侧的色标表示:您确信能找到识别错误吗?

摘要

尽管目标识别技术已经取得了巨大的进步,但检测小目标仍是一项开放性的挑战。针对微小人脸检测的问题,我们主要从三个方面做了研究:尺度不变,图像分辨率和上下文推理的作用。虽然大多数识别方法基于尺度不变,但识别一个3像素的人脸与识别一个300像素的人脸的诱因从根本上就是不同的。我们采取了一种不同的方法,即根据不同的尺度分别训练不同的检测器。为了保持效率,检测器以多任务的方式进行训练:它们利用了从单个(深层的)特征层次结构的多个层提取的特征。虽然训练大目标检测器是直观的,但关键的挑战仍然是训练小目标检测器。我们表明了使用上下文信息是至关重要的,并定义了使用大规模感受野的模板(其中99%的模板超出了我们所感兴趣的目标的范围)。最后,我们探索了尺度在预训练深度网络中的作用,针对有限尺度到极端尺度的情况,为推断网络的调整提供了方法。我们展示了在大规模人脸数据集基准(FDDB和WIDER FACE)上取得的state-of-the-art的效果。特别是,与WIDER FACE上的现有技术相比,我们的结果将误差降低了2倍(我们的模型的AP达到了82%,而现有技术只有29-64%)。

1 介绍

尽管目标识别技术已经取得了巨大的进步,但检测小目标仍是一项开放性的挑战。针对微小人脸检测的问题,我们主要从三个方面做了研究:尺度不变,图像分辨率和上下文推理的作用。尺度不变几乎是当前所有的识别和目标检测系统的基本原则。但从实践的角度来看,尺度不变对于具有有限分辨率的传感器是不能适用的:识别300px人脸与识别3px人脸的诱因的差异是无可否认的。

尺度的多任务建模:近来在目标检测中的工作使用了尺度归一化分类器(例如,运行在图像金字塔上的扫描窗口检测器[5]或运行在“ROI”池化的图像特征[7,18]上的区域分类器)。当将区域大小调整为规范模板大小时,我们提出一个简单的问题——模板的大小应该是多少?一方面,我们想要一个可以检测小人脸的小模板;另一方面,我们想要一个可以利用详细特征(即面部)的大模板来提高准确性。取代“一刀切”的方法,我们针对不同的尺度(和纵横比)分别训练了检测器。训练大量特定尺度的检测器可能会遇到针对个体尺度的训练数据匮乏的情况,以及在测试时运行大量检测器而导致的效率低的情况。为了解决这两个问题,我们以多任务的方式训练和运行尺度特定的检测器:它们利用在单个(深)特征层次结构的多个层定义的特征。虽然这样的策略提升了大目标检测的准确率,但是检测小目标仍然具有挑战性。

如何概括预训练网络? 关于小目标检测的问题,我们还提供了两个关键的见解。第一个是分析如何从预训练的深度网络中最佳地提取尺度不变的特征。我们展示了现有网络都是针对特定尺寸的目标进行调整的(在预训练数据集中遇到的,如ImageNet)。为了扩展这些网络微调的特征到新尺寸的目标,我们采用简单的策略:通过插值和抽取在测试时调整图像大小。虽然许多识别系统通过处理一个图像金字塔来应用于“多分辨率”方式,但我们发现在金字塔的最底层插值对于检测小目标尤为重要[5]。因此,我们的最终方法(图2)是将特定尺度检测器进行微妙的结合,并以尺度不变方式来使用(通过处理图像金字塔来捕获大规模变化)。

Figure 2

图2:捕获尺度不变的不同方法。传统方法构建一个适用于精细离散的图像金字塔(a)的单一尺度模板。为了利用不同分辨率提供的不同线索,可以为不同的对象尺度构建不同的检测器(b)。这种方法可能会在训练(或预训练)数据中很少观察到极端物体尺度上的失败。我们在(c)中挑战利用粗略的图像金字塔来捕捉极端尺度。最后,为了提高小人脸检测的性能,我们建立了额外的上下文,它被有效地实现为所有特定尺度模板(d)的固定大小的感受野。我们在从深层模型的多层提取的特征上定义模板,类似于中心凹描述符(e)。

如何最好地编码上下文? 检测小目标是根本的挑战,因为目标上没有什么信号可以利用。因此,我们认为必须使用超出目标范围的图像证据。这通常被称为“上下文”。在图3中,我们提出一个简单的人类实验,用户尝试分类是人脸还是非人脸(由我们的检测器给出)。很明显,人类需要上下文来准确地分类小人脸。虽然这种观察在计算机视觉中是非常直观和高度探索的[16,22],但众所周知难以量化地证明上下文在识别中的益处[4,6,33]。其中一个挑战似乎是如何有效地编码大图像区域。我们证明从多个层(也称为“超列”特征[8,14])中提取的卷积深度特征是有效的“中心凹”描述符,其能捕获大感受野上的高分辨率细节和粗略的低分辨率线索(如图2(e)所示)。我们在图5中展示了我们的中心凹描述符(从较低卷积层提取)的高分辨率部分对于精确定位是至关重要的。

Figure 3

图3:在左边,我们分别可视化了一个大人脸和小人脸,无论是否有上下文。识别大人脸可以不需要上下文,而小人脸在没有上下文的情况下是无法识别的。我们通过右侧的简单人工实验来量化这一观察,用户将我们提出的检测器的正的人脸进行真假分类。添加一定比例的上下文(通过3X扩大窗口)对大人脸检测提供了小的提升,但对于小人脸检测是不够的。添加300像素的固定上下文窗口使小人脸检测误差显著减少了20%。这表明应该以尺度变化的方式建立上下文。我们通过大的感受野的中心凹模板(黄色框的大小大约为300x300)来实现这一观察。

我们的贡献:为了检测小人脸,我们对图像分辨率,对象尺度和空间上下文进行了深入分析。我们展示了在大规模人脸数据集基准(FDDB和WIDER FACE)上取得的state-of-the-art的结果。特别是,与WIDER FACE上的现有技术相比,我们的结果将误差降低了2倍(我们的模型的AP达到了82%,而现有技术只有29-64%)。

2 相关工作

尺度不变:绝大多数识别流水线把重心放在尺度不变的表示上,可追溯到SIFT [15]。目前的检测方法如Faster RCNN [18]也遵循这一理念,通过ROI池化或图像金字塔提取尺度不变特征[19]。 有时为了提升速度[3],我们对之前在行人检测上提出的尺度变化的模板进行了深入研究[17]。SSD [13]就是一种基于使用尺度变化模板的深层特征的最新技术。我们的工作在我们对微小目标检测的上下文的探索方面有所不同。

上下文:上下文是检测小目标实例的关键,如多重识别任务。在物体检测中,[2]在感兴趣区域之外堆叠空间RNN(IRNN [11])模型上下文提升了小物体检测的性能。在行人检测中,[17]使用地平面估计作为上下文特征改善了对小目标实例的检测。在人脸检测中,[28]同时对面部和身体周围的ROI特征进行评分检测,从而显着提高了整体表现。我们的工作提出以一种尺度变化的方式(与[28]相反)使用大的本地上下文(而不是全局上下文描述符[2,17])。我们显示,上下文对于检测低分辨率人脸是最有用的。

多尺度表示:多尺度表示已被证明对许多识别任务是有用的。[8,14,1]表明,深层多尺度描述符(称为“超列”)对语义分割很有用。[2,13]对这种目标检测模型进行了改进。[28]池化了多尺度的ROI特征。我们的模型使用了“超列”特征,指出精细尺度的特征对于定位小物体最为有用(第3.1节和图5)。

RPN:我们的模型表面上类似于针对特定对象类训练的区域候选网络(RPN)[18]而不是一般的“对象”候选生成器。重要的区别是我们使用中心凹描述符(通过多尺度特征实现),我们通过交叉验证选择一系列对象的尺寸和纵横比,我们的模型采用一个图像金字塔来找到极端尺度。特别地,我们用于检测小目标的方法使用了针对图像插值进行调整的他定尺度检测器。如果没有这些修改,那么在小人脸上的检测性能将显著下降10%以上(见表1)。

3 探索上下文和分辨率

在本节中,我们将介绍一下对游戏中的问题的探索性分析,这将为我们的最终模式提供信息。为了构思讨论,我们提出以下简单的问题:找到固定大小(25x20)的小人脸的最佳方式是什么?通过明确地根据期望输出分解出尺度变化,我们可以探索上下文和规范模板尺寸的作用。直观地,上下文对于小人脸检测至关重要。典型模板的大小可能看起来像是对一个陌生维度的研究 - 鉴于我们想要检测大小为25x20的人脸,为什么要定义25x20以外的任何大小的模板?我们的分析关于什么时候为什么这样做给出了一个令人惊讶的答案。为了更好地了解我们分析的用意,我们还会针对大目标尺寸询问类似的问题:找到固定大小(250x200)的大人脸的最佳方法是什么?

设置:我们针对构建固定大小(例如25x20)人脸的滑窗检测器探索了不同的策略。我们将固定大小的物体检测视为二值热图预测问题,其中像素位置$(x,y)$处预测的热图指定以$(x,y)$为中心的固定尺寸检测的置信度。我们使用全卷积网络(FCN)[14]来对热图预测器进行训练,这些网络定义在state-of-the-art的架构ResNet [9]上。我们探索在ResNet-50中从每个残差模块的最后一层提取的多尺度特征,即(res2cx,res3dx,res4fx,res5cx)。我们以后将其称为(res2,res3,res4,res5)特征。我们将在第5节讨论我们训练流程的剩余细节。

3.1 上下文

图4给出了由用于进行热图预测的感受野(RF)大小给出的上下文影响的分析。回想一下,对于固定大小的检测窗口,我们可以选择使用具有相对于该窗口任意更小或更大的感受野的特征进行预测。因为较高层的卷积特征倾向于具有较大的感受野(例如,res4特征跨越291×291像素),较小的感受野需要使用较低层特征。我们看到一些总体趋势。添加上下文几乎总是有帮助的,尽管最终对于小人脸(超过300x300像素)附加的上下文无益。我们证实这是由于过拟合导致的(通过检查训练和测试性能)。有趣的是,越小的感受野对小人脸检测作用越好,因为整个脸部都是可见的 - 如果只寻找鼻尖,则很难找到大人脸。更重要的是,我们通过将“紧密”RF(限于目标范围)与最佳评估的附加上下文的“松散”RF的性能进行比较来分析上下文的影响。小人脸的精度提高了18.9%,而大人脸的精度提高了1.5%,与我们的人类实验一致(这表明上下文对于小目标实例最有用)。我们的研究结果表明,我们可以为具有相同感受野(大小为291x291)的不同大小的检测器构建多任务模板,作为多通道热图预测问题这实现起来特别简单(其中每个特定尺度的通道和像素位置具有自己的二值损失)。在图5中,我们比较了一下具有和不具有中心凹结构的描述符,这表明我们的中心凹描述符的高分辨率组件对于小目标实例的精确检测至关重要。

Figure 4

图4:建模附加上下文是有利的,特别是检测小人脸。对于小人脸(18.9%)而言,将上下文添加到一个紧密模板中的性能提升比大人脸(1.5%)更大。有趣的是,较小的感受野对于小人脸检测更有利,因为整个脸部都是可见的。绿色框表示实际的脸部大小,而虚线框表示与来自不同层的特征相关联的感受野(青色=res2,浅蓝色=res3,深蓝色=res4,黑色=res5)。图5和7中使用了相同的颜色。

Figure 5

图5:中心凹描述符对于小目标的精确检测至关重要。只有res4的小模板(顶部)性能下降了7%,而只有res5的性能下降了33%。相反,去除中心凹结构不会损害大的模板(底部),表明较低层的高分辨率主要用于检测小目标!

3.2 分辨率

我们现在研究一个很奇怪的问题。如果我们训练一个模板,其大小有意不同于要检测的目标对象将会怎样?在理论上,可以在2倍大小的上采样(插值)测试图像上使用“中等”尺寸模板(50x40)检测小人脸(25x20)。图7实际上显示出惊人的结果,这显著地提高了性能,从69%到75%!我们针对大人脸询问相反的问题:能够通过在2倍大小的下采样测试图像上运行一个针对“中等”人脸(125x100)的可调整模板来检测大人脸(250x200)吗?再次,我们看到性能有明显的提升,从89%上升到94%!

一个解释是我们对不同的物体尺寸有不同数量的训练数据,我们期望拥有更多训练数据的那些尺寸的性能更好。在“自然场景”数据集(如WIDER FACE和COCO[12])中的重复观察是,较小的对象大大超过较大的对象,部分原因是固定大小的图像中可以标记更多的小东西。如图8所示(灰色曲线)我们在WIDER FACE上验证了这一点。虽然不平衡的数据可能解释了为什么通过中等模板检测大人脸更容易(因为有更多的中等尺寸的人脸用于训练),但这并不能解释小人脸的结果。中等人脸的训练实例较少,但使用中等大小的模板,性能仍然更好。

我们发现罪魁祸首在于预训练的数据集(ImageNet)中目标尺度的分布。图6显示,ImageNet中80%的训练样本包含40到140像素之间的“中等”大小的目标。具体来说,我们假设预训练的ImageNet模型(用于微调我们的特定尺度检测器)是针对该范围内的目标进行了优化的,并且应该将模板大小偏大化到可能的范围内。我们会在下一节中描述一种用于构建具有不同规范分辨率的特定尺度检测器的管道,并验证这一假设。

Figure 6

图6:ImageNet数据集中目标尺度的平均分布(假设图像归一化为224x224)。超过80%的类别的平均目标尺寸在40到140像素之间。我们假设在ImageNet上预训练的模型针对该范围内的目标进行了优化。

Figure 7

图7:以原始分辨率构建模板不是最佳的。为了检测小人脸(25x20),以2倍分辨率构建模板可以将整体精度提高6.3%;而为了检测大人脸(250x200),以0.5倍分辨率构建模板可以将整体精度提高5.6%。

Figure 8

图8:模板分辨率分析。X轴表示通过聚类导出的目标对象大小。左Y轴显示每个目标大小的AP(忽略超过0.5个Jaccard距离的目标)。自然状态出现在图中:为了检测大人脸(高度超过140px),以0.5倍分辨率构建模板;要检测较小的人脸(高度小于40px),请以2倍分辨率构建模板。对于两者之间的大小,以1倍分辨率构建模板。右Y轴与灰色曲线一起显示每个目标大小在0.5个Jaccard距离内的数据的数量,表明更多的小人脸被注释。

4 方法:特定尺寸检测

很自然提出一个后续问题:是否有一个一般策略来为特定对象大小选择模板分辨率? 我们证明,可以利用多任务学习,以“蛮力”的方式,以不同的分辨率训练几个模板,并贪婪地选择最好的模板。事实证明,似乎有一个一般的策略与上一节中的分析一致。

首先,我们来定义一些符号。我们使用$t(h,w,\sigma)$来表示一个模板。这样一个模板以分辨率$\sigma$来调整用于检测尺寸为$(h/\sigma,w/\sigma)$的目标。例如,图7的右半边使用$t(250,200,1)$(上)和$t(125,100,0.5)$(底部)来找到250x200的人脸。

给定图像和边界框的训练数据集,我们可以定义一组粗略覆盖边界框形状空间的典型边界框形状。在本文中,我们通过基于Jaccard距离$d$(方程(1))推导出的聚类来定义这种典型形状:$$d(s_i,s_j)=1-J(s_i,s_j)\qquad (1)$$其中,$s_i=(h_i,w_i)$和$s_j=(h_j,w_j)$是一对边界框形状,$J$表示标准Jaccard相似度(IoU重叠)。

现在对于每个目标对象的大小$s_i=(h_i,w_i)$,我们问:$\sigma_i$取什么值将最大化$t_i(\sigma_i h_i,\sigma_i w_i,\sigma_i)$的性能?为了回答,我们只需为$\sigma \in \Sigma$(一些固定集合)的每个值分别训练单独的多任务模型,并为每个对象尺寸取最大值。我们将每个特分辨率的多任务模型的性能绘制为图8中的彩色曲线。对于每个$(h_i,w_i)$的最优的$\sigma_i$,我们用“混合”分辨率(称为HR)重新训练一个多任务模型,实际上遵循所有曲线的上部包络。有趣的是,存在着不同策略的自然制度:检测大目标(高度大于140px),使用小2倍的典型分辨率。要检测小目标(高度小于40像素)使用大2倍的典型模板分辨率。否则,使用相同的(1X)分辨率。我们的结果密切跟随ImageNet的统计数据(如图6所示),大多数目标都属于该范围。

修剪:上一节中的混合分辨率多任务模型有些冗余。例如,模板$(60,50,2)$是找到31x25人脸的最佳模板,由于模板$(64,50,1)$的存在是冗余的,这是找到64x50人脸的最佳模板。我们可以修剪这样的冗余吗?是!为了直观的描述,我们将读者引用到图9的标题。如表1所示,修剪冗余模板导致了一些小的提升。基本上,我们的模型可以减少到一小组尺度特定的模板(调整为40-140像素的人脸),可以在粗的图像金字塔(包括2X插值)上运行,并结合一组设计的特定尺度的模板用于在2X插值图像中检测小人脸(高度小于20像素)。

Figure 9

图9:修剪冗余模板。假设我们在粗图像金字塔(包括2X插值)上测试以1X分辨率(A)构建的模板。它们将覆盖更大范围的尺度,除了极小的尺寸,最好使用2X构建的模板进行检测,如图8所示。因此,我们的最终模型可以减少到两小组特定尺度的模板:(A)调整为40-140像素的人脸,并运行在粗图像金字塔(包括2X插值)和(B)调整为小于20px人脸的只能在2X插值图像中运行。

Table 1

表1:修剪冗余模板不会影响性能(验证)。作为参考,我们还包括了第2节所述的朴素RPN的表现。(Full)和(A + B)的可视化请参考图9。

4.1 架构

在图10中可以看出我们所提出的架构。我们训练二值多通道热图预测器来得到一系列人脸尺寸(高度为40-140像素)的目标置信度。然后,我们发现具有粗的图像金字塔的较大和较小的人脸,其重要地包括仅针对该分辨率预测的专用热图的2X上采样阶段(例如,针对小于20像素的小面设计)。对于共享的CNN,我们尝试了ResNet101,ResNet50和VGG16。尽管ResNet101表现最好,但是我们还是在表2中收录了所有模型的性能。我们看到所有模型都在现有技术的“hard”集上实现了实质性的改进,其中包括CMS-RCNN[28],它也模拟了上下文,只不过是以成比例的方式(如图3所示)。

Figure 10

图10:我们的检测流水线概述。从输入图像开始,我们首先创建一个粗图像金字塔(包括2X插值)。然后,我们将缩放的输入图像输入到CNN中,以便在每个分辨率下预测模板响应(用于检测和回归)。最后,我们以原始分辨率应用非最大抑制(NMS)来获得最终检测结果。虚线框代表端到端的可训练部分。我们在粗图像金字塔(包括2X插值)上运行A型模板(调整为40-140像素的人脸),而仅在2X插值图像上运行B型(调整为小于20像素的人脸)模板(如图9)

Table 2

表2:具有不同体系结构的模型性能的验证。ResNet101的性能略好于ResNet50,远优于VGG16。重要的是,我们基于VGG16的模型已经在“hard”集上大幅度优于现有技术。

详细信息:给定带有目标和模板的ground truth注释的训练图片,我们定义正样本为IOU重叠超过70%的位置,负样本为重叠低于30%的位置(所有其他位置通过梯度清零被忽略)。请注意,这意味着每个大目标实例比小实例生成更多的正的训练示例。由于这导致了高度不均衡的二值分类训练集,我们利用均衡采样[7]和困难样本挖掘[21]来改善这种效果。我们发现采用微调得到边界框位置的后处理线性回归器可使性能提高。为了确保我们训练的数据类似于测试条件的数据,我们考虑基于测试时间(0.5x,1x,2x)在分辨率$\Sigma$的范围内随机调整训练数据的大小,并学习从每个图像中随机抠取500x500的固定大小区域(以利用批处理)。我们将固定学习率为$10^{-4}$的WIDER FACE训练集上的预训练ImageNet模型进行微调,并评估WIDER FACE验证集(用于诊断)和扩展测试集的性能。为了得到最终检测结果,我们将标准的NMS应用于30%重叠阈值的检测热图。我们在附录B中讨论我们的程序的更多训练细节。我们的代码和模型可以在线获取,网址为https://www.cs.cmu.edu/~peiyunh/tiny

5 试验

${\bf WIDER\ FACE:}$我们在WIDER FACE的训练集上训练一个包含25个模板的模型,并得到我们最佳模型HR-ResNet101(A+B)在留存的测试集上的性能。如图11所示,我们的混合分辨率模型(HR)在所有难度级别上达到了state-of-the-art的性能,但最重要的是减少了2X的“hard”集合的误差。请注意,“hard”集包括高于10px的所有人脸,因此在完整的测试集上能更准确地表示其性能。在图13中我们可视化了在某些具有挑战性的情况下的性能。请参考基准网站进行全面评估和我们的附录A进行更定量化的诊断[10]。

Figure 11

图11:WIDER FACE“hard”测试集的精确召回曲线。与现有技术相比,我们的方法(HR)将误差降低了2倍。

Figure 12

图12:FDDB测试中的ROC曲线。我们的预训练检测器(HR)产生state-of-the-art的离散检测(左)。通过学习将边界框转换为椭圆的后置回归,我们的方法(HR-ER)也产生state-of-the-art的连续重叠(右)。我们只比较公布的结果。

FDDB:我们在FDDB上测试我们的WIDER FACE训练模型。我们的out-of-the-box检测器(HR)在离散分数上优于所有发布的结果,该分数使用标准的50%IoU阈值来定义正确性。因为FDDB使用椭圆边界框,而WIDER FACE使用矩形边界框,我们训练一个后置线性回归器,以将边界框预测转换为椭圆。通过事后回归,我们的检测器在连续分数(测量平均边界框重叠)上也能获得state-of-the-art的性能。我们的回归器采用10-折交叉验证来训练。图12绘出了具有和不具有椭圆回归(ER)的检测器的性能。定性结果如图14所示。请参阅我们的附录B,了解我们的椭圆回归计算公式。

Figure 13

图13:WIDER FACE的定性结果。我们可以看出每个属性和尺度的一个例子。我们提出的检测器能够在连续的尺度范围内检测人脸,同时对诸如表情,模糊,照明等的挑战具有鲁棒性。请放大以寻找一些非常小的人脸的检测结果。

Figure 14

图14:FDDB的定性结果。绿色椭圆框是ground truth,蓝色边框是检测结果,黄色椭圆框是回归椭圆框。我们提出的检测器对于严重的遮挡,大的模糊,大的外观和尺度变化是鲁棒的。有趣的是,在这种挑战下的许多人脸甚至没有注释(第二个例子)。

运行时间:我们的运行时间是通过在2倍的上采样图像上运行“全卷积”网络控制的。我们的基于Resnet101的检测器在1080p分辨率下的运行时间为1.4FPS,在720p分辨率下的运行时间为3.1FPS。重要的是,我们的运行时间与图像中的人脸数量无关。这与基于候选框的检测器(例如Faster R-CNN [18])形成对比,该检测器运行时间与候选框的数量呈线性关系。

结论:我们提出了一个简单而有效的小目标检测框架,表明大的上下文和尺度变化表示都是至关重要的。我们具体表示,大范围的感受野可以有效地编码为捕捉粗略上下文(检测小对象所必需的)和高分辨率图像特征(有助于定位小对象)的中心凹描述符。我们还研究了现有预训练深度网络中的尺度编码,提出了一种简单的方法,可以基于尺度变化的方式将尺度有限的网络调整到更加极端的场景中。最后,我们使用我们对尺度,分辨率和上下文的详细分析来开发出state-of-the-art的人脸检测器,其显著优于标准基准上之前的工作。

致谢:本研究基于NSF Grant 1618903,英特尔视觉云系统技术中心(ISTC-VCS),谷歌和国家情报局局(ODNI),情报高级研究部门项目组(IARPA)的工作支持,通过IARPA R&D合同号2014-14071600012认证。本文所载的观点和结论是作者的观点和结论,不应被解释为必须代表ODNI,IARPA或美国政府的明示或暗示的官方政策或认可。尽管有任何版权注释,美国政府有权复制和分发用于政府目的的转载。

A 误差分析

定量分析 我们在图15中绘制了假阳性误差模型的分布,在图16和图17中绘制了目标特性对检测性能的影响。

Figure 15

图15:假阳性误差模型的分布。背景混乱似乎是最高评分检测中的主导错误模式,但是,如图18所示,我们发现20个最高评分的假阳性样本中有15个是实际上由于注释错误。

Figure 16

图16:灵敏度图的总结。我们在图17中绘制了$AP_N$的最大值和最小值。我们的检测器主要受物体尺度(从0.044到0.896)和模糊(从0.259到0.798)的影响。

Figure 17

图17:目标特性的灵敏度和影响。我们为每个特性显示归一化AP [10]。有关“BBox面积”,“BBox高度”和“长宽比”的定义,请参阅[10],并参考[26]对“Blur”,“Expression”,“Illumination”,“Occlusion“和“Pose”的定义。在极小尺度,极度偏斜的长宽比,大模糊和重度遮挡的情况下,我们的检测器表现低于平均水平。令人惊讶的是,夸张的表情和极度的照明与更好的表现有关。姿态变量没有明显的影响。

定性分析 我们在图18中显示出前20个假阳性的得分。

Figure 18

图18:验证集上得分前20的假阳性样本。错误类型标记在每个图像的左下角。 “face(bg)”代表混淆目标和背景,“face(loc)”代表检测位置错误。“ov”表示与ground truth边界框的重叠率,“1-r”表示其置信度低于当前值的检测的百分比。我们的检测器似乎可以找到没有注释的人脸(当“ov”等于零时预测在脸上)。

B 试验细节

多尺度特征 由[20]一次训练“FCN-8”的方式启发,我们将建立在每层顶部的预测器的学习速率定为固定常数。具体来说,我们指定res4的缩放因子为1,res3的缩放因子为0.1,res2为0.01。我们的模型和[20]之间的另一个区别是:我们的模型不是以原始分辨率预测,而是以res3特征的分辨率(与输入分辨率相比降低8倍)进行预测。

输入采样 首先我们以0.5X,1X或2X随机地重新缩放输入图像。然后,我们随机从重新缩放的输入中裁剪500x500图像区域。当裁剪在图像边界之外时,我们用平均RGB值(平均减法之前)进行填充。

边界案例 与[18]类似,我们忽略了检测窗口跨越图像边界的热图位置的梯度。唯一的区别是,我们将填充的平均像素(如输入采样中所述)视为外部图像边界。

在线hard挖掘和均衡采样 我们将正负样本应用于hard挖掘。我们的实现比[21]更简单但仍然有效。我们在分类损失上设置了一个小阈值(0.03),以过滤出简单的位置。然后我们从损失高于阈值的剩余损失中分别对正负样本(最多)采样128个位置。表3针对有没有hard挖掘的训练在验证性能上进行了比较。

损失函数 我们的损失函数与[18]相同。注意,我们还使用Huber损失作为边界框回归的损失函数。

边界框回归 我们的边界回归为[18],并用随机梯度下降法进行分类训练。我们在WIDER FACE验证集上比较了有和没有回归的测试的性能。

椭圆边界框回归 我们的边界椭圆回归如式(2)。$$t*_{x_c}=(x_c-x_c)/w \qquad (2)$$ $$t^_{y_c}=(y^_c-y_c)/w \qquad (3)$$ $$t^_{r_a}=\log(r^_a/(h/2)) \qquad (4)$$ $$t^_{r_b}=\log(r^_b/(w/2)) \qquad (5)$$ $$t^_{\theta}=\cot(\theta^) \qquad (6)$$其中$x^_c,y*_c,r_a,r^_b,\theta^*$表示中心x,y坐标,ground truth高和宽的一半,以及椭圆ground truth的旋转角度。$x_c,y_c,h,w$表示我们预测的边界框的中心x,y坐标,高度和宽度。我们离线学习了与训练边界框回归有相同特征的椭圆边界框线性回归。

其他超参数 我们使用固定学习率$10^{-4}$,权重衰减为0.0005,动量为0.9。我们使用20个图像的批量大小,并从每个图像的重新缩放版本中随机裁剪一个500x500区域。一般来说,我们将模型训练50个回合,然后选择在验证集上性能最好的回合。

参考文献

[1] A. Bansal, X. Chen, B. Russell, A. Gupta, and D. Ramanan. Pixelnet: Towards a General Pixel-level Architecture. arXiv preprint arXiv:1609.06694, 2016. 3
[2] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. arXiv preprint arXiv:1512.04143, 2015. 3
[3] R. Benenson, M. Mathias, R. Timofte, and L. Van Gool. Pedestrian detection at 100 frames per second. In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 2903–2910. IEEE, 2012. 3
[4] S. K. Divvala, D. Hoiem, J. H. Hays, A. A. Efros, and M. Hebert. An empirical study of context in object detection. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pages 1271–1278. IEEE, 2009. 2
[5] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained partbased models. IEEE transactions on pattern analysis and machine intelligence, 32(9):1627–1645, 2010. 2
[6] C. Galleguillos and S. Belongie. Context based object categorization: A critical survey. Computer Vision and Image Understanding, 114(6):712–722, 2010. 2
[7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 580–587, 2014. 2, 6
[8] B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Hypercolumns for object segmentation and fine-grained localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 447–456, 2015. 2, 3
[9] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015. 3
[10] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In European conference on computer vision, pages 340–353. Springer, 2012. 7, 10
[11] Q. V. Le, N. Jaitly, and G. E. Hinton. A simple way to initialize recurrent networks of rectified linear units. arXiv preprint arXiv:1504.00941, 2015. 3
[12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision, pages 740–755. Springer, 2014. 4
[13] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. Ssd: Single shot multibox detector. arXiv preprint arXiv:1512.02325, 2015. 3
[14] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3431–3440, 2015. 2, 3
[15] D. G. Lowe. Distinctive image features from scaleinvariant keypoints. International journal of computer vision, 60(2):91–110, 2004. 3
[16] A. Oliva and A. Torralba. The role of context in object recognition. Trends in cognitive sciences, 11(12):520–527,2007.2
[17] D. Park, D. Ramanan, and C. Fowlkes. Multiresolution models for object detection. In European conference on computer vision, pages 241–254. Springer, 2010. 3
[18] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 2, 3, 7, 9
[19] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. arXiv preprint arXiv:1504.06066, 2015. 3
[20] E. Shelhamer, J. Long, and T. Darrell. Fully convolutional networks for semantic segmentation. 8
[21] A. Shrivastava, A. Gupta, and R. Girshick. Training regionbased object detectors with online hard example mining. arXiv preprint arXiv:1604.03540, 2016. 6, 9
[22] A. Torralba, K. P. Murphy, W. T. Freeman, and M. A. Rubin. Context-based vision system for place and object recognition. In Computer Vision, 2003. Proceedings. Ninth IEEE International Conference on, pages 273–280. IEEE, 2003. 2
[23] L. Wolf and S. Bileschi. A critical view of context. International Journal of Computer Vision, 69(2):251–261, 2006. 2
[24] B. Yang, J. Yan, Z. Lei, and S. Z. Li. Aggregate channel features for multi-view face detection. In Biometrics (IJCB), 2014 IEEE International Joint Conference on, pages 1–8. IEEE, 2014. 6
[25] S. Yang, P. Luo, C.-C. Loy, and X. Tang. From facial parts responses to face detection: A deep learning approach. In Proceedings of the IEEE International Conference on Computer Vision, pages 3676–3684, 2015. 6
[26] S. Yang, P. Luo, C.-C. Loy, and X. Tang. Wider face: A face detection benchmark. In Proceedings of the IEEE International Conference on Computer Vision, June 2016. 6, 10
[27] K. Zhang, Z. Zhang, Z. Li, and Y. Qiao. Joint face detection and alignment using multi-task cascaded convolutional networks. arXiv preprint arXiv:1604.02878, 2016. 6
[28] C. Zhu, Y. Zheng, K. Luu, and M. Savvides. Cms-rcnn: Contextual multi-scale region-based cnn for unconstrained face detection. arXiv preprint arXiv:1606.05413, 2016. 3, 6

推荐阅读更多精彩内容