Graph-Based Place Recognition in Image Sequences with CNN Features

Abstract: 视觉位置识别是机器人和计算机视觉社区中的一个关键且具有挑战性的问题。在本文中,我们关注视觉同时定位和映射(vSLAM)系统的位置识别。这些系统长期以来受制于手工制作的特征,其通常使用图像的局部视觉信息并且对于应用于图像的变化不够稳健。在这项工作中,我们通过从数据中自动学习的功能来解决位置识别问题。首先,我们提出了一种基于图的视觉位置识别方法。通过组合从卷积神经网络(CNN)提取的视觉特征和序列中图像的时间信息来构建该图。其次,我们建议采用扩散过程来增强图中的数据关联,以获得更准确的识别结果。最后,为了评估所提出的方法,我们对四个常用数据集进行了实验。实验结果表明,所提出的方法能够获得明显更好的性能(例如,在100%精度下回忆率为95.37%)比FAB-MAP(在100%精度下回忆率为47.16%),一种常用的使用手工特征用于位置识别的方法,特别是在一些具有挑战性的数据集上。

1. Introduction:

首先,我们提出了一种基于图的位置识别方法。 该图由节点和边组成。节点表示不同的位置图像,并且边缘用表示链接的位置图像的视觉相似性的分数加权。 我们通过组合视觉信息(由CNN特征表示)和视频序列中图像的时间信息来构建图。这种基于图的方法可以很容易融合其他信息,例如基本矩阵或估计位置。其次,受图像检索最近进展的启发,我们采用扩散过程来增强图形的数据关联,以获得更准确的识别结果。 据我们所知,这是第一次利用扩散方法来解决视觉SLAM系统的位置识别问题。《Efficient diffusion on region manifolds: Recovering small objects with compact cnn representations》。最后,我们在四个常用数据集上进行实验,以评估所提出的方法。 对于一些不提供回环检测的基本事实的数据集,我们手动标记每个图像以指示它们的回环。 我们工作中获得的基本事实将公开发布,以方便同行研究人员评估他们的算法。 我们将我们的方法与FAB-MAP进行了比较,后者基于BoW模型,通常用作视觉位置识别的基准。 根据实验结果,我们的方法在视觉位置识别方面优于FABMAP,尤其是在更具挑战性的数据集上。

2.1 Place Recognition with Learned Features

在本文中,我们主要关注的不是设计特定的CNN架构。 相反,我们基于一种新颖的特征开发我们的方法,该特征被称为R-MAC(区域最大激活卷积)《Particular object retrieval with integral max-pooling of cnn activations》,建立在预先训练的CNN之上。 它将图像编码为具有固定长度的矢量,可以将其视为全局图像特征。 R-MAC已被用于许多图像检索和场景识别任务,并取得了卓越的性能。

2.2 Graph-Based Place Recognition

2.3 Diffusion Process

3.  Proposed Method

我们使用从卷积神经网络(CNN)提取的特征来表示图像。 典型的CNN架构由几个卷积层和汇集层组成,接着是完全连接的层和softmax层。 它具有大量参数,并且在包含数百万个标记图像的数据集上进行训练,这使得它能够学习强大的图像可视化表示。 在ImageNet [12]数据集上训练的普遍存在的CNN模型,如AlexNet [25],GoogleNet [40],ResNet [20]和VGGNet [34],在各种视觉任务中表现出色。 可以将这些预先训练的网络视为特征提取器以有效地表示图像。 常用的方法是将CNN的完全连接层的激活(即输出)视为图像的全局特征。 然而,在[22,37]中已经证明,建立在完全连接的层上的特征对于图像表示来说不太理想,因为在完全连接的层之后图像的空间信息丢失[23]。 另一方面,[2,41]中的结果表明,源自中间层激活的视觉表示能够达到各种识别任务的更好性能。

在我们的工作中,我们使用了一种新颖的图像表示,最近由Tolias等人提出,称为R-MAC(区域最大激活卷积)。原始图像I被送入卷积神经网络,该网络已经过预先训练。 丢弃所有完全连接的层并且激活形成尺寸为K×W×H尺寸的3D张量,表示存在尺寸为W×H的K个特征图(也称为特征通道),如图所示1a。对于每个特征图,考虑L个不同尺度的多个正方形区域,并且对每个区域执行最大池化,产生与每个区域相关的特征向量。然后,使用l2标准化,PCA白化和再次l2标准化对这些区域级特征进行后处理。最后,对一个图像的所有区域特征向量进行总和聚合并再次进行l2标准化。 以这种方式,图像I由紧凑单位矢量v表示,其维度K取决于CNN网络的架构并且与图像的大小无关。



4 Experiments

4.1 Datasets

我们使用四个公开可用的数据集来评估所提出的方法。 每个数据集的详细信息总结在表1中。new college和city centre数据集1最初用于评估FAB-MAP [10],已经普遍用于视觉位置识别领域。 它们分别由尺寸为640×480的2146和2474个图像组成。 当机器人在校园和市中心行进时,数据集由机器人收集,其上安装有一对摄像机,分别指向其左右。 由于我们的方法侧重于单目SLAM系统的位置识别问题,我们分别考虑左图和右图,为每个数据集产生两个子集,分别表示为NC-left,NC-right,CC-left和CC-right。 我们还使用KITTI vision benchmark suite2 ,它最初用于评估视觉测距/ SLAM系统,以评估所提出的方法。 KITTI数据集由在城市环境中收集的22个序列组成,其中12个包含环闭合[16]。 在我们的工作中,我们使用两个代表性序列,KITTI 00和KITTI 05,它们分别包含4541和2761个图像。每个数据集的ground truth 参考对于测量实验结果的准确性是必要的。 new college和city centre数据集提供了地面实况的二元矩阵,其中每个元素指示相应的图像是否可以被视为相同的地方。 但是,KITTI数据集仅提供现实世界中图像的度量位置,而不是关于回环检测的直接信息。出于这个原因,我们手动标记KITTI 00和KITTI 05数据集的基本事实。 具体来说,我们将每个图像的位置与序列中的其他图像进行比较,如果它位于给定的半径内,则将其视为一个循环。 在本文中,半径为6m。(https://github.com/ZhangXiwuu/KITTI_GroundTruth)

推荐阅读更多精彩内容