当前位置: 代码迷 >> 综合 >> Fully Convolutional Region Proposal Networks for Multispectral Person Detection(用于多光谱人检测的全卷积RPN)
  详细解决方案

Fully Convolutional Region Proposal Networks for Multispectral Person Detection(用于多光谱人检测的全卷积RPN)

热度:29   发布时间:2023-11-14 01:32:19.0

Fully Convolutional Region Proposal Networks for Multispectral Person Detection      2017年7月   CVPR-W

Computer Vision and Pattern Recognition Workshops (CVPR-W)

贡献:

1.提出了(所谓的)结合BDT的全卷积RPN模型用于多光谱行人检测

2.性能达到sota

Views:

整个文章看完,感觉差点意思。BDT是在文献10中提出的,文中所谓的对于RPN的改进,仅仅是将其用于红外+RGB的场景中,RPN的结构为3x3 conv+两个同级1x1conv以进行分类和边框回归,整个网络模型十分简单。

附:

nms(non-maximum suppression)

ROI(region of interest)

RPN(region proposal Networks)

VIS(visual-optical spectrum)

IR(infrared camera)

Abstract

Multispectral image(visual-optical and infrared images)对自动驾驶和监控应用十分重要。本文提出了Multispectral RPN网络,该网络建立在预先训练的VGG-16上。为减少潜在的FP错误,使用了Boosted Decision Trees classifier(BDT分类器)进一步评估网络的proposals。在KAIST测试集上,log-average miss rate为29.83%,将最新的水平提高了18%。

1.Introduction

由于要避免近红外(NIR)摄像机所必需的主动照明,重点介绍由VIS和长波热红外(LWIR)摄像机进行结合检测行人。

基于Faster R-CNN的RPN结构,我们提出了new RPN,在独立的VIS和IR中,我们将这些CNNs中途融合,以使RPN生成多光谱深度特征。图1显示与单个VIS和IR 的RPN相比,融合的RPN能提供更好的proposals。

与[27]相比,我们省略了Faster R-CNN体系结构的分类网络,并证明了RPN本身已经胜过Faster R-CNN进行特殊的人员检测任务。这最初是由Zhang等人发现的[39]。他们进一步建议使用Boosted Decision Trees(BDT)分类器(在他们的论文中称其为Boosted Forest)来验证在几个公共数据集上实现最新技术成果。

2.Relaed Work

由于大多数热红外数据集是由固定式摄像机采集的,因此背景减法是用于生成建议的流行方法[2、6、8、9、14、37]。

3.Multispectral Person Detection

介绍RPN体系结构,用于融合VIS和IR图像信息并生成proposals,描述BDT分类器以及如何提取人员分类的深层特征。

Faster R-CNN提出了RPN,训练一个全卷积网络来执行bounding box regression并同时确定目标分数。RPN与第二个CNN(用于proposed region分类)共享卷积层。RPN首先在图像中常规网络的anchor location使用不同尺度的proposals,然后,在anchor location附近的有限图像范围内,将每个初始的proposals回归到最可能的目标位置。这样,生成了一定数量的proposals并用score进行排序。[27]中改进RPN使其适应多光谱行人检测,proposed bounding box宽/高=0.5,两个独立的预训练卷积层VIS和IR CNNs在某层连接以产生深层融合特征。然后,RPN和Faster R-CNN的分类网络都对这些特征将那些评估。

我们的方法受到[27]中Faster R-CNN的启发,不同的是:1>我们按经验确定最佳融合层,可提供更精确的proposals并为BDT分类器提供了深层特征更高的分辨率。2>使用不同训练数据,略微提高proposal的质量。3>未采用分类网络,单独的RPN已经能实现更高的检测性能【39】。

基于VGG-16的连个独立CNNs,并移除FC层,使用ImageNet上的预训练权重初始化卷积层。这两个网络分别是针对行人检测任务的VIS RPN和IR RPN的训练基础。每个RPN构建在VGG-16网络的conv5_3层上,然后是3x3 conv+2个同级的1x1 conv用于边界框回归和分类。input:960x768,conv5_3的输出特征图为60x48,表示采用16 pixel stride的边界框回归的anchor position。在每个anchor position,我们考了9种不同的比例,因此每个RPN在每个图像上生成60x48x9=25920 proposals。分两阶段对两个单独网络进行fine-tune,VIS RPN:1>Caltech training dataset 2>KAIST VIS training dataset,IR RPN:1>CVC-09 dataset 2>KAIST IR training dataset。

将两个RPN用于融合体系,分析了5个融合选项,每个conv k(k=1~5)的max-pooling后。VIS和IR的融合是通过concatenating前一个conv的特征图完成。这导致特征图数量加倍,后续要使用预训练的VGG-16权重,引入1x1卷积(称为Network in Network(NIN)),减少尺寸。对于conv5后的融合,可省略NIN,这里不重用VGG-16,通过随机初始化从头训练RPN层。融合结构为图二,a为早期,d为中间融合,e为后融合。红色:卷积层,黄色:RPN层。其中,c为最佳proposal generation结构。

每个卷积层内部的刻度显示了卷积子层的数量,即conv1由子层conv1_1,relu1_1,conv1_2,relu1_2和pool1组成。conv-prop表示中间的3×3卷积层,而cls-score和bbox-pred则是两个同级层,用于分类和包围盒回归。

图二

3.2. Classification using Boosted Decision Trees (使用增强决策树进行分类)

【39】指出单独RPN能达到相似Faster R-CNN的性能,使用较小的分类器(BDT)重用深层特征可提高检测性能。图三展示我们如何从RPN提供的proposals(ROIs)种提取深层特征。

这样,我们不仅可以从单独的conv3 VIS和conv3_3 IR层中获取特征,而且还可以从融合层conv4_3中获取feature。对于每个ROI,ROI pooling被用于获取固定数量的功能,而与ROI scale无关(每个ROI内部特征的分辨率固定为7x7)。

我们特征池由12544(conv3 VIS)+12544(conv3 IR)+25088(conv fusion)=50176 features,而ACF-T-THOG仅有19350 features

图三 在最大池化之前,在两个不同的卷积层提取深度特征。

3.3. Implementation Details

基于Caffe框架

由于VGG-16网络希望每个输入图像(RGB)具有三个平面,因此我们只需克隆热IR图像的单个平面,从而为IR RPN生成三个平面IR图像。Anchor 宽/高=0.41。IOU>0.7,通过nms(non-maximum suppression)仅保留得分最高的一个。BDT分类器模型取自【10】.

4.Experimental Results

表2

训练数据对五种不同融合RPN架构的对数平均丢失率的影响(见图2(ae)):第三训练数据选项与第三卷积层conv3之后的融合相结合获得了最佳结果(下划线)。

5.conclusions

提出了结合BDT的全卷积RPN用于多光谱行人检测,该数据由三个VIS通道RGB和一个附加的热IR通道组成。

通过实验确定最佳融合的卷积层

性能在KAIST上达到sota

  相关解决方案