Pedestrian Detection in Thermal Images using Saliency Maps_综合

IEEE Workshop on Perception Beyond the Visible Spectrum,

Madalina Fiterau, Tauhidur Rahman University of Massachusetts, Amherst

CVPRW 2019 引用量：15

Contribution：1>提供了像素级标注，以进行显著性目标检测，2>通过显著性图和thermal image进行融合，得到更好的性能（仅使用thermal image）。

views：疑点一：从论文中的显著性图的结果来看，有着非常好的表现，至少从肉眼来看，它比thermal image更容易检测行人，但从实验结果看，不做与thermal的融合，大部分将低于原始的thermal（从作者文章的解释角度来说是由于丢失了纹理信息，我理解为在提高显著目标的同时，抑制了其他目标和背景，导致弱小目标容易被忽视，而小目标是影响检测性能指标的重要因素）。疑点二：文中说R3-Net由于有后处理，所有比PiCA-Net有略好的性能，但从实现结果看，反而单独使用PiCA-Net的结果做检测更好使。mAP越大越好，LAMR越小越好。本文的显著性图和thermal image的融合方式略显粗鲁，直接进行channel替换。好在第一次融合显著性图进行红外行人检测，略有贡献点。其他东西，本文都不太行。

ideas：显著性图是一种增强，可以理解为一个像素级的mask，背景为0，显著性目标为1，类似二分类目标的标，或者说是一种由0，1构成的矩阵，通过空间注意力，可以生成这样的mask，对特定的空间位置予以关注（比如有标注框的位置），其实是同类出发点，并少去了标注的工作。

Abstract：Thermal image主要在night或bad lighting conditions表现较好，但是在白天表现很差。许多SOTA使用融合网络（color-thermal images）。相反，我们提出用saliency maps增强thermal image，作为一种attention mechanism辅助行人检测，尤其在白天。调查怎么仅使用thermal image提高性能，减少color-thermal图像对的需求。训练Faster R-CNN并对比添加显著性图（PiCA-Net and R3-Net）的效果。Miss rate在白天和夜晚分别减少了13.4%和19.4%。标注和发布pixel level masks of pedestrians在KAIST的子集上，这是第一个被公开的数据集。

1.Introduction

行人检测在video surveillance systems and autonomous driving中有着重要作用。同时伴随着很多挑战，如：low resolution and occlusion，在color image和video中已广泛研究。

color和thermal明显互补，但color-thermal昂贵且需要标定准确。

为解决thermal image在白天下的挑战，我们提出了saliency maps。显著性图可理解为视觉attention，在给定场景中阐明属于突出对象的像素。因此，使用显著性图和thermal image提高检测器性能，尤其在白天。首先单独使用thermal来训练SOTA（Faster R-CNN）检测器，然后使用静态和深度学习的方法来生成显著性图（PiCA-Net和R3-Net）。

贡献如下：1>据我们所知，这是first paper展示saliency map在提高红外图像行人检测的影响 2>发布 pixel level annotations 和使用SOTA网络提高 saliency detection benchmarks。

Section3 提出一个新的salient pedestrian detection dataset（we annotated for this purpose）

2.Related Work

Pedestrian detection：传统的，行人检测使用手工制作的特征或算法，如LCF，ACF，and LDCF。DL在行人检测的应用（Faster R-CNN）。介绍多阶段无监督的特征和skip connections以进行行人检测。[24]引入Scale Aware Fast R-CNN使用sub-networks在不同尺度检测行人。

随着multispectral dataset发布，多模态检测变得普遍。

Saliency detection（显著性检测）：salient object detection旨在强调图像中最显目的目标，过去几十年，已提出大量的方法。

3.Approach

解释Faster R-CNN在thermal image中的使用，然后提出使用saliency maps增强thermal image来提高检测性能。最后，描述了KAIST子集的pixel level annotation。

3.1 Baseline for Pedestrian Detection in Thermal Images using Faster R-CNN

在KAIST的thermal image上训练Faster R-CNN

3.2 Our Approach: Using Saliency Maps for Im-proving Pedestrian Detection

提出使用从thermal image中提取的saliency maps，通过pixel level context使行人检测器表现更好。单独使用Saliency maps会丢失纹理信息，故通过saliency maps来加强thermal image。通过用相关的saliency maps取代3-channel中的一个重复channel，如图1a（gy：看图中的效果还是很明显的，显著性图加强显著性目标，转言抑制其他目标，对于小目标和遮挡行人来说，反而更差）。Thermal+saliency提高图像中的突出部分，同时保持图像中的纹理信息。

（这效果图有点恐怖世界的感觉了，hh）

3.2.1 Static Saliency

生成static saliency maps（使用Opencv library），它强调了所有显著的目标，如图2的b和c。为更加强大的saliency detection留下了空间，它将只检测出行人（图d的效果有点变态啊，这么好的嘛）。

3.2.2 Deep Saliency Network

Two SOTA saliency networks

PiCA-Net：是一个pixel-wise contextural attention network，为每个像素生成对应于每个位置的相关性attention map。使用Bidirectional LSTM（双向LSTM）获取global context。使用conv获取局部感受野。最后，U-net结构聚合PiCA-Nets的层次结构以进行显著性目标检测。

R3-Net：使用Residual Refinement Block（RRB）以一种递归的方式去学习Groud Truth和saliency map。RRB利用low-level features和high-level features，通过在每个反复间隔中将先前的显著性图添加到所学习的残差中来加强saliency maps。

这些技术仅照亮行人。

3.3 Our Dataset：Annotating KAIST Multispectral Pedestrian

为训练saliency network，需要显著目标的pixel level annotations。由于没有可用的数据集，我们创建了一个行人显著性数据集，并公开以促进对多光谱行人检测的进一步研究。

通过对白天（每15张）和晚上（每10张）的所有图像进行采样，在KAIST的训练集中选择1702张图像。选择这些图像是为了在一天中的两个时间段（913个白天图像和789个夜晚图像）获得大致相同数量的图像，其中包含4170个行人实例。注意，pixel level annotations不是完全精确，所有不适合精细的语义分割任务。Table1展示了这个数据集对于突出行人检测任务很合理。

4.Experiment

（这种曲线图不知道怎么画的，要了解，PR曲线我老画不出来，害）

5.Conclusion

2个贡献：提出pixel level annotation和采用显著性图来辅助thermal image进行行人检测