Pattern Recognition(CCF B) 引用量:65 2018/03/01
浙江大学
贡献:主要提出了illumination-aware weighting mechanism,根据光照强度对two steams 进行融合(ECCV2020的那个光照感知模块就是来自这篇文章,Improving Multispectral Pedestrian Detection by Addressing Modality Imbalanece Problems ,代码我也看过了,keras,不好借鉴)。同时还生产segmentation,但仅作为了一种联合优化,这里是否可以作为其他先验(类似,Multispectral Pedestrian Detection via Simultaneous Detection and Segmentation )。
问题:关于网络训练,从整个文章来看,作者分为两次,首先是整体faster r-cnn的训练,然后是gated function的训练。由于需要使用到分类网络,应该需要对分类网络提前进行训练(我猜的)。所以应该是三次,Faster R-CNN训练,illumination-aware network训练,两者通过gated function合并,进行fine-tuning。还有一点问题,对于分割任务,需要mask label,但是KAIST整个文章压根都没提到segmentation和mask,也就是说没有分割标注,后续还应关注(涉及segmentation和detection的结合)。
ideas:通过网络来学习光照亮度需要用到label,可能的确准确度要高一些,但这个流程也很繁琐和复杂(主要是这个网络拼一块,实施有难度,从而推动考虑能否考虑直接获取光照的方法。避免了网络分支和重复训练的问题。最近学习了以一下互信息的相关知识,不知道能否直接从这里做突破。常规的传统方法也有获取光照亮度)。考虑如何结合segmentation,弄懂大家的segmentation怎么做的。2021/5/1
Abstract
多光谱行人检测比RGB更有效,尤其在恶劣情况下(暗光)。然后,如何有效融合两种方式仍缺乏研究,,在本文中,深入比较了六个不同的融合架构,并分析了它们的适用性,确保得到相当SOTA的检测性能。此外,我们发现利用color-thermal image的行人检测置信度与光照条件相关。考虑这点,我们提出了一种照明感知的Illumination-aware Faster R-CNN(IAF R-CNN)。详细的,IAF R-CNN会给出输入图像的照明亮度。然后,我们通过光照值定义的门函数来合并color-thermal image。KAIST数据集上验证了IAF R-CNN的有效性。
图一 illumination-aware weighting mechanism。color和thermal子网分别检测行人。根据照明条件合并两个子网的输出获得最终结果。左图照明条件好,右图照明条件差。图中不涉及RPN。
1.Introduction
主要围绕光照问题。直观上。color和thermal是互补的,提供了不同的视觉线索。然后,有一个问题,怎么使用每种模态。在良好的照明条件下,color和thermal相辅相成,在恶劣的照明条件下,仅用thermal是更好的选择,并与color融合不提高性能。
现有解决color和thermal融合问题的主要通过两种方式。一个是以相同权重合在score level合并two streams,不管它们的贡献。在不利光照下,容易出错。另一个是在网络的特定层进行融合,期望网络自动学习加权参数,但分类/检测模型对光照变化不敏感,使得参数不适合加权决策。更好考虑融合问题,需要引入照明条件。
提出IAF R-CNN,图一显示加权机制(illumination-aware weighting mechanism)。给定color-thermal image和从RPN中生成的行人候选(图中省略)。Color 和 thermal针对每个proposal输出单独的检测置信度和边界框回归。最后,通过illumination-aware weighting mechanism将two stream合并分为两步。第一,照明测量()。第二,利用门函数生成照明感知权重。IAF R-CNN = multispectral Faster CNN + weighting parameter。
贡献:1>对Faster R-CNN派生的六种融合结构进行深入比较,并指出它们的关键适应方案。只要合适的调整,Faster R-CNN会取得显著改善,与最新方法匹配。(2)提出IAF R-CNN model,
整合color sub-network,thermal network到一个统一的框架中。 (3)提出一种illumination-aware weighting mechanism提高color-thermal的贡献。使用提出的IAF R-CNN,在KAIST上取得SOTA。
2.Related Work
Convnets for pedestrians detection.:介绍行人检测的发展
Multispectral pedestrian detection.:介绍多光谱行人检测的发展
Network fusion problem.:介绍网络融合的问题,通过其他领域的融合问题进行引入。领域也许不同,但融合思路可以借鉴。
3.Faster R-CNN for multispectral pedestrian detection
不同网络阶段的功能表现出不同的焦点,较低层具有更精细的视觉细节,高层有更丰富的语义。针对Faster R-CNN进行input fusion,early fusion,halfway fusion,late fusion,score fusion I and score fusion II,如图2所示。本文基于VGG-16架构构建网络,并使用ImageNet数据集预训练权重初始化网络。对行人检测的几种潜在方法进行了探讨。
图2 a-f分别展示input fusion,early fusion,halfway fusion,late fusion,score fusion I and score fusion II(注:子图的顺序)。
3.1 Architecture
Input Fusion:直接在输入端进行cat。
Early Fusion:第一个卷积块后进行cat。
Halfway Fusion:通过NIN降维。
Late Fusion:high-level的融合,在最后的FC部分进行融合。将conv5进行concatenate,输入RPN。
Score Fusion I: 两个子网分别生成proposals和detections,然后将检测结果馈送到另外一个子网中重新计算置信度。最终检测将two-stage的置信度得分进行合并,可认为是两个子网的级联设计(这种方式有点意思,但看样子,作者不推崇)。
Score Fusion II:类似后期融合。将来自两个子网的bounding box regression和detection scores取平均值,获得最终的检测结果(最简单的模型ensemble方式)。
点评:从融合时机分为,前中后三种。从融合级分为输入级,特征级,决策级。前中后均有各自的优点和缺点,所以目前使用较多的是层层融合,避免考虑融合时机。但层层融合,网络收敛难度大,复杂性高,浪费计算资源(前,中,后融合都可看作是层层融合的特例)。输入级需要考虑模态对齐问题,特征级需要考虑特征对齐,决策级本质是一种模型的ensemble。
3.2 Adaptation
Default setting:主要遵从Vgg-16搭建的Faster R-CNN配置。目标是站立的行人,抛弃了0.5的anchor ratio以促进training and testing speed。排除被遮挡或被截断的行人和高度小于50的像素,得到了7095个training images,共12790个有效实例。在训练过程中,采用图像中心训练方案,并使用1张图像和120随机采样的anchor组成mini-batch,正负比例为1:5。Learning rate=0.001,在4个周期后除以10,然后在6个周期后终止训练。
Finer feature stride:在默认设置下,VGG-6的步幅为16 piexels,这对于更小的行人实例太粗糙。删除了最后一个最大池化层,提供了8 piexels的精细特征。
Input up-sampling:对输入图像执行上采样是处理粗糙特征步幅的另一种策略。对输入图像执行2倍上采样。
Include occluded instances:训练包括被遮挡的实例。
Ignore regoin handling:KAIST有的区域无法确定是否包含行人。由于我们仅采用最小高度为50 pixel的行人实例进行训练,可能忽略小的实例。确保训练不对这些区域采样。
3.3 Multispectral pedestrian detection benchmark
KAIST(唯一良好对齐的color-thermal datasets),CVC-14(对齐性差)
描述了半天KAIST,这。。。。
对于评估,每张图在范围[10-2,100]的false positives(FPPI)平均the miss rate(MR) 用作检测精度的度量。
将MR0和MR1表示原始注释和改进注释。
表1 具有不同适应性设置的六种体系结构的检测性能(就MR O和MR I而言)。对于每种设置,我们还报告所有体系结构的平均性能及其相对于基线的改进。
3.4 Results
表1列出检测性能的逐步比较,得到下面分析。
1.MR1比MR0更适合测量检测性能。MR1通常低于MR0大概10%到15%个点。当MRl高得时候,发现总体排名趋势是一致的。但是,当MRl低于25%,MR0得指标失去了辨别力,因为其值在30%到35%之间波动。通过仔细检测原始测试注释,发现存在许多未标记的行人实例。故,仅根据MR1来测量和报告检测性能。
2.经过适当的调整,与默认的设置相比,六种融合结构获得了显著改进,MRl和MR0平均降低10.41%和7.44%。两者组合不会显示进一步的改进。
3.六种结果中,halfway fusion和score I 表现更好。
4.最后发现在不同照明条件下color和thermal之间的互补。与单一模态相比,所有六个融合体系都获得了更好的结果,表明color和thermal相互补充。然而, 六个体系结构都没超过thermal的结果,表明color在恶劣照明条件下引起了混乱。
图5 双子网分别生成边界框和得分,利用照明加权模块进行融合。紫色是segmentation,仅在训练阶段使用。
我就说前面咋这么水。。。才刚开始啊
4.illumation-aware Faster R-CNN
4.1 Overall architecture
图5展示了IAF R-CNN的总体架构,基于Faster R-CNN检测框架和第3节中的实验结果。IAF R-CNN包括三部分:Faster R-CNN,侧面照明估计模块,以及最后的门控融合层。利用Faster R-CNN分别从color和thermal生成单独检测。照明估计模块用于给定图像的光照情况,最后引入门控融合层考虑估计照明量去融合color和thermal实现鲁棒检测结果。
应用score fusion II 作为IAF Faster R-CNN的主要结构。但移除了平均加权层,使两者分开检测。在分类置信度得分和边界框坐标方面,选择这种融合类型有以下两个原因:对比卷积层或完全连接层的融合,得分级的融合在语义和含义上都更加明确,更好加权。对比score Fusion I,Score Fusion II 删除了额外的级别阶段,更加简洁。此外,使用pedestrians masks作为附加监督信息[51],因为他们在color image的行人检测中证明它的优点。为实现,分割模块只是一个1x1conv layer。对于给定的输入图像,考虑三种不同方法测量照明条件,两种是传统方法,一种是网络方法。发现illumination-aware Network(NIN)是最有效的。它由卷积,全连接和最大池化组成,将彩色图像作为输入并提供照明条件度量。对于gated fusion layer,计算两种模态的权重用于融合。
4.2 illumination Estimation
thermal对于光照显示不敏感,故使用RGB估计照明条件。形式上讲,照明估计可定义一种映射I->iv,其中,I为输入图像,??∈01 表示光照值。但这是一个困难任务,数据集没有真实的照明条件标签(具体的照明值没有,仅有白天/夜晚的标签)。
Key & Range. 图像的亮度特征可通过key(average luminance)and Range测得。详细说,key定义为图像的平均像素值,而range为90th和10th像素值百分数之间的差异。最后,将key和range归一化为[0,1]。
Key和Range的分布如图6所示,nighttime images通常有着相对白天更低的值,但用这种方法对白天和夜晚有一定重叠。
IAN. 考虑引入IAN网络来估计照明条件,使用day/night label训练IAN。
RGB resize为 56x56,IAN包含2个3x3的卷积层,之后是Relu+2x2 max pooling,最后是2个伴随256和2个神经元的FC。在第一个FC层后插入dropout,缓解过拟合问题。网络最小化预测和label之间的softmax loss,并将day类作为输出照明值(illumination value)(网络本质是一个二分类网络,学习日夜分类,将白天输出作为illumination value,后面通过illumination value生成权重,将权重用于网络融合训练)(注:这个其实和2020年的那篇解决不平衡问题的文章的顶会结构完全一样,卷积层和FC层的个数都一样)。使用RGB预测光照亮度的两个原因,第一,trunk network在imagenet上预训练并对目标检测fine-tuning,但是,两个任务的model都适合光照变化的不变性。第二,采用了“image-centric”的采样策略,学习照明估计需要大量的minu-batch以确保收敛。
4.3 Gated fusion
引入gated fusion layer有效地将color和thermal结合起来。设计illumination-aware weighting mechanism根据照明条件生成融合权重。精心设计gated function定义??∈01如下(通过illumination value来计算权重):
?=??1+?exp????0.5? (1)
其中,?和?是两个可学习参数。定义Wcolor=w,Wthermal=1-W,表示我们依赖color和thermal预测给定图像中行人的置信度。
两个子网生成两个输出:(K+1)类的confidence score s=(s0, sk)和k个目标的bounding box offset t=(t1, ,tk)。scolor和tcolor是color sub-network。最后的检测结果为:
?final =?color ×?color +?thermal ×?thermal ?final =?color ×?color +?thermal ×?thermal (2)(3)
4.4 optimization(重要)
训练包括两个主要阶段,在第一个阶段,通过最小化联合损失函数来训练Faster CNN:
? =?1????+?2???????? +?3????h????? +?4???? ????? +?5???? ?h????? +?6??????? ????? +?7??????? ?h????? (4)
其中,Lrpn是proposal loss,Ldn是detection loss,两者定义同Faster R-CNN。Fllowing 【51】,加入两种行人分割损失。Lseg是image-level per-pixel loss。G和P分别表示Ground truth和prediction,如下:
????=1?×??????,?,??,? (5)
其中,H和W是特征图的大小,而 l 是交叉熵损失函数。?segroi color 和?segroi thermal 是roi-level pre-pixel loss。??,?,?和??,?,?分别表示c-th roi的GT和prediction mask,如下:
??????? =1?×?×???????,?,?,??,?,? (6)
其中,C是rois的数量。在我们的实验中,所有??设置为1。
第二阶段,最小化最终检测损失????????来优化gated function权重,此阶段,仅反向传播到gated fusion layer(完全反向传播没有起作用)(fine-tuning gate function layer)。
5.Experiment
5 .1 Implementation details
使用KAIST的color image,使用KAIST数据集训练集的color image。
6.Conclusion
针对多光谱行人检测进行两方面改进。首先,重视几种多光谱Faster R-CNN架构,证明有效性。然后,提出了illumination-aware Faster R-CNN结构,考虑照明条件将color-thermal sub-network合并。引入照明感知加权机制,自适应融合两个模态。证明IA Faster R-CNN的有效性,尤其是恶劣条件下。未来,计划将激光和多光谱进行融合,进一步提高方法的鲁棒性。