Multispectral Pedestrian Detection via Simultaneous Detection and Segmentation
(BMVC) 2018年8月 CCF C类 浙江大学 引用量:22
code:Li-Chengyang/MSDS-RCNN: ''Multispectral Pedestrian Detection via Simultaneous Detection and Segmentation''. BMVC 2018. (github.com)
数据集???
contribution:
1.提出了一种融合结构,MPN和MCN分别用于产生proposals和proposals的重新打分
2.结合detection和segmentation联合优化
Views:
1.网络结构整体没太大的创新,值得注意的这种只用于训练阶段的辅助网络,第一次见是在一篇深度估计的文章中, 这是第二次见。
2.可能当时检测和分割的融合还是一种新颖的思路,17年刚好是Mask R-CNN,Mask R-CNN是ICCV2017的best paper。
3.从目前读的文章来看,KAIST的数据集,感觉问题很多,不是个好消息。
摘要:
提出了一个网络融合架构(Multispectral Simultaneous Detection and Segmentation R-CNN (MSDS-RCNN)),包括一个用于生成行人proposals的网络,以及一个子网络用于从hard negatives中分类行人,通过共同优化行人检测和语义分割任务来学习网络。最终的输出是整合不同模态和两个阶段的输出获得的。此外,还对KAIST中的部分错误注释进行修改,train-test都在修改后的dataset上进行,性能达到SOTA。
1.Introduction
指出行人检测的重要性。指出目前研究方法不足:大多数探测器仅聚焦于natural light,在不充分的光照条件下难以工作。
指出:即使目前最先进的检测其也远远落后于人类性能,通过更好地利用多光谱图像,有很大潜力提高检测性能。
表明将语义分割任务合并到proposal stage中可提高性能。手动纠正training annotation,研究了不同种类的training annotation error(imprecise localization、misclassification、misaligned region)
contribution:1>新的网络架构,MSDS-RCNN 2>为KAIST 创建了human baseline,揭示检测器和人类性能的差距 3>为KAIST提供了经过净化的training annotation,基于此,性能提高 4>MSDS-RCNN在KAIST上的log-average miss rate从15.78%降到11.63%,经过校正后的training annotations,进一步提高到7.49%。
2.Related Work
Color Image based Pedestrian Detection:Fast/Faster R-CNN主流,表现很好。MS-CNN、SAF-RCNN加入尺度。F-DNN和SDS-RCNN分类downstream classifier,不与proposal network共享weights,可以更好地处理hard example(困难样本挖掘方面,我不太懂)
Multispectral Pedestrian Detection:CVPR-W【18】提出了RPN+BF,同时,【14】【19】提出了照明感知融合架构(illumination-aware fusion architecture),通过illumination-aware weighted function融合了color/thermal sub-networks和day/night sub-networks(原来早就有这个想法了)。
Segmentation for Pedestrian Detection:【4】中将行人边界框注释用作弱监督分割,可同时训练分割和检测任务。
3.Preliminaries
3.1 Pedestrian Benchmark
按照[19]中提出的方法,我们从训练视频中每两帧采样一次图像,排除严重遮挡,截断和小的(<50像素)行人实例,最终获得7,601幅训练图像。测试集包含从视频每20帧采样的2,252张图像,其中白天捕获1,455张图像,夜间捕获797张图像。由于测试集的原始注释包含许多有问题的边界框,因此我们使用了Liu [23]改进annotation(头大,这破数据集问题好多)。
3.2 Human Baseline
通过实验,人类的表现超过了目前最新的算法,FPPI大概在0.02。(想起了吴恩达课上提高的模型优化)
4.Proposed Method
两个组件:multispectral proposal network (MPN) 和 multispectral classification network (MCN)
VGG16=13*conv+2*FC+Softmax
4.1 MPN
目的是生成覆盖大量ground truth的candidate bounding boxes(通过使用color和thermal modalities),由此生成的proposals包含大量的false positives,随后MCN会予以解决。
图2左为MPN,包含2个输入:color and thermal,对应两个子网,都是移除FC层的VGG=16,并在third convolutional block后进行连接,从而获得merged stream,在精细的视觉细节和语义信息间取得平衡。采用【21】中的 Network-in-Network(NIN)来缩小维度进行网络融合,以便于重用VGG-16的特征。在训练阶段,不会截断原始颜色流和热流,因为它们可用于为训练后续的MCN提供更多样化的proposals(应该就是图中的仅训练阶段)。移除第四个pooling layer,提供stride=8的更精细特征步幅,在处理小目标时更有效。对于color stream、thermal stream、merged stream的detection module,在VGG-16顶部的每个conv-5-3 构建了standard proposal module,包含一个3*3conv、两个1*1 conv(用于box regression and classification)。用于行人检测的anchor介绍如下:我们将training data分为8个分位数,并将所得的9个端点用于RPN量表。此外,使用值为0.4的fixed aspect ratio(固定宽高比=0.4)。IOU>0.5为正样本。Segmentation module每个conv5-3层的顶部,也加入标准构建模型,这里仅仅是1*1卷积层。
通过以下九项最小化 joint loss function:
在推论过程中,我们仅使用融合流生成行人候选者,因为它可显着加快测试过程,而不会明显降低性能。
4.2 Multispectral Classification Network
作为MPN的后续阶段,MCN旨在对MPN生成的proposals进行重新评分,并且特别着重于处理困难的示例(hard examples)。
在训练和推理阶段,由MPN生成的confidence score(置信度)大于0.01传递到MCN,小于则过滤。Fllowing【4】,在各个方面将候选框填充0.2倍,以合并上下文信息避免被部分裁剪。对于每个候选框,缩放到固定大小,传入MCN。其他网络结构同MPN,在FC7上为binary proposal classification构建输出层。
IOU大于0.7为positive label,否则,为false label。
?=?1????????????+?2????????h?????+?3???????merged+?4????segcolor+?5????segthermal+?6????segmerged
上式为MCN的损失函数,前三部分是classification loss,后三部分是pixel-level segmentation loss,?i =1.(加权因子)
为提高效率,删除VGG-16中的第五个池化层,将第四个池化层的filter size调整为2x1,input size调整为112x56.在推理过程中,将top k 个proposals作为输入,进一步降低计算成本,不足k个,则将其余proposals作为输入。
由于颜色和热模态表现出不同的视觉特征,因此预计从颜色,热流和合并流中得到的分类特性在融合时将是互补的。此外,由于MPN和MCN分别用于处理一般情况和困难示例,因此MPN和MCN的分类结果也是互补的。因此,我们融合了来自不同阶段和方式的分类分数。最终的classification score是通过softmax function获得的:
6.Conclusion
提出了MSDS-RCNN架构,用于多光谱行人检测。
检测和分割联合优化
性能达到sota
纠正了training label,用于夜间图像,显著提高检测性能