当前位置: 代码迷 >> 综合 >> KAIST : Multispectral Pedestrian Detection: Benchmark Dataset and Baseline
  详细解决方案

KAIST : Multispectral Pedestrian Detection: Benchmark Dataset and Baseline

热度:52   发布时间:2023-11-14 01:26:03.0

Multispectral Pedestrian Detection: Benchmark Dataset and Baseline 

引用量:367        CVPR2015     单位:In So KweonKorea Advanced Institute of Science and Technology (KAIST), Republic of Korea

Views:该数据集是color-thermal对齐性最好的,提供了丰富的图像对,有着重大意义。

Ideas:结合之前看的数篇文章,目前跨膜态学习的方式大概为三种,分别是thermal辅助color,color辅助thermal,color-thermal融合。2020年提出两篇,ECCV2020第一篇:借助可见光发展推动红外,简单分类day/night,生成条件参数,注入网络,仅使用红外达到sota性能,ECCV2020第二篇:通过解决模态不平衡问题改善多光谱行人检测。CVPR2017提出通过thermal辅助RGB进行学习,最后测试仅使用RGB。问题的难点:1>不平衡问题   2>color-thermal不对齐问题   3>通过day/night区分实现自适应检测。结合传感器失灵进行考虑,可以设计一种多模态网络,并且该网络具备多个特点,color-thermal可用,融合模型;color不可用,转为color辅助thermal;thermal不可用,转为thermal辅助color。

Abstract:

现有的行人数据集仅含color channel,但是thermal channel对黑暗环境下的检测大有帮助。考虑到这一点,提出了一个Multispectral pedestrian dataset,它提供了良好对齐的color-thermal image pairs,被beam splitter-based special hardware捕获。Color-thermal dataset与以前color-based datsets一样大,并提供dense annotation 包括temporal correspondences。介绍了multispectral ACF,以同时处理color-thermal image。多光谱ACF将ACF得average miss rate降低了15%,实现了新突破。

1.Introduction

行人检测的重要性+行人检测的挑战

为解决automobile application,通常使用两种类型的红外传感:near in frared(0.75~1.3um)摄像机或long-wavelength infrared(7.5~13um)。

贡献:(1)介绍了multispectral pedestrian dataset,它提供了对齐的热图像对。(2)分析了color和thermal channel之间的互补关系,并暗示了独立地使用color或thermal channel的strong point。(3)我们提出了几种与thermal channel的组合,提出的方法在multispectral pedestrian dataset上降低15%的average miss rate。

2.Multispectral Pedestrian Dataset

介绍了imaging hardware 和 捕获多光谱行人的calibration procedure。下一节中分析dataset。

2.1 Imaging Hardware

Hardware specification:相关的相机配置。

Camera calibration(相机校准):

Color correction:通过捕获图像的强度水平来缓解color distortion(颜色失真)

2.2 Data Collection and Ground Truth

Data capture:设备挂载在车顶进行采集,并考虑光照条件,采集夜晚和白天的图像。Fig4是例子。

Ground truth annotation:95,328 color-thermal pairs中,手动注释103,128个密集的注释和1,182个行人。只有独立的人标注为person,不能区分的标注为people,骑两轮车的人被标注为cyclist。在高度凌乱场景中,甚至不能区分是不是行人。数据集中,一个人平均出现74.80 frame(对应3.74s)。

Train and Test sets:将annotated color-thermal image pairs划分为train/test datasets,我们使用了后续标准。1>行人出现数量相同,2>day/night的帧数相同,3>两个集合不重叠。该方案有助于避免特定场景的data bias and over-fitting

2.3 Properties of Dataset

图5显示行人在像素单元中的高度与其相应的距离(米)之间的关系

Scale:行人检测的重要应用是accident avoidance,根据车辆的制动距离分类了annotated bounding boxes的大小。在城市地区(行人经常出没),30~55Km/h速度下,制动距离为11~28m。行人高度为1.7m,则相应的图像高度为45~115像素。划分size为3类,near,medium,far。

Occlusion:关于行人的遮挡问题,标注为3类,没遮挡的标注为 no occlusion,遮挡到遮挡一半的标注为 partial occlusion,大部分被遮挡的标注为heavy occlusion。所有的标注中,75%的行人被标注为no occluded,12.6% 标注为 partial occlusion,8.8% 标注为 heavy occlusion。(超过20%为困难场景,后续方法,理应考虑hard example处理

Position:图6(a)显示了高斯分布的注释中心。由于right-handed condition,行人主要出现在右侧,图b显示每帧中行人数量。

Appearance change:图7显示了白天和夜晚的几个例子,由于强烈的灯光,color image显示出清晰的人形。另一方面,由于黑暗环境,color image在夜间的形状不可分辨。但是,thermal image在夜间显示出不同的形状,当空气温度较冷,温度差异大,能在夜间清晰地捕获固定温度的行人。白天强烈的太阳辐射造成back-ground clutter。

2.4 Comparison to Existing Datasets

表1总结了现有的数据集,可划分为color,thermal,and color-thermal

3.Baseline Approaches

介绍ACF和扩展ACF以编码thermal channel(传统方法组合,可读性不高)。

4.Experiment

5.Conlcusion

介绍了真实交通场景的 multispectral pedestrian dataset,数据集有丰富的信息,thermal images,various real traffic scenes,lots of annotations with occlusion tags,and temporal correlations of the annotations(注释的时间相关性)。

  相关解决方案