Task-conditioned Domain Adaptation for Pedestrian Detection in Thermal Imagery ECCV 2020
引用量:41 机构:
code:https://github.com/mrkieumy/task-conditioned
youtube:ECCV paper, Task-conditioned Domain Adaptation for Pedestrian Detection in Thermal Imagery, Kieu My
贡献:
1>引入日夜划分的思想,通过辅助分类来提高检测网络性能
2>提出了两种将调节层插入检测网络的策略
3>大量的ablative analyses
Views:
本文说到底主要是提出了一个小挂件(结构也十分简单),尽管有着很好的效果,但是能被ECCV收录,一部分原因主要在于红外行人检测领域的稀缺。
辅助分类最后的输出是怎么帮助网络学习的,文章没提到
Abstract:行人检测是计算机视觉的核心问题,要求有着较高的可靠性,具有很大的挑战和技术难度,尤其在夜晚和恶劣天气下,
这也是近年来热图像和多光谱方法变得流行的原因之一。在本文中,我们提出了一种新的域自适应方法,该方法可以显着提高热域中的行人检测性能。关键思想是采用RGB训练的检测网络来同时解决两个相关任务。在域自适应过程中,将区分白天和夜间热图像的辅助分类任务添加到主要检测任务中。学会执行该分类任务的内部表示用于在多个点对YOLOv3检测器进行调节,以改善其对热域的适应性。通过与KAIST多光谱行人检测基准测试中的最新技术进行比较,我们验证了任务条件域自适应的有效性。据我们所知,我们提出的任务条件方法可以实现最佳的单模式检测结果。
1 Introducton
行人检测是CV中的重要问题之一,在各种实际应用中(eg:安全和保障、监视、自动驾驶)发挥着重要作用。在许多常见情况下,如:有限的光照、恶劣天气(雾、雨、灰尘),检测具有挑战性,基于可见光的大多数检测器可能会失效。
由于这些原因,已提出利用thermal image的健全可靠的行人检测方法,越来越多的作品还研究了将可见光图像和热图像结合进行可靠的行人检测。
但是,两种模式需要昂贵的注释和更复杂的网络体系,部署时需要校准多个传感器,适用性差。除了技术和经济的原因,热图像所拥有的保护隐私的特性也是促使人们首选热图像检测(红外图分辨率低,保护隐私)。仅用热图像关注行人检测,该任务很有意义且有着很大的提升空间。我们的关键思想是用解决了一个【简单分类任务的辅助网络增强】检测器,然后利用该辅助网络的学习表示将条件参数注入到【策略性选择的主检测网络的】卷积层中。与其他单模态方法相比,所生成的自适应网络完全在热域中运行,并具有出色的性能。
本文的贡献:
- 提出了一种基于YOLOv3的新颖的任务条件网络架构,该架构使用日/夜分类的辅助任务来帮助适应热域。
- 我们进行了广泛的ablative analyses 以探索各种任务调节架构和适应计划的有效性。
- 据我们所知,我们的任务条件检测网络的性能优于KAIST多光谱行人检测基准[17]的所有单模态检测方法。
- 仅利用热成像技术,我们在夜间的表现就超过了KAIST基准上的许多最新的多光谱行人探测器。
文章结构安排,回顾与我们提出领域适应方法的有关文献,第3节中描述了根据日夜区分辅助任务来调节热域自适应的方法,
第4节中报告了为评估任务而进行的广泛实验,第5节,讨论了我们的贡献。
2.Related Work 这一节写得太棒了,不愧是顶会
得益于热成像仪成本降低和实用性提高,许多工作已经研究如何在多光谱和热域中执行它。
2.1 Pedestrian detection in the visible spectrum
主要挑战来自遮挡、光照改变、视点和背景的变化。
在[39]中通过语义分割任务如行人和场景的属性检测共同优化,在[29]中,使用 mutual visibility deep model 对多个行人的能见度和重叠行人的识别度进行了联合估计,在[5]中,语义分割作为额外的监督,以改善检测。在[40]中,使用Region Proposal Networ(RPN)作为独立任务的行人检测,[24]中,使用基于Fast R-CNN的多尺度检测,最近在[27]提出了一种没有anchor的对行人中心和规模的预测方法。
2.2 Multispectral pedestrian detection approaches
最近许多工作使用RGB+thermal来改善检测结果[38\25\20\39\22\23],结合进行训练和测试,[38]作者研究了两种类型的融合网络以充分利用可见光和热图像。在[25]中介绍了用于人脸识别的多光谱人脸检测(early、halfway、late and score fusion),[39]中跨模态学习框架包括 Region Reconstruction Network(RRN)和 Multi-Scale Detection Network (MDN)来改善可见光数据中的检测结果。
由于可见光图像和热图像组合在两阶段网络体系结构中效果很好,因此大多数高性能的多光谱行人检测最初都基于Fast/Faster R-CNN。例如,Faster R-CNN检测器用于在感知照明的Faster R-CNN(IAF R-CNN)中执行多光谱行人检测。[20]中的作者通过完全卷积RPN和增强决策树分类器(BDT)的组合在多光谱视频中检测到人。在[10]中还研究了RPN的泛化能力,评估了哪个多光谱数据集可实现更好的泛化。MSDS-RCNN [22]是多光谱提议网络(MPN)和多光谱分类网络(MCN)的融合。在[41]中,提出了一个对齐区域的CNN来处理弱对齐的多光谱数据。在[6]中提出了通过有监督的学习框架进行框级分割,从而消除了对锚框的需求。
One-Stage检测器方法。[37]中的作者使用YOLOV2作为用于多光谱检测的快速单通道网络结构。[21]中的作者利用deconvolutional single-shot multi-box detector (DSSD)探索 visible 和 thermal 的特征。[43]中的工作采用了两个单镜头检测器(SSD)来研究使用门控融合单元(GFU)融合颜色和热特征的潜力。
2.3 Pedestrian detection in thermal imagery
一些作品只用thermal imagery检测行人。在[18]中提出了用于红外图像分割的自适应模糊C-means和CNN用于检测行人。在[3]中提出将方向梯度的热位置强度直方图(WTPIHOG)和自适应核SVM(AKSVM)用于夜间热图像检测。在[12]中,带有显着性图的增强热图作为注意力机制已被用于训练Faster R-CNN检测器。在[16]中,执行了几个视频预处理步骤,以使热图像看起来更类似于从RGB转换的灰度图像,然后使用经过pre-trained and fine-tuned的SSD detector。最近,[7]中的作者使用Cycle-GAN将热数据转换为伪RGB数据,将其微调到多模式Faster-RCNN检测器。相反,[15]中的作者使用GAN将可见图像转换为合成热图像,作为数据增强处理来训练行人检测器处理纯热图像。另一项涉及领域自适应的最新工作是在[19]中提出的自上而下和自下而上的领域自适应方法,用于热成像中的行人检测。在这项工作中,自下而上的适应在夜间在KAIST数据集上获得了最新的单模态结果[17]。
2.4 Task-conditioned networks
有一些task-conditioned方法,如基于adversarial networks的条件生成模型和开创性工作,提出了用于训练深度卷积GANs的指南。尤其,我们受到[30]中提出的 general conditioning layer( Feature-wise Linear Modulation(FiLM))启发,FiLM用于调节视觉推理任务。
本文仅对热图像进行行人检测,基于single-stage detector YOLOv3,其计算效率很高。通过集成条件层来扩展YOLOv3架构,使网络更好地专业处理白天和晚上的图像。评估自适应过程中的 residual groops,detection heads and their combination。
3 Task-conditioned domain adaptation
在本节中,我们描述了在适应热域期间调节探测器的方法。中心思想是健壮的行人检测自然地取决于输入图像的low-level semantic qualities,如:分辨是捕获的图像是晚上还是白天。此辅助信息对学习表示形式很有用,可在此条件下确定主要检测任务的适应内部表示形式。下一节描述辅助分类网络(连接到主检测网络),在3.2节,描述了conditioning layers可以策略性地插入网络以修改内部表示形式。我们在3.3节中介绍了YOLOv3的两种alternative conditioning architecture,在3.4节中,我们将所有内容放在一起描述了组合的适应损失(combined adaptation loss)。
3.1 Auxiliary classification network (辅助分类网络)
????:表示检测网络(本文为YOLOv3) ?? :参数 ???: i-th conv layer的输出
辅助网络:对早期卷积层的输出(如图一的F4)进行 Avg pool + 2个 FC(Relu)(C维),生成的特征图传递到最后的FC层(单输出、Sigmoid Activation),记辅助网络输出为 ????,
训练期间,使用下面的Loss 辅助 Auxiliary classification Network学习:
????,??;??=???log???+1????log1???? (1)
??=0 ?????????=1 ??????h?
其中,Xi:训练图像 yi:辅助训练label , KAIST在Annotation中区分了daytime和nighttime,在这里,辅助网络的任务是将图像分类为白天或者夜间。
Fig.1. 调节层和辅助分类网络。辅助网络学习用于解决分类任务的内部表示。然后,通过调节层利用此表示来调整检测网络中的内部卷积特征图
3.2 Conditioning Layers
思路:使用辅助分类网络中学习的内部C维表示形式(即:两层FC的输出),而不是输出。这种表示是针对特定任务而言的:在实验中,它捕获到了显著信息(salient information),这些信息对区分白天/晚上很有用。在检测网络的关键点(YOLOV3),我们将使用此表示来生成Conditioning parameters,这些调节参数将使用辅助分类网络的表示来调节卷积特征图。
考虑到主检测网络???的任意卷积层输出???,令 ?? 表示???中的特征图数量(channels),近而生成调节参数
??=Re???????+?????=Re???????+??? (2)
其中,???,???∈???×?,???,???∈???分别是添加到网络的D units的两个新的FC层(图一紫色部分)。这些新层调节调节Fi 的参数。 Fi 按下式进行更新:
??′?=Re??1???⊙?????? (3)
其中,⊙是elementwise multiplication,?是addition operations,broadcast以覆盖特征图Fi(x)的spitial dimensions。??可以放缩feature map,??可以转化他们(bias功效)
3.3 Conditioned network architectures
YOLOv3(darknet53,3个detection head),多尺度检测
为探究在域自适应过程中调节YOLOV3的有效性,尝试了两种conditioning layers插入的策略
Conditioning residual groups (TC Res Group)
Fig.2. TC Res Group:调整YOLOv3的残差组。每个卷积组最后一层的pre-ReLU激活由参数??和??修改在每个组的最终残余连接之前进行条件处理。
YOLOv3使用52层的Fully-convolutional Residual Network作为backbone,可粗略分为五个残差组(residual group),每个残差组由两个或多个卷积层的残差块(输入连接到输出)组成
将调节点设在residual group上,图2展示,数字为调节网络层的size(C=1024),在每组残差块之后,我们在每个最后一个卷积层之后和组的最终残差连接之前插入条件层。
Conditioning detection heads (TC Det)
Fig.3. TC Det:调节YOLOv3的检测头。使用辅助网络的内部表示来调节用于检测的特征图
另一个方案是调节YOLOv3三个分支的检测头,直觉是将网络调整为更靠近实际检测的位置。
我们在这些块的最后卷积之后和最终的1 1卷积层产生检测头输出之前插入条件化层。图三给出了示意图,并展示了调节网络的大小。
3.4 Adaptation loss
用于域自适应最终的Loss function:
???,??,??;??,??=????,??+????,?? (4)
其中,x是训练的红外图像,Ld是结构化目标检测Yi的标准检测损失,La是等式1定义的辅助分类损失。
当我们从辅助损耗La向后传播误差时,我们正在改善辅助网络???的内部表示,使其更适合于对白天/夜晚进行分类。当我们从检测损失中Lb反向传播误差时,我们会同时改善生成的调节参数(??;??)和YOLOv3主干中的内部表示。我们的直觉是,基于辅助分类网络中学习到的表示,这可以使特征图适应条件。
4 Experimental results
进行了大量的Ablation Studies,展示这种结构的优点
与一些sota方法做对比
5 Conclusions
在本文中,我们提出了一种task-conditioned architecture,以使可见光谱检测器适应热域。我们的方法利用辅助白天/夜晚分类网络的内部学习表示,在检测器网络中的关键点注入条件参数。我们的实验表明,task-based YOLOv3检测网络调节可以显着提高纯热步行者检测性能。
Task-conditioned保留了单次YOLOv3架构的效率,即使与某些多光谱检测器相比,也能表现出色。但是,它们的性能优于更复杂的两级多光谱检测器,例如MSDS [22]。但是,我们认为,通过调整区域提议和分类子网,我们的任务调整方法也可以有效地应用于此类检测器。