Visible thermal person re-identification via dual-constrained top-ranking
简述:
本文是通过RGBT双重约束对人进行重新识别(Re-Identification),如下图:
跨镜追踪(Person Re-Identification,简称 ReID)技术:
现在计算机视觉研究的热门方向,主要解决跨摄像头跨场景下行人的识别与检索。该技术能够根据行人的穿着、体态、发型等信息认知行人,与人脸识别结合能够适用于更多新的应用场景,将人工智能的认知水平提高到一个新阶段。
问题or相关工作:
现有的RGBT的缺陷:然而,除了由不同的相机光谱引起的交叉模态差异外,可见热单元重识别还会受到不同的相机视角和人体姿态所引起的较大的交叉模态和内模态变化的影响。在下图可以看到,A和a的距离(同一模态内)有可能比A到b的距离(不同模态间)的距离大。
在本文提出的双路径网络,该网络具有一个双方向双约束的顶级损失来学习判别特征表示,分为可见路径和热路径。现有的网络都是特征学习和度量学习步骤的两阶段框架(two-stage),但两阶段训练需要人工干预,不适合实际的大规模应用,因此本文尝试研究一个端到端学习框架来学习不变的共享特性,同时保持对VT-REID的高识别率。
模型:
Dual-Path Network:
本文针对VT-REID提出的双路径端到端学习框架。N表示批处理大小,共2*N张图像输入网络进行训练。它包括两个主要部分:用于特征提取的双路径网络(一个用于可见光图像,另一个用于热成像图像)和用于特征学习的双向双约束顶级损失。浅层(特征提取器)的权值与提取特定模态信息的权值不同,而嵌入FC层(特征嵌入)的权值是共享的,用于多模态可共享特征学习。在L2归一化之后,我们引入了一个双向双约束的网络训练top-rank损失。同时,将身份损失与排名损失进一步整合,提高性能。
本文的网络框架有两部分组成,Feature Extractor(特征提取器)及Feature Embedding(特征嵌入)组成。在Feature Extractor中,采用预先训练好的五个卷积层(conv1?conv5)和一个全连接层(大小为4096)作为初始化的特性表示。主要原因是,浅卷积层主要捕捉底层的视觉模式,这些模式可能在所有图像中共享。同时,我们在FC层的基础上增加了一个批处理规范化层;在Feature Embedding中,在双通道有限元提取器上引入了共享全连接层。将双通道投射到公共空间中,为简单起见,我们将嵌入的函数与特征提取器一起表示为可见光图像的Fv(·),热成像图像的Ft(·)。给出了一幅可见光图像和一幅热成像图像,并对提取的特征(x和z)进行了表征;学习目标主要包含跨模态和内模态约束,见图5。
LOSS:
损失同时考虑了以下两个方面:1)跨模态的优先级约束,针对较大的跨模态变化。其主要思想是锚点到其最远处的交叉模态正极的距离应比锚点到其最近的交叉模态负极的距离小一个预定义的裕度。2) 模态内部 top-ranking constraint,主要处理intra-modality的变化。在相同的跨模态top-rank约束框架下,模态内的约束使得同一模态内锚点的最近邻-最近邻-最近邻之间的距离也可以区分。在此基础上,提出了一种基于热可见性和热可见性的双向训练策略。
以下loss中,X代表RGB图像,Z代表红外图像;i,j代表同一个identity(positive),j,k代表不同identity(negetive),即下图:
1.bi-directional ranking loss
bi_rank loss中,目的是使得D(xi,zj)>D(zi,zk),D(zi,xj)>D(zj,xk),
2.Cross-modality Top-Ranking Constraint(双向双约束度量损失)
3.Intra-modality Top-Ranking Constraint(同一模态内部损失)
4.Overall Embedding Loss(总loss)
实验:
两个评价指标:Re-identification rates (%) at rank r and mAP (%)
“baseline”是指使用常用ranking loss和identity loss的结果
“BCTR”代表采用双向训练策略(bi-directional training strategy)的结果
“BDTR”通过采用进一步聚合的模态约束(intra-modality constraint)的结果