论文:Discover Cross-Modality Nuances for Visible-Infrared Person Re-Identification(发现跨模态行人重识别的细微差别)
出处:CVPR2021
1.创新点
现存的方法大多通过对齐不同模态特征的分布,来减少模态差异;而一些细节性的信息(比如是否戴眼镜、T恤的长度等)尤其在IR图像中没有被充分挖掘。
这篇论文提出了一个基于注意力机制的模态和人物细节双层面对齐网络。该论文的核心思路在于通过Modality Alleviation Module(MAM)和 Pattern Alignment Module(PAM)两个模块,分别实现模态差异的消除和行人细微差异的挖掘,使模型能够抽取具有跨模态检索能力的特征。最后,使用相互平均学习方式来减小模态差异,使用一个中心聚类损失指导身份学习和细微差别的发现。
2.网络框架
首先,采用预训练的单流CNN(resnet50)从可见光和红外模式中提取特征图;网络框架中包含两个MAM模块和一个PAM模块。MAM使用实例归一化来缓解模态差异。PAM通过轻量级生成器生成一组模式图,旨在识别一个人在不同模式(眼镜、衣服长短等)中的细微差别。
该模块是通过连接模式特征和全局特征来获得的输出。
为了以无监督的方式发现细微差别,设计了一个区域分离约束。然后提出了一种中心簇损失,增加不同身份的特征中心之间的距离,减小同一身份的某些特征之间的距离。
我们进一步应用两个特定于模态的分类器来学习每个模态的特征的身份,并预测相同特征的分类结果。此外,通过减少不同模态特定分类器所产生的同一图像的预测之间的分布差异,可以减轻模态差异。提出了模式对准模块(PAM)来发现不同模式下的细微差别,并以无监督的方式发现中心簇损失和分离损失的细微差别。
为了在保持身份信息的同时缓解模态差异,提出了模态缓解模块(MAM),可选择性地应用实例归一化 平均的学习方式。
(1)MAM
为缓解模态差异,可以采用实例归一化Instance Normalization (IN)来减少实例之间的差异。但是直接使用IN也许会损坏ID信息,作者采用了通道注意力引导的IN。对Z的每个通道特征图逐元素乘mc,对归一化的Z每个通道特征图逐元素乘1-mc,最后再逐元素相加。相当于对Z的每个通道特征图做了注意力修改,有利于模态差异的消除。
⊙表示逐元素相乘,mc表示每个通道的掩码mask,指引身份相关的通道,mc的计算
g是全局平均池化,W1、W2是两个可学习的没有偏置的全连接层参数,其余两个是激活函数。
IN归一化的具体公式,Zk(hxw)是特征图的第k个通道。
(2)PAM
PAM目的在于发现不同模式的细微差别,首先使用一个轻量化的网络,将特征映射拆分为l个模式的特征图(M=M1…Ml),
通过注意力机制生成模式图M至关重要,A是卷积核为1x1的卷积层。模式图M涵盖了一个人的不同模式(M1…Ml),以便我们可以识别出不同模式中涉及的细微差别。所以,使用这些模式图,可以将特征图F分割为l模式
最后经过全局平均池化pk=g(Pk),得到PAM的最终输出。
为了确保模式映射能够捕获不同的模式,作者应用分离损失(the separation loss)来迫使每张模式图注意不同的模式。将特征图M(h×w×l)整形成M(hw×l),将每个通道的特征图展平为向量,通过最小化每两个掩模M之间的重叠区域,分离损失可以监督模式图,以从不同的模式中学习特征。
3.损失函数
(1)两个特定模态的ID损失
对于每个模态提取的特征f,分别使用一个特定模态的分类器,去计算交叉熵损失作为身份ID的监督。
(2)相互平均学习的跨模态损失
如果给定一个特征f,无论它来自哪个模态,如果两个特定模态的分类器提供相同的预测,这意味着模态差异就已经消除。为此,施加了一个基于KL散度的模态约束,这个损失鼓励了特定模态分类器为相同的身份特征提供一致的预测,无论它来自何种模式。
然而使用上面这个公式来训练这个模型,由于分类器使用会从另一种模态中学习知识,这将直接使这两个分类器的预测迅速变得相似, 而不是学习与模式无关的特征。
为了解决上述问题,本文提出了两个与特定模态分类器具有相同网络结构的平均分类器,为来自另一种模式的样本提供预测。
E[θv]和E[θr]表示这两个平均分类器的参数,这些参数以时间平均的方式进行更新。Et和Et-1分别代表这一轮iteration和上一轮网络的参数。平均模型的初始化:E(0)[θv] = θv,E(0)[θr] = θr。
(3)共享模态ID损失
(4)中心簇损失
我们提出中心簇损失来学习身份之间的关系,并确保每个模式映射总是始终集中于特定的模式。hyi代表标签为yi的所有特征的平均值。使每个特征到簇中心的距离尽可能小,使每个簇中心的距离尽可能大于p。
中心簇损失的目的是收集特征到其中心。此外,从一个身份内模式中提取的模式特征也会相互接近。在这个过程中,模型以一种无监督的方式学习细微差别信息。
(5)总损失
4. 实验指标