论文:Infrared-Visible Cross-Modal Person Re-Identification with an X Modality
代码:https://github.com/littlejiumi/XIVReID
出处:AAAI 2020
文章目录
- 1. contribution
- 2. methodology
1. contribution
为了减小这个红外和可见光两种图像的差异,这篇文章引入了一个X模态作为辅助,将双模式跨模态学习重新表述为一个红外-x-可见三模式跨模态学习。提出的跨模态学习方法主要包含两个组件:一个轻量级的X模态生成器、一个权重共享的XIV跨模态特征学习器。
具体的,使用一个低成本的轻量级网络生成X模态图像,它使用可见光图像作为输入,在整个网络优化的时候,通过自监督的方式从可见光和红外图像中吸取知识,输出X图像;之后,使用这三种图像作为XIV特征学习器的输入,通过权重共享,特征学习器能够联合适应三种图像并在一个公共空间中生成模态不变性特征。最后,将X模态生成器和特征学习器联合在一起,以端到端的方式进行优化,设计了一个约束去指导学习和模态之间的知识交流。
- 设计了一个基于X模态的三模态学习方法
- 提出了一个基于自监督学习的轻量化网络,用于生成X模态
- 设计了一个模态约束去指导学习和模态之间的交流
2. methodology
使用g
表示X生成器,f
表示特征学习器,所以X=g(V)
。本文只关注IR作为query,在使用IR搜索的RGB的时候,按照红外与可见光、红外与X图像的欧氏距离之和从小到大排序,找出最相似的RGB图像。
模型的网络框架:
MRG: modality respective gap constraint,模态内约束
CMG: cross modality gap constraint,跨模态约束
X模态
本文使用一个轻量化网络产生X模态图像作为辅助,提高学习性能。非线性轻量化的网络包含两个1x1的卷积层和ReLu激活函数。首先第一个卷积层把RGB图像转为类似IR的一通道图像,经过一个ReLu激活函数提高非线性能力,然后第二个卷积层将图像转回三通道X图像。X图像具有RGB图像的标签,可以提供优化时的自监督信息。
权重共享特征学习
backbone使用resnet50,通过联合考虑IR-X和IR-RGB的差异,使得X从IR和RGB图像中获得学习。
约束条件
本文只使用IR作为query,约束有两个:跨模态约束和模态内约束
① 跨模态约束CMG:
其中,
IR和V之间的跨模态约束和上面的计算方法类似。
② 模态内约束:使用交叉熵损失和难挖掘三元组损失。
以IR模态为例:
计算ID损失和triplet 损失
pi是分类器的输出,yi是标签的独热码。
最后,网络以一个端到端的形式进行优化X模态生成器和特征学习器。