论文:A Similarity Inference Metric for RGB-Infrared Cross-Modality Person Re-identification
出处:IJCAI2020
文章目录
- 1. Contribution
- 2. The Proposed Approach
-
- 2.1 Feature Representation
- 2.2 Similarity Graph Reasoning
- 2.3 Mutual Nearest-Neighbor Reasoning
- 2.4 Similarity Inference Metric
- 3. Comparison with State-of-the-Arts
1. Contribution
思想: 现存的共享特征法和基于GAN风格转换的方法,更关注于如何减少跨模态的差异,而在gallery中同一模态样本之间的相似性被忽略了。本文提出了一个相似度推理指标(SIM),利用gallery中同一模态内样本的相似性,来辅助推理跨模态的差异。本算法提出了一种新的计算距离的方法,可以在推理阶段对排序进行优化。
上图,g1和g4和query是同一个类,但是g1与query比较相似匹配正确,g4和query差异较大匹配错误,但是如果考虑到gallery中g1和g4的相似性较大,在原有基础上考虑上这一点,g1和g4就会匹配正确。同理,原来负样本也有可能匹配正确,但是考虑上负样本和g1的相似性,负样本就不匹配了。
方法: 并不像大多数现有的方法那样使用 query-gallery 相似度矩阵,本文引入了相似性图推理(simarilarity graph reasoning,SGR)和相互最近邻推理( mutual nearest-neighbor reasoning,MNNR),发现模态内样本的相似性,并规避交叉模态的差异。
2. The Proposed Approach
给定一个IR的查询图像q,和包含N个RGB图像的gallery数据集,根据库图像与q的相似性对库图像进行排序。 现有的方法通常就是直接比较样本特征,来计算相似性度量,这样精度往往比较低。本文提出的SIM,利用gallery样本间的鉴别模态内相似性,来提高跨模态的相似度指标。
2.1 Feature Representation
使用一种共享权重的双流CNN结构,以从红外和RGB图像中学习特征和图像表示,通过优化交叉熵损失和三元组损失,对CNN模型进行了训练。
在推理阶段,query集中的每个IR图像和gallery集中的每个RGB图像,被喂到训练好的模型中提取特征fq,fg。通过计算所有query特征和gallery特征之间的L2距离,可以获得query-gallery相似度矩阵Dqg(Nq×Ng),每个矩阵元素D(i,j)表示fqi和fgj之间的距离。同理,可以获得gallery-gallery相似度矩阵Dgg (Ng×Ng)。由于模态差异较小,并且包含丰富的光学信息,所以Dgg应该是比Dqg更具有鉴别性。
2.2 Similarity Graph Reasoning
其想法是,对于一个查询图像q及其相似的gallery图像g,其他与g相似的gallery图像,也应该类似于q,即使它们可能与q有很大的距离。
利用矩阵Dqg和Dgg,在整个测试集上定义了一个相似度图A(V、E),包括所有的query和gallery。V={Q;G}中的每个节点都代表一个图像样本,Q表示query集,G表示gallery集。E中的每条边都表示其所连接的两个节点之间的相似性。我们用Dqg初始化跨模态边缘(query-gallery),用Dgg初始化模态内部边缘(gallery-gallery):
针对query图像qi和gallery图像gj,将相似度图推理中的距离d(qi、gj)
定义为节点qi和gallery集G之间从qi到gj的最短路径。具体地说,假设Ωqi,gj表示包含从qi到gj的所有可能路径的集合。对于任何路径P∈Ωqi,gj、P=(p1、p2、……、pn)、p1=qi、pn=gj、pk∈G(2≤k≤n-1)
由于在gallery库中使用的L2度量满足下面的三角形不等式
因此,可以简化查询库距离:
此外,为保证稳定性,我们使用第前K个最短路径的平均值,而不是一个最短路径。
在实际操作中,为了降低计算复杂度,删除了gallery对之间的所有无用边,除了每个样本和库中的k最近邻居之间的那些。
2.3 Mutual Nearest-Neighbor Reasoning
在假设查询图像qi和gallery图像gj,在gallery集中有相同的相互的k-最近的邻居,那么他们更有可能是真正匹配。
首先,使用图库集作为搜索空间,而不包括查询图像。对于红外查询q,它对相似的库图像进行排序,得到其kq个交叉模态最近邻:
对于RGB图像g,它使用Dgg将gallery进行排序,并获得其kg个模态内部最近邻,记作R?i。因此,q和g的相互最近邻可以由重叠来定义,直观上说,更相互的近邻意味着更高的相似性:
2.4 Similarity Inference Metric
整体算法: