论文阅读15 | Cross-Modality Person Re-Identification via Modality-aware Collaborative Ensemble Learning_综合

论文：Cross-Modality Person Re-Identification via Modality-aware Collaborative Ensemble Learning（基于模态感知协作集成学习的跨模态行人重识别）

作者：叶茫

文章目录

1. introduction
2. motivation
3. contribution
4. related work
5. method
- 5.1 overview
- 5.2 Feature-Level Modality-aware Learning
- 5.3 Classifier-Level Modality-aware Learning
- 5.4 Collaborative Ensemble Learning
- 5.5 Overall Loss Function
- 5.6 n-pair Batch Sampling

1. introduction

一般RGB相机在低照度环境下，如夜间，无法捕捉到有效的外观信息；许多新一代监控摄像头能够自动切换到红外模式，在晚上捕捉人的图像。跨模态reid的任务就是使用一种模态的图像去搜索另外一种模态的图像。

在这里插入图片描述

2. motivation

主要有两点：

之前的研究通常使用模态共享分类器学习跨模态特征表示。分类器层次上的模态差异问题在他们的方法中没有得到很好的解决。
以往的研究通常采用带有共享嵌入层的双流网络来学习模态共享特征，只能捕获高级共享信息，而中层卷积层中的区分性共享信息被忽略。

下图1是之前的网络结构，只在FC层共享参数提取高层共享特征；图2是本文的中层参数共享的网络结构。
在这里插入图片描述

3. contribution

提出了一种新的模态感知的协同集成(MACE)学习方法，该方法采用改进的中层可共享双流网络(MSTN)进行跨模式VT-ReID学习。并证明了在特征级和分类器级一致地处理模态差异对于VT-ReID是重要的。
引入了一种协同集成学习方案来利用不同分类器之间的关系。它增强了集成输出的可鉴别性和一致性。
基本思想就是处理特征级别和分类器级别的模态差异。① 特征级：使用具有部分共享的网络结构学习特征表示。改进主要在于使用可共享的卷积块来捕获具有区别性的中层特征，而不仅仅是高级特征。② 分类器级：引入模态共享分类器和模态特定分类器来指导特征学习。一方面，模态共享分类器的目标是获取共享信息;另一方面，模态特定分类器学习两个不同模态的身份分类器来处理模态差异。③ 引入了集成学习策略，将不同分类器的所有预测输出组合在一起，形成一个增强的teacher ensemble。④ 为了促进不同分类器之间的知识转移，采用了知识蒸馏技术进行协同学习。通过一致性正则化，利用模态特定分类器和teacher ensemble之间的关系，提高了性能。

4. related work

协作集成学习（Collaborative Ensemble Learning）：协同学习的目的是训练一个具有多个分类器的改进网络，这些分类器通过使用相同的网络结构来协同提高特征学习性能。多个分类器的输出预测可以相互提供补充信息。在此思想的启发下，我们提出通过结合模态共享分类器和模态特定分类器的输出来形成教师集成。此外，我们引入协作学习方案，将教师集合与特定模态分类器输出相结合，以提高跨模态人的Re-ID性能。

5. method

5.1 overview

我们提出的方法主要包括三个部分：

Feature-Level Modality-aware Learning，引入了一个可共享的中层双流网络进行特征学习，网络结构部分独立、部分共享参数，解决特征级差异。
Classifier-Level Modality-aware Learning，同时使用模态共享和模态特定的分类器来处理分类器级的模态差异。
Collaborative Ensemble Learning，设计了一种协同集成学习方法，利用不同分类器之间的关系来促进特征学习。

5.2 Feature-Level Modality-aware Learning

使用ResNet50作为backbone，浅层卷积层的网络参数是不同的，用于捕获特定模态的低级特征。深层的卷积层的网络参数是共享的，学习可共享的中层特征表示。然后，经过自适应池化和BN层。请注意，共享BN层的输出用于测试过程中的特征表示。

只使用一个模态共享的分类器（两中模态的图像经过一个分类器）的baseline，实验证明效果有了较大的提升。损失函数设计： $L^{0}=L_{tri}^{0}+L_{id}^{0}$ ，其中三元组损失为上篇博客使用的双向的难挖掘三元组损失，ID损失为可见光图像交叉熵损失和红外图像的交叉熵损失之和。

5.3 Classifier-Level Modality-aware Learning

只使用一个参数共享的分类器，可能会在分类器级别丢失特定模态的信息。为解决上述问题，基本思想是为再学习两套具体模态的分类器。两个分类器的损失函数设计：都是用交叉熵损失函数。 $L^{s}=L_{id}^{v}+L_{id}^{t}$

5.4 Collaborative Ensemble Learning

三个分类器分开优化，这种学习策略可能会丢失不同分类器之间的互补信息，于是引入了一种协同集成学习方案。

首先，将分类器的输出集成到一起，并且假设不同的分类器在集成中贡献相同。也就是，输入一对可见光-红外图像，计算分类器输出的四个向量z的平均值，计算平均值和真实值的交叉熵损失 $L^{e}$ 。

Collaborative Consistency（协同一致性）：

为了促进不同分类器之间的知识转移，我们采用了知识蒸馏技术。添加一个温度参数T来平滑不同分类器的概率分布。T越大分布越平滑，负标签含有的信息越多。由全连接的输出 z 变化的概率值pe、pv、pt的计算都如所示：
在这里插入图片描述
为了使两个模态特定身份分类器和教师集合之间的分布保持一致，我们把pe当作真实值软标签，使用KL散度，计算两组分类器的输出和软标签的分布差异，将两个分布差异的和作为loss。

5.5 Overall Loss Function

在这里插入图片描述
注意，由于温度T，协作一致性损失Lc的梯度大小按1/T2缩放。因此，我们将协作一致性损失Lc乘以一个因子T2，以确保它与集成学习损失Le的贡献相似。W (t)是一个爬升的s型函数，其中权值从0逐渐增加到1。主要原因是不同分类器的初始预测可能相差很大，很难保证预测的一致性。
在这里插入图片描述

5.6 n-pair Batch Sampling

设置多模态的抽样策略。在每一个batch中，选择p个ID，对于每个ID选择k个RGB图和k个红外图。那么就构成了p x k对图像。