当前位置: 代码迷 >> 综合 >> 【ReID】Real-world Person Re-Identification via Degradation Invariance Learning
  详细解决方案

【ReID】Real-world Person Re-Identification via Degradation Invariance Learning

热度:50   发布时间:2024-01-28 10:49:20.0

2020的CVPR[1],先挂在了arxiv中。文章提出了一种针对现实中ReID的降级不变性学习框架(degradation invariance learning )(DI-REID)表示学习策略。DI-REID首先合成自我降级的图像。在降级不变性学习阶段,将对齐的自降级图像对和非对齐的真实图像对依次用于训练DDGAN,这有助于缩小合成与现实之间的域差。对于身份表示学习,作者发现仅使用降级不变性学习表示不会带来出色的Re-ID性能。作者设计了双重特征提取网络以同时提取两种类型的特征,此外还引入了用于降级指导的特征选择的注意力机制。DI-REID方法能够同时提取与身份相关的鲁棒特征,并消除现实世界中的降级,而无需额外的监督。实验证明只需少量修改,该框架可以轻松扩展到其他现实世界的降级因素,如弱照明(这些降级因素一方面导致信息丢失,另一方面阻碍了id的识别,见痛点)。

论文一览:

痛点

文章定义了对于图片不利于重识别的因素称为降级因素,降级因素比较多的图像称为低级图像,比如,低分辨率,弱光照,图像模糊和变化多端的天气。ReID真实场景领域存在着非常多降级因素对数据集的影响,使识别模型效果不好。

有问题了,如何解决?作者提出:解决低级图像问题的一个方法就是利用低级图像恢复方法来提高图像质量。

很好的思路,但是目前低级图像的恢复方法存在各种限制,没办法直接使用在现实的ReID环境下。这些限制有:

1)推断数据的要求

2)低级方法和高级方法的不兼容

3)合成图像和真实图像,低级方法和高级方法,之间存在着域差。如下图1

目前的方法使用简单合成技术如下采样合成低分辨率,或伽马校正合成弱光照。这与现实世界中复杂的降级相去甚远,而后者导致这样的域差。故作者认为,缺乏有关真实降级的监督信息是解决现实世界中Re-ID的主要挑战。这也启发了作者思考关于如何使用有限的低级监督信息来自适应地捕获现实世界中的降级。

文章提出了一种针对现实中ReID的降级不变性学习框架(degradation invariance learning ),能够保留id相关信息,去除降级相关的特诊。

文章解决的主要贡献总结:

1)改善现实场景中受各种图像质量下降影响的人员重新识别的性能,方法可以减轻现有图像恢复方法中对大量标记数据的需求。

2)提出了自监督的降级不变性学习框架,以提取真实的ReID的鲁棒身份表示。无需额外的标签数据即可捕获和删除真实世界的降级因素。

3)新SOTA

模型

DI-REID包含两个阶段

两个阶段分别是1)通过降级分解生成对抗网络(Degradation Decomposition Generative Adversarial
Network)(DDGAN)进行降级不变性学习,结构如下图2。2)以及通过双特征提取网络(Dual Feature Extraction Network)(DFEN)进行鲁棒的身份表示学习。

网络结构DI-REID主要包括:a)一个内容编码器(the content encoder) E C E_{C} 和一个降级编码器(the degradation
encoder),为每张行人图像提取内容特征和降级特征。b)一个解码器用于从前一个特征重生成图像。c)一个真实场景辨别器(the reality discriminator)和一个降级辨别器(the degradation discriminator)来提供域约束。

content encoder用于提取内容特征,为DDGAN和DFEN所共享。degradation Encoders包含降级编码器 E d E_{d} 和自降级编码器 E d E'_{d}

decoder用于生成图像,记为 G G

reality discriminator D r D_{r} 主要用于减少和合成数据和真实数据之间的域差,迫使decoder生成的图像接近真实分布。

degradation discriminator D d D_{d} 用于估计输入的降级程度。reality discriminator和the degradation discriminator能够很好地为DI-REID提供增益。

id encoder E i d E_{id} 为预训练好的ReID model,为降级不变性学习保留约束,在ReID过程中提取具有辨别性但对降级敏感的特征。

DDGAN

设DDGAN交替训练自降级图像对{ p s = x i , x j p^{s}= x_{i},x_{j} },和真实图像对{ p c = x i , x k p^{c}= x_{i},x_{k} }( x i , x k x_{i},x_{k} 是真实图像, x j x_{j} 是引入降级的图像),称为自降级生成和跨降级生成,如下图2,

自降级生成

自降级生成阶段,有{ x i , x j x_{i}, x_{j} }将分解为内容特征{ f c i , f c j f^{i}_{c}, f^{j}_{c} }和降级特征{ f d i , f d j f^{i}_{d} ,f^{j}_{d} },之后经过生成器,所有的特征将排列组合生成新的图像{ x i i , x i j , x j j , x j i x_{ii} , x_{ij} ,x_{jj} ,x_{ji} } (角标前字表示content,角标后字代表degradation),比如 x i j x_{ij} 由{ f c i , f d j f^{i}_{c}, f^{j}_{d} }组合生成。(是不是像极了DG-Net[2])

自降级生成首先有自监督的降级函数 F d e g F_{deg} 使得真实图片生成降级图片 x j = F d e g ( x i ) x_{j} = F_{deg} (x_{i}) ,且要保证降级前后内容不变,有loss:

生成器还原 x i i x_{ii} x j i x_{ji} 将有一个pixelwise的还原损失( x j i x_{ji} x j x_{j} 的content和 x i x_{i} 的degradation,所以就等于 x i x_{i} 本身,所以生成 x j i x_{ji} 是一种还原):

还原的保留id特征损失约束:

刚刚提到的自监督的降级函数 F d e g F_{deg} 会引入域差,使得特征偏离了真实世界的分布,为了解决这个问题,文章引入了对抗损失:

模型目标是学习与降级无关的表示,降级后的图像跟原图像的表现应该一致。为此引入了降级的ranking loss:

γ=1是输入图像对的ranking标签,margin ? \epsilon 控制降级得分的差异。较高的降级得分意味着较低的图像质量。

跨降级生成

与自降级生成部分相似,对真实图像对{ p c = x i , x k p^{c}= x_{i},x_{k} },同样有正则化的图像还原loss:

和真实对抗损失:

和保留id特征损失:

对任务驱动的id损失:

降级的ranking loss有:

其中等级标签γ取决于真实世界图像的预测降级得分。通过这种方式,可以了解分解后的内容和降级功能,以在无监督信息的情况下近似现实世界的分布。

优化

对于自降级生成,有总的loss:

对于跨降级生成,有总的loss:

运行时,这两种loss交替进行。

DFEN

DFEN结构如下图3所示:

DFEN提取降级不变性特征 f i n v f_{inv} 和降级敏感特征 f s e n f_{sen} 作为id 表征。对于正常图像, f i n v f_{inv} f s e n f_{sen} 都会被保留,而对于降级图像, f i n v f_{inv} 会被保留而 f s e n f_{sen} 会被抑制,为此作者引入了退化降级指导注意力模块(degradation-guided attention module),从 D d D_{d} 输出的降级信息输入给注意力模块,后输出 f s e n f_{sen} 的注意力权重。

最终的id表征有:

DFEN的总loss有:

实验

文章的实验主要考虑了两种降级因素,1)分辨率,2)光照。并在4个benchmark数据集上进行实验,针对跨分辨率文章使用了CAVIAR, MLR-CUHK03和 MLR-VIPER数据集,针对光照文章使用了MSMT17数据集。

在CAVIAR, MLR-CUHK03和 MLR-VIPER上的SOTA实验如下:

在MSMT17的SOTA实验如下:

在CAVIAR数据集的分离实验如下:

降级不变性特征可视化:

跨分辨率的图像生成,分别是低分辨率生成高分辨率,和高分辨率生成低分辨率。

跨光照的图像生成(与SOTA的对比):

可以看到本文方法生成的比较自然,能够生成具有降级图像提供的降级特征和内容图像提供的内容特征的新样本。

问题

“(Introduction1) Data augmentation. This kind of methods [1] synthesize more training samples under different low-level visual conditions to improve the generalization performance of the model. However, there is a domain gap between synthetic data and real-world data. For example, most of cross-resolution person Re-ID works use the simple
down-sampling operator to generate low-resolution images. While the real-world low-resolution images captured usually contain more degradations, such as noise and blurring.”

这里作者指出Data augmentation不足之处(diss)即合成数据质量不够。其实这里不够严谨,因为random erasing这样的方法也算augmentation,这就不存在合成的域差(毕竟是原数据的基底),所以这段作者应该其实想diss的是特指合成方法生成的不同分辨率的数据这种。不过这是定义问题了,不是大问题。

参考文献

[1] Huang Y, Zha Z J, Fu X, et al. Real-world Person Re-Identification via Degradation Invariance Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 14084-14094.

[2] Zheng Z, Yang X, Yu Z, et al. Joint discriminative and generative learning for person re-identification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2019: 2138-2147.

  相关解决方案