【论文笔记】Unsupervised Person Re-identification by Soft Multilabel Learning_综合

笔记目录（部分笔者省略）

摘要
1.简介
2.相关工作

无监督RE_ID
无监督域自适应
多标签分类
零镜头学习

3.深度软件多标签参考学习

3.1问题表述和概述
3.2软多标签引导的硬否定挖掘
3.3跨视野一致性软多标签学习
3.4参考代理学习

4.实验

4.1数据集

基准测试评估
辅助数据集

4.2实验实施细节
4.3与最新方法的比较

与基于手工特征表示模型的比较
与基于伪标签学习模型的比较
与基于无监督域自适应模型的比较

4.4消融研究

我认为的论文错误

4.5视觉结果和见解

我认为的论文不当之处

5.总结

Unsupervised Person Re-identification by Soft Multilabel Learning
arXiv:1903.06325v2 [cs.CV] 8 Apr 2019
通过软多标签学习的无监督行人重识别
注：限于作者水平，本笔记难免存在不妥之处，欢迎批评指正

摘要

在缺乏成对跨越不相交的相机视图标签的情况下学习判别信息非常具有挑战性
提出了一种用于无监督RE-ID的软多标签学习的深度模型
想法是通过将未贴标签的人与一组来自辅助域的已知参考行人进行比较（并表示）来为每个未贴标签的人学习一个软多标签（实值标签似然矢量）
提出软多标签引导的硬否定挖掘
以通过探索视觉特征与未标记目标对的软多标签的相似性一致性来学习未标记目标域的判别性嵌入
开发了跨视图一致的软多标签学习方法，使软多标签在不同的相机视图之间始终保持良好状态
引入了参考代理学习，以通过联合嵌入中的参考代理来代表每个参考行人
在Market-1501和DukeMTMC-reID上评估了统一深度模型，本文模型以明显的优势胜过了最新的无监督RE-ID方法

1.简介

问题：现有行人重新识别（RE-ID）的工作主要集中在有监督的学习上，需要在每对摄像机视图之间都具有大量的成对标记数据，由于大量的成对RE-ID数据标记需要手动进行，限制了在只有未标记数据可用的应用上的可扩展性
解决：一些最近的工作将重点放在了未监督的RE-ID上，通过将未标记的目标数据聚类或从其他已标记的源数据集迁移学习
不足：如果没有成对标签作为学习指导，由于剧烈的交叉视角的人内外观变化以及人之间相似度很高，很难发现身份识别信息
解决：提出了一种新颖的软多标签学习，以挖掘未标签的RE-ID数据中的潜在标签信息
主要思想：对于未贴标签的RE-ID数据集中的每个未贴标签的行人图像，我们通过将未贴标签的行人与一组从现有的带标签的辅助数据集中获取的参考行人进行比较，来学习软多标签（即实值标签似然矢量，而不是单个伪标签）
在这里插入图片描述
本文贡献：
（1）通过一种新颖的软多标签参考学习方法来解决无监督的RE-ID问题，在该方法中，通过利用辅助数据集进行参考比较来挖掘未标记RE-ID数据中潜在的标签信息
（2）制定了一个新颖的深度模型，称为深度软多标签参考学习（MAR），MAR可在统一模型中同时启用软多标签引导的硬否定挖掘，跨视野一致的软多标签学习和参考代理学习
在Market-1501和DukeMTMC-reID上的实验结果表明，本文模型在很大程度上优于最新的无监督RE-ID方法

2.相关工作

无监督RE_ID

指目标数据集未标记，但辅助源数据集无需未标记
现有方法要么传递源标签知识，要么假定具有较强的主要知识（即假设目标RE-ID数据具有特定的簇结构，或者假设是具有足够的判别性的手工制作的特征）
最近已经尝试过利用视频轨迹关联来获得无监督的RE-ID，致力于减少标签工作量的另一项工作是使目标上的标签预算最小化，这是对无监督RE-ID的补充，最相关的工作是基于聚类的模型
本文模型的优势：软多标签可以挖掘通过直接比较视觉特征无法发现的潜在标签信息

无监督域自适应

无监督域自适应（UDA）有一个源数据集和一个无标签的目标数据集
但是，它们主要基于两个域之间的类相同的假设，这在源数据集中的行人（类）与目标数据集中的人员完全不同的RE-ID环境中不成立，这使得这些UDA模型不适用于无监督的RE-ID

多标签分类

多标签分类中的多标签是一个基本的二进制向量，指示一个实例是否属于一组类，而软多标签是用其他不同参考行人来代表一个无标签目标行人

零镜头学习

零镜头学习（ZSL）旨在识别由语义属性指定但在训练中看不见的新颖测试类，ZSL模型的成功验证/证明了用一组不同的类表示未知类（人）的有效性，但是它需要来自目标域的大量被标记行人

3.深度软件多标签参考学习

3.1问题表述和概述

在这里插入图片描述
无标签目标RE-ID数据集

辅助RE-ID数据集

软多标签函数

所有维度之和为1，每一维代表与一个参考行人的标签相似度

判别深度特征嵌入

参考代理集

软多标签函数

统一正则限制

一组特征的余弦相似度

3.2软多标签引导的硬否定挖掘

在这里插入图片描述

软多标签函数
假设1：如果一对未标记的行人图像xi，xj具有较高的特征相似度f(xi)Tf(xj)，则将该对称为相似对，如果相似对具有非常相似的比较特征，则可能是正向对，否则它可能是一个硬否定对

软多标签协议
在这里插入图片描述

每一参考行人相信目标对为正向对的保守协议

挖掘比率

高度相似对

无标签目标数据集中Nu × (Nu ? 1)/2 个对

正向集

硬否定集

相似度下限

软多标签协议下限

软多标签引导的判别嵌入学习
在这里插入图片描述

3.3跨视野一致性软多标签学习

从分布的角度来看，给定参考行人和在给定目标域中收集的未标记目标数据集X，比较特征的分布应仅取决于目标域中行人外观的分布，并且独立于其相机视图
换句话说，每个摄像机视图中软多标签的分布应与目标域的分布一致
在这里插入图片描述
跨视野一致性软多标签学习损失

无标签数据集软多标签分布

无标签数据集中第v个相机视野的软多标签分布

两种分布的距离

简化的2-Wasserstein距离

3.4参考代理学习

在这里插入图片描述
代理学习损失
zk是辅助数据集第k个行人图像，wk是其标签
参考可比性的联合嵌入学习

基于参考代理的联合嵌入学习损失

表示与第i个代理相联系的被挖掘数据

标签wk为i的图像

参考代理学习
β平衡损失权重
3.5模型训练与测试
在这里插入图片描述
MAR模型
λ1、λ2分别是控制跨视野一致性软多标签学习和参考代理学习重要性的超参数

4.实验

4.1数据集

基准测试评估

Market-1501、DukeMTMC-reID
本文遵守训练集包含一半身份、测试集包含另一半身份的标准协议
在训练过程中不使用目标数据集的任何标签

辅助数据集

MSMT17

4.2实验实施细节

设置批量为368，随机一半作为无标签图像x、另一半作为辅助数据集z
由于使用单位范数约束优化基于熵的损失LAL具有收敛问题，因此首先仅使用LAL（不强制执行单位规范约束）对网络进行预训练以赋予基本判别能力以及确定参考代理在超平面嵌入中的方向，然后强制约束条件开始模型学习，并将约束的内积乘以预训练中的平均内积值
设置λ1=0.0002、λ2=50、p=5‰、β=0.2

4.3与最新方法的比较

在这里插入图片描述

与基于手工特征表示模型的比较

将本文模型与基于手工特征的模型进行比较时，性能差距最为明显，主要原因是这些早期作品大多基于启发式设计，因此无法学习最佳的判别特征

与基于伪标签学习模型的比较

本文的软多标签参考学习能够开发辅助参考信息来挖掘潜在判别信息，而这对于直接比较一对视觉相似行人的视觉特征来说是几乎不可探查的，基于伪标签学习的模型正是如此

与基于无监督域自适应模型的比较

基于无监督域自适应的模型仅关注转移/适应来自源域的判别知识却忽略了在无标签目标域的判别标签信息挖掘
本文模型在无标签目标数据中挖掘了判别信息，在目标RE-ID工作中具备直接的高效性

4.4消融研究

在这里插入图片描述
使用消融研究来证明：
(1)软多标签引导的高效性
(2)跨视野一致性软多标签学习和参考代理学习的不可或缺性
软多标签引导硬否定挖掘的高效性
将MAR与未加入软多标签引导硬否定挖掘的预训练模型比较
MAR显著提升了预训练模型，在Market-1501和DukeMTMC-reID中，MAR分别将预训练模型在Rank-1上提升了21.5%和24.0%
软多标签协议引导的高效性
将MAR与基准模型对比，MAR也显著优于相似度引导的硬否定挖掘基准模型，在Market-1501和DukeMTMC-reID中，MAR分别比相似度引导的硬否定挖掘基准模型在Rank-1精确度上提升了23.3%和17.1%，甚至在没有加入软多标签学习和参考代理学习损失时仍分别提升9.5%/10.1%
软多标签学习和参考代理学习的不可或缺性
当没有LCML时，在Market-1501的Rank-1和MAP上分别下降了7.7%和5.4%
当没有LRAL时，在Market-1501的Rank-1和MAP上分别下降了8.5%和9.2%

我认为的论文错误

在这里插入图片描述
纠正：embedding

纠正：9.5%/10.1%

纠正：8.5%和9.2%

4.5视觉结果和见解

在这里插入图片描述
这些观察结果使我们得出结论，软多标签参考学习通过给不同的参考行人较高的标签可能性以产生较低的软多标签协议，可以区分视觉相似的行人

使用一个非常小的辅助数据集不能很好地学习MAR
参考行人数量大约在1500较为合适，两个数据集各取一半人数
Market-1501数据集有1501个行人的来自6个摄像头的32668张图片
DukeMTMC-reID数据集有1404个行人的来自8个摄像头的36411张图片

我认为的论文不当之处

在这里插入图片描述
纠正：2X10-4

5.总结

证明了利用辅助源RE-ID数据挖掘未标记目标RE-ID数据中潜在标签信息的有效性
提出了MAR，它可以在统一模型中同时启用软多标签引导的硬否定挖掘，跨视野一致的软多标签学习和参考代理学习
利用软多标签来挖掘无法通过直接比较未标记的RE-ID数据中的绝对视觉特征来发现的潜在的判别性信息
为了在MAR中启用软多标签引导的硬否定挖掘，同时优化了跨视野一致的软多标签学习和参考代理学习
在两个基准测试中的实验结果验证了MAR和其每个学习组成部分的有效性