论文:Pose-Normalized Image Generation for Person Re-identification
链接:http://openaccess.thecvf.com/content_ECCV_2018/papers/Xuelin_Qian_Pose-Normalized_Image_Generation_ECCV_2018_paper.pdf
代码:暂无
前言:
这篇是ECCV2018关于行人重识别(Person Re-ID)的文章,由复旦和腾讯AI Lab等联合提出。
我们知道Re-ID任务中有很多的难点,比如:跨摄像头、亮度变化、遮挡,其中一个难点就是:姿态不同。哪怕同一个人,不同时刻行走时的姿态也是千差万别的,这会给行人身份的识别带来很大的干扰因素。因此为了克服这个问题,本文利用了最近十分热门的 GAN 生成一系列不同的行人姿态图,文中定义了8种代表性的姿态,然后生成8张生成图,加上原图总共可以得到9个特征,然后融合原图和生成图的ReID特征作为最终的特征,由于这个feature融合了各个pose的信息,很好地解决的pose bias问题。
Abstract:
行人重识别主要面临两个挑战:
1.缺乏跨视角(跨摄像头)的训练数据对(the lack of cross-view paired training data)
2.在大量姿态变化情况下学习有辨别的身份敏感和视角不变的特征(learning discriminative identity-sensitive and view-invariant features in the presence of large pose variations)
在本文中,通过提出一种新的深度行人图像生成模型(a novel deep person image generation model),以姿势为基础的合成真实的人像图片,来处理这两个问题。
这个模型基于一个对抗生成网络GAN,且专门为行人重识别中的姿势规范化设计,因此被称作姿势规范化GAN(Pose-Normlization PN-GAN)。有了这些合成的图片,我们可以学习一种新的深度行人重识别特征类型,以此避免姿势变化(pose bias)带来的影响。文章发现,这些生成的特征和原始图像是相辅相成的,即与从原始图片中学习到的特征高度互补。重要的是,文章考虑了了更加符合现实的无监督的学习,现在有了一个能产生任何新的行人重识别数据库的模型,不需要为模型的微调收集任何的训练数据,因此让深度行人重识别模型真正的可扩展。
1 Introduction:
主要介绍了Re-ID任务中存在许多难点,如下图Fig 1所示:
在这些干扰因素中,姿势变化是导致行人外观变化严重最关键的一个因素。这里的姿势定义为视角变化和body形态不同的结合(Here pose is defined as a combination of viewpoint and body configuration)
现有的许多方法都是通过深度神经网络去学习身份敏感而视角不敏感的特征(identity-sensitive and view-insensitive features),这样就可以很好区分身份,而不太受视角变化影响。但是为了学习到这些特征,需要收集每个视角下每个行人不同姿势的大批量图像,有了这么多的数据,模型才有可能学习到区分性大且对视角和姿势变化不敏感的特征,因此这些方法有很大的限制。
第一个限制就是对于大型的摄像机群体网络缺乏可扩展性( lack of scalability),现有的模型需要有从不同的摄像机视角下拍摄到的足够多的行人身份(sufficient identities)、对于每个行人也要有足够多的图片(sufficient images per identity),而且通过人手工去标注这些数据,不仅需要大量的人力,而且有些图像对人来说都是很难去区分的。特别是在现实生活中,通常一个摄像机群体网络包含成千上百个摄像头(机场和商场里),要全部打标简直是不可能的事情。
第二个限制就是对于大型的摄像机群体网络缺乏普适性(lack of generalizability),当有一个已经训练好的模型应用到新的摄像机群体网络(可以想象是在商场A训练好的Re-ID模型,放到一个相隔几千公里之外的商场B去用,不同的场景下摄像机的视角以及行人的姿势都是差别很大的),这些新的数据就需要进行 fine-tuning,因此很大程度上限制了模型的普适性。
即使有足够多的打好标签的训练图片,已有的深度Re-ID模型仍需要在姿势变化这个难题下,努力去学习身份敏感而视角不敏感的特征(identity-sensitive and view-insensitive features),