本文发表于CVPR2019,作者是浙江大学罗浩博士
摘要
本文提出一个ReID中简单且有效的baseline。本文使用一些trick,在只使用全局特征的情况下达到rank1 94.5%和mAP 85.9%的水平。
背景
Baseline对于一个领域的研究起着非常重要的作用,但是我们观察最近一年顶会发表的ReID工作,发现论文之间Baseline的差距特别大。以Market1501为例,极少数工作在90以上的Baseline上开展,而大部分集中在80~90之间,甚至部分工作在80以下的Baseline上开展。而DukeMTMC-ReID更是没有一个Baseline超过了80的Rank1。我们都清楚,在低的Baseline上面方法涨点更加容易。另外不同的Baseline也很难统一比较不同方法的优劣性。基于这个因素考虑,我们觉得需要统一一个强力的Baseline。
作者目的
经过统计发现,最近一年顶会上发表工作的Baseline性能差异性很大,并且大部分处在很低的水平。因此我们希望统一一个强力的Baseline。我们希望学术界的研究能够在这个Baseline进行扩展,这样能够早日把Market1501、DukeMTMC-reID数据集给刷爆。只有这些数据集刷爆了,学界才能意识到ReID应该进入下一阶段。我们希望给社区的审稿人一些参考,哪些trick对模型的性能会产生重大的影响,审稿时应该考虑这些trick。我们希望给业界提供一些训练trick,在很低的代价下提高模型的性能,加快产品研发的过程。
作者:罗浩.ZJU
链接:https://zhuanlan.zhihu.com/p/61831669
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
简介
当前大部分的工作都在性能不太好的baseline上进行,本文下网提供一个强力的baseline给研究者和社区来推动ReID的发展。
本文集合了一些高效的训练方法并设计了一个BNNeck。
标准baseline
骨干网络是ResNet50,训练中有以下五个步骤:
- 使用在ImageNet上预训练好的ResNet50参数,并将最后的全连接层的输出改为N(训练集中id数)
- 每个批次随机采样P个人的K张图片进行训练,batch size 为P*K,本文设计P=16,K=4
- 将每张图片resize到256128并向外用0补充10个像素,在随机裁剪到256128
- 每张图片以50%的概率水平翻转
- 每张图片被编码为介于[0,1]的32位浮点数的像素值,然后归一化RGB通道
- 模型输出ReID特征 f 和ID预测标签 p
- ReID特征 f 被用来计算triplet loss,ID预测 p 用来计算cross entropy loss。triplet loss的margin设为0.3
- 使用Adam方法来对模型进行最优化,初始学习率设为0.00035,在40epoch和70epoce时衰减0.1,一共训练120轮
训练trick
Fig2(b)显示了这一部分所描述的训练策略
预热学习率(Warmup)
随机擦除增强(RandomErasing, REA)
标签平滑(LabelSoomth, LS)
最后一层的步长(Last Stride)
参考资料:
- 一个更加强力的ReID Baseline - 罗浩.ZJU的文章 - 知乎
https://zhuanlan.zhihu.com/p/61831669 - ReID Strong Baseline论文阅读 - 心吾人言的文章 - 知乎
https://zhuanlan.zhihu.com/p/97495006
更详细的论文解读 https://blog.csdn.net/weixin_40671425/article/details/93885584?depth_1-utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-1&utm_source=distribute.pc_relevant.none-task-blog-OPENSEARCH-1