See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification
一篇基于attention 机制的细粒度分类模型
细粒度是粗粒度的延深,类间差距小,类内差距大。 早期的研究中主要使用较多的人工标注来认为的定位attention区域。但是这样会造成很高的成本。
本文主要贡献
- 与很多传统的数据增强方式不同,本文使用了一种新的弱监督数据增强网络WS-DAN。因为原始的数据增强会引入更多的背景噪声。
- 首先通过若监督学习,生成一些maps来表示判别关注区域,然后随机抽取这些map对数据增强(主要的方式有attention crop and attention drop)。
- 使用基于attention数据增强策略。主要是attention crop以及attention drop。Attention crop,随机剪切并且resize一个attention 区域。促进局部特征的表达。Attention drop就是随机消除一个激活区域,这样可以促进模型抽取特征其他特征判别区域。
弱监督attention 学习
首先给出定义,图像表示为I
Feature maps 表示为
Activation maps
其中activation maps是通过卷积来获得的
其中f 代表的卷积, a代表图像的部位。
网络结构
训练部分
测试部分
测试部分主要分成两个部分,第一个部分使用原始图片,输出类别概率,以及attention maps。第二步,使用attention maps,进行数据增强再次进行一次预测,然后将两个类别结合到一起作为最终类别。
Attention pooling
生成attention map之后,将attention map 和 F做点乘
然后再使用pooling或者卷积算法提取attention feature
最后提取的特征如下
最后的矩阵是用P来代表
Attention Center Loss
使用attention center loss, 进行若监督attention 的学习。