Destruction and Construction Learning for Fine-grained Image Recognition
一种细粒度分类的文章,使用乱序产生attention。
网络结构
文中贡献
文中贡献主要有三个部分(1)图像处理操作中打乱顺序 (2)在neck部分加入了对抗loss,使得网络能够识别出哪个是乱序哪个是顺序。(3)使用roi align network 主要是对图片中子区域能够准确定位。不受到乱序噪音的影响。
- 图像乱序处理机制
将图像分成N*N个子区域,随机打乱这些子区域的顺序。
生成乱序图形
原始坐标(I, j)对应的乱序坐标就成了
对应的主分支分类loss写成如下形式
其中C表示图像的分类结果。L表示真实的label。
- 对抗学习
将分类网络的向量层,接一个全连接,输出两个类别,是否是乱序。其评价标准loss是,对抗loss如下
其中d表示真实的标签[0, 1]
- Region align network
这一网络,是对分类主干网络输出的feature map进行1*1卷积,生成两个channel的N*Nfeature map,代表图片中对应子区域的坐标。 使用L1 loss 给定调整loss。
其中M表示预测子区域的值。