Class-Weighted Convolutional Features for Visual Instance Search
文中的主要内容是,从feature map中根据图像目标找到典型激活区域。这种方式是基于CAMs的方式。
在re-ranking阶段使用acms形成region proposal。
使用CAMS 形成语义权重,来进行全集层的特征抽取。
文中的主要贡献如下:
- 使用卷积的CAMS来确定激活区域的特征权重提取特征。
- 使用卷积CAMS 应用到re-ranking阶段。
分类权重卷积特征
不同网络获得的特征激活。
类别激活map
CAMS表示预测的每个类,模型所关注的的区域展示。
CAMS 则是将分类网络中的全连接层去掉,然后使用全局平均池化代替。然后再链接一个全连接网络。在全局平均池化之前,再添加一个卷积层(CAM layer)。
所以CAMS可以直接提取再没有做任何改变的情况下。
CAM可以认为是feature maps的线性组合,其中权重是线性分类的那个类别的权重。其公式如下
其中convk表示,第k个feature map, wkc表示c类别中链接第k个feature map的权重。
Cam还能够给出bounding box进行目标定位,给出一个阈值,小于它的给出0值。
图像encode
分成三个部分
- 特征和cam抽取。
- 特征白化和pooling。
- 表达的回归。
- 特征和cam抽取
CAM 提取后需要进标准化到[0, 1]。并且resize 成需要提取的卷积的大小。
- 特征白化和pooling
使用sum-pooling然后再进行,pca降维。
计算第几个feature map的权重,如下
然后得到channel 权重如下
然后就得到了固定长度的向量
然后使用L2正则化,PCA降维,L2正则化。
其中vgg16所选取的层是conv5_1层。