Hierarchical Bilinear Pooling?for Fine-Grained Visual Recognition
文中贡献
主要贡献如下
- 使用简单有效的交互层双线性pooling技术,实现内部特征层的交互。
- 基于交互层的双线性pooling,使用一个刚性双线性pooling结构。
模型结构
传统的双线性pooling
图像I经过卷积网络CNN,提取出特征X, 其大小是h*w*c,定义一个X上特殊区域的描述子。那么双线性模型如下
交叉层的双线性pooling
其中x, y表示不同层的descriptors,
文中网络结构
将每一层通过独立线性映射,转化到高维空间project layer,然后将project layer经过交互点乘的形式。得到ineraction layer。然后在进过sum_pooling链接fc层。
使用vgg16的 relu5_1, relu5_2 以及relu5_3层
维度d 设为[512, 8192]
表现最好的是relu5?-3*relu5-2 + relu5-3*relu5-1 + relu5-5 * relu5-1
不同的卷积层扩展到高维空间中,通过独立线性映射。