What Is the Best Practice for CNNs Applied to Visual Instance Retrieval?
文中主要介绍了一个新的多尺度的图像特征表达。其中这类推荐方法,比目前已有的方法更好。
文中主要有三个贡献
- 文中使用,五个元素来学习基于CNN的图像表达,并且使用试验证明这些的影响,并且给出这些要素的组合建议。
- 通过组合这些东西,我们能够获得新的多尺度图像表达。
文中不同于以往的工作,主要使用多种在无监督实例检索中有效的要素,然后进行元素设置以及元素组合。使得检索得到了较大的提升。
选择的要素
- 要素选择主要是针对,归一化与回归方法,归一化有L1正则化,L2正则化. 回归方法包括,sum_pooling以及max_pooling。
- 文中使用不同的卷积层来提取向量,选择最好的层,也有的将这个层和目前存在的方法相融合。
- 图像reisize,
直接resize的方法不好,文中给出三种resize方法。并做了实验
第一种resize方法,固定图片的长和宽。并进行resize。
第二种,只固定最小边。
第三种,保持原始resize。
- 多尺度特征表达
使用图像金子塔提取不同的特征
三个等级的图像金字塔,以及每个等级划分的区域。
将这些区域的特征融合到一起,作为图像的向量表达。
- PCA+白化