简介
Spatial Pyramid Pooling即空间金字塔池化,是大神何凯明与2014年在论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》中提出。
Spatial Pyramid Pooling主要功能是将不同尺寸的输入转化为固定尺寸的输出,使得神经网络在训练过程和推理过程都能摆脱对固定尺寸的依赖,避免了因为适应固定尺寸对原始图片进行裁剪(crop)或者变形(wrap)引起的信息丢失和位置信息扭曲。
具体结构
如上图所示:SPP分别以1/4,1/2,1倍feature size的尺寸划定pooling区域,分别对划定区域执行pooling操作,得到3个输出feature,维度分别为16256, 4256,1*256。最终通过对3个feature进行整合即可得到固定尺寸的输出。