当前位置: 代码迷 >> 综合 >> 【论文阅读】A Simple Pooling-Based Design for Real-Time Salient Object Detection
  详细解决方案

【论文阅读】A Simple Pooling-Based Design for Real-Time Salient Object Detection

热度:6   发布时间:2024-01-24 09:09:03.0

摘要:
本文通过扩展卷积神经网络中的池化部分来解决显著目标检测问题。基于特征金字塔,在自底向上路径上加入GGM模块(Global Guidance Module),目的是为不同特征层提供潜在显著对象的位置信息。在自顶向下路径上加入FAM模块(Feature Aggregation Module),目的是将粗糙语义信息和细致特征更好融合。在FPNs的融合操作后的自顶向下路径中加入FAMs,能够多尺度地对GGM中的粗糙特征进行无缝融合。这两个基于池化的模块允许逐步重新定义高级语义特征,从而产生细节丰富的显著性特征图。实验结果表明,本文提出的方法能够更准确地定位具有锐化细节的突出物体,从而大大提高了与以往技术水平相比的性能。所提出的方法在处理300*400的图片时,速度大于30FPS。
实验模型及创新性:
实验模型:
在这里插入图片描述本文所提模型基于FPNs,包含两个基础模块:GGM模块和FAM模块。如图1所示,GGM模块由金字塔池化(PPM)和一系列的GGFs组成。本文的GGM都是独立模块,PPM位于自顶向上路径的最高层,这样做的目的是得到全局引导信息。通过引入GGFs,将PPM提取的高层次语义信息送到每层金字塔层的每个特征图中,从而弥补U型网络的缺点(自上而下的信号逐渐被稀释)。考虑到GGFs中的粗糙特征图与金字塔不同尺度提取出来的特征图的融合问题,提出一个模块叫FAM模块。FAM模块输入为融合后的特征图,FAM模块首先将融合的特征图转换为多个特征空间,以捕获不同尺度的局部上下文信息,然后组合信息以更好地权衡融合输入特征图的组成。
创新性:
GGM模块:
CNN的经验感受野远小于理论上的感知域,因此整个网络的感受域不足以捕获输入图像的全局信息。对此的直接影响是只能发现部分显著物体,如图2中(c)所示。作者提出的GGM模块中PPM模块,如下图所示,包含四个分支,第一个是恒等映射层,最后一个是全局平均池化层,中间两个是自适应平均池化层,为了保证输出的特征图是3x3和5x5。

通过引入多个GGF全局引导流,将金字塔池化后的特征引入到各个级别特征图中,这样我们就可以增加全局引导信息在top-down过程中所占的分量,从而保证位置信息不会在不断上采样过程中丢失。由图2(f),当GGM被合并时,得到的显著性图的质量得到了很大的改善,凸部目标可以被精确的发现。


FAM模块
前向过程中,仍然使用了金字塔池化的思想,对输入进行四个分支的平均池化,再通过3x3卷积进行上采样,最后再将四个分支拼接。拼接完加3x3卷积,目的是降低上采样的重叠效应。
在这里插入图片描述总的来说,FAM模块有两个优点:降低重叠效应,尤其是当上采样倍数较大时;允许每个空间位置在不同尺度空间查看局部环境,进一步扩大整个网络的接收领域。多次引入FAM可以使我们的网络更好地锐化突出物体的细节。


上述两个模块的引入,已经超过了现有的方法的检测效果,但观察提出的模型输出的特征图,一些不清楚的物体边界会导致预测的结果不够精确。为此,上述模块的前提下加入了三个边缘检测分支,位于FAM模块之后,用来信息转换(图1黑色虚线)。
每个分支都使用residual block,以及3x3x16的卷积,即每个分支都输出16个通道。最后将三个分支的16通道拼接得到48通道,与最后输出再拼接。目的在于,将捕捉到的边缘信息传输到突出目标检测分支,以进行细节增强。

  相关解决方案