当前位置: 代码迷 >> 综合 >> 显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection(GCPANet)浅析
  详细解决方案

显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection(GCPANet)浅析

热度:44   发布时间:2024-01-30 02:54:14.0

显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection(GCPANet)

文章目录

  • 显著性目标检测之Global Context-Aware Progressive Aggregation Network for Salient Object Detection(GCPANet)
  • 摘要
  • 简介
    • 显著性目标检测应用范围
    • 显著性目标检测发展现状
    • 显著性目标检测存在问题(基于FCN)
    • GRAPNet设计的整体思路概述
    • 主要工作总结
  • 具体方法分析
    • GCPANet总览
    • FIA模块
    • SR模块
    • HA模块
    • GCF模块
    • 损失函数

摘要

如今,对于显著性目标检测所需求的准确、有效和全面等方面的问题,深度卷积神经网络发挥了很不错的作用。以前的工作大多是采用多级特征集成而忽视了不同特征之间的差距。另外,高级特征在通过自上而下的通路时也存在一个稀释过程。为了补救这些问题,提出了一种名为GCPANet的新型网络,通过FIA模块( Feature Interweaved Aggregation) 和用一种监督方式生成的显著性地图,可以有效整合低级外观特征、高级语义特征和全局情景特征。除此之外,GCPANet还包括借助空间和通道方式响应来降低信息冗余、增强顶层特征的HA模块(Head Attention),被用来进一步完善和增强输入特征的SR模块( Self Refinement),还有为了学习不同显著性区域的联系、减轻高级特征的稀释影响而生成不同层次的全局情景信息的GCF模块( Global Context Flow)。实验依旧6个基准的数据集演示,发现在定性和定量上都明显优于目前最先进的方法。

简介

显著性目标检测应用范围

显著性目标检测应用范围非常广泛,例如图像理解,图像检索和目标跟踪等等。

显著性目标检测发展现状

近年来,深度学习的发展,尤其是完全卷积网络的出现极大地推动了显著性物体检测的发展。 完全卷积网络(FCN)堆叠了多个卷积层和池层,以逐渐扩大网络的接收范围并提取高级语义信息。完全卷积网络(FCN)堆叠了多个卷积层和池层,以逐渐扩大网络的接收范围并提取高级语义信息。如先前的工作所指出,由于金字塔状的CNN结构,低层特征通常,它们具有更大的空间大小和更细粒度的细节,而高级特征则倾向于获取更多的语义知识,并丢弃一些无意义或不相关的细节信息。一般而言,高级特征有利于显著性对象的粗略定位,而包含空间结构细节的低级特征则适合于细化边界。

显著性目标检测存在问题(基于FCN)

基于FCN的方法仍然存在一些问题:
(1)由于不同级别功能之间的差距,因此简单语义信息和外观信息的组合是不够的,并且没有考虑不同特征对显著性对象检测的不同贡献。
(2)以前的大多数作品都忽略了整体上下文信息,这有助于推断多个显着区域之间的关系并产生更多完整的显著性结果。

GRAPNet设计的整体思路概述

为了解决上述问题,提出了一种新的网络,称为全局上下文感知渐进聚合网络(GCPANet),它由四个模块组成:特征交织聚合(FIA)模块,自我完善(SR)模块,头部关注(HA)模块 ,以及全局上下文流(GCF)模块。考虑到多级特征之间的特征差异,设计FIA模块以完全集成高级语义特征,低级细节特征和全局上下文特征,这有望抑制噪声并且恢复更多的结构和细节信息。在第一个FIA模块之前,在主干的顶层添加了一个HA模块,以增强对显著性对象的空间和通道响应。聚合后,要素将被馈送到SR模块,以利用要素内的内部特征来完善要素图。考虑到上下文信息可以有利于捕获多个显著性对象或显著性对象的不同部分之间的关系,我们设计了一种GCF模块来从全局角度利用这种关系,这有利于提高显着对象检测的完整性。此外,高级特征在通过自上而下的路径时将被稀释。通过引入GCF,这些功能包含全局语义在不同位置传递到特征图阶段,减轻了特征稀释的影响。如图1所示,该方法可以处理一些具有挑战性的场景,例如复杂的场景理解(高亮度天花板干扰)或多对象关系推理(乒乓球拍和球)。
图1

主要工作总结

1.全局上下文情景感知渐进聚合网络,包括:
特征交织聚合(FIA)模块:以交织的方式集成了低级详细信息,高级语义信息和全局上下文信息
自优化(SR)模块
Head Attention(HA)模块
全局上下文流(GCF)模块:生成了全局上下文信息,以捕获不同显著性区域之间的关系并改善生成的显着性图的完整性
2.与六个公共基准数据集上的12种最新方法相比,所建议的网络GCPANet在定量和定性评估中均达到最佳性能。

具体方法分析

GCPANet总览

图2
如图2所示,GCPANet是对称的编码器-解码器体系结构,其中编码器组件基于ResNet-50提取多级特征,而解码器组件逐步集成多级综合特征,以有监督的方式生成显著性图。
具体而言,首先使用HA模块来增强对显著对象的高响应的空间区域和特征通道,然后使用SR模块通过特征优化和增强来生成第一阶段的高级特征。然后,逐步将FIA模块和SR模块分三级进行级联,以了解更多判别功能并生成更准确的显著性图。在FIA模块中,低级详细信息,高级语义信息和全局上下文信息以交织的方式融合在一起。继每个FIA模块之后的SR模块将完善粗聚合功能。注意,全局上下文信息
由GCF模块生成,该模块捕获了不同显著区域之间的关系并限制了更完整的显著性预测。为了促进优化,每个子阶段的辅助损失分支与主要损失相结合。

FIA模块

Feature Interweaved Aggregation Module
众所周知,低级特征包括更多的详细信息,例如纹理,边界和空间结构,但它们也包含更多的背景噪声。相比之下,高级功能可以提供抽象的语义信息,这对于定位显着对象和抑制噪声很有帮助。因此,这两个级别的特征始终组合在一起以生成互补特征。除了这两个级别的功能外,全局上下文信息对于从全局角度推断不同显着对象或零件之间的关系非常有用,这有助于生成更完整和准确的显着性图。此外,使用上下文特征可以减轻特征稀释的影响。FIA模块完全集成这三个级别的功能,进而产生具有全局认知度的歧视性和全面功能。具体来说,如图3所示,FIA模块接收三部分输入,即前一层输出的高级功能,对应底层的低级功能以及GCF模块生成的全局上下文功能。
在这里插入图片描述
(1)高级特征和低级特征的聚合策略
在这里插入图片描述
fl:低级特征图
fh:高级特征图
Wl:低级特征语义模板
Wh:高级特征语义模板
~fl:压缩的低级特征
~fh:压缩的高级特征
conv2:2x2卷积
conv3:3x3卷积
upsample:上采样
乘:按元素乘法
δ:ReLU激活功能
(2)全局上下文特征fg
为了建模显着对象不同部分之间的关系并减轻高级特征的稀释过程,我们在每个阶段引入了全局上下文特征ftg。使用全局上下文特征ftg来生成上下文掩码Wtg。 然后,将掩码Wtg乘以压缩的低级特征?ft1。
在这里插入图片描述
(3)将高级特征、低级特征和全局上下文特征级联融合
最后,将这三个级别的特征级联,然后通过3×3卷积层以获得最终的融合特征:
在这里插入图片描述
除conv2,conv3和conv4以外,上述每个卷积层都配备了批处理归一化层和ReLU激活功能。 然后,将FIA模块的输出传递到SR模块。

SR模块

Self Refinement Module
SR模块通过利用乘法和加法运算在传递HA模块和FIA模块之后进一步完善和增强特征图(参见图4)。应用3×3卷积层将输入特征fin压缩为具有256维通道尺寸的特征向量f?,同时保留有用的信息。 然后,特征f 1被馈送到两个卷积层中以获得用于乘法和加法运算的掩模W和偏置b。fout为得到的特征图。
在这里插入图片描述
图4

HA模块

由于编码器组件的顶层功能通常对于显着物体检测是多余的,因此在顶层之后设计一个HA模块,以利用空间和通道注意机制来学习更多的选择性和代表性功能。
首先将卷积层应用于输入特征图F,以获得具有256个通道的压缩特征表示F。 然后,生成与SR模块中使用的方法类似的掩模W和偏置b。第一级的输出通过:
在这里插入图片描述
此外,通过平均池化将输入特征F下采样为通道方向特征向量f,其具有强的一致性和不变性。 然后,施加两个连续的完全连接的层f c1(·),fc2(·),以将特征向量f投影到输出向量y中。 最终输出特征图Fout将通过使用向量y加权获得。 第二阶段可以描述为以下等式:
在这里插入图片描述
f ci(·)表示第i FC层,δ表示ReLU激活功能,σ是S形运算,?表示函数组成。

GCF模块

Global Context Flow Module
对于突出对象检测中的挑战性场景,例如杂乱的背景,前景干扰和多个突出对象,由于缺少不同对象之间的全局语义关系,高级和低级特征的简单集成可能无法完全检测到显着区域 突出对象的一部分或多个突出对象。 此外,由于自上而下的路径建立在自下而上的主干上,因此高级特征在传输到较低层时将逐渐被淡化。
为了解决这些问题,GCF模块捕获每个阶段嵌入到FIA模块中的全局上下文信息。首先使用全局平均池来获取全局上下文信息,然后为每个阶段的全局上下文特征图的不同通道重新分配不同的权重。
在这里插入图片描述
ftop:顶层特征
fgap:顶层特征通过全局平均池化得到的包括全局上下文信息的特征
fg:GCF模块的输出,输入FIA模块

损失函数

测量生成的显著性图和真实性图片之间关系的损失函数:
在这里插入图片描述
H:图像的高度
W:图像的宽度
Gij:图像像素真值标签
Sij:图像像素位置(i,j)成为显著物体的概率
在这里插入图片描述

λi:不同损失的权重
ldom,laux:主要损失和辅助损失

  相关解决方案