CONTEXT AUGMENTATION AND FEATURE REFINE- MENT NETWORK FOR TINY OBJECT DETECTION_综合

论文地址：https://openreview.net/pdf?id=q2ZaVU6bEsT
由于分辨率低、体积小，微小物体很难被探测到。微小目标检测性能差的主要原因是网络的局限性和训练数据集的不平衡性。本文提出了一种新的特征金字塔网络，将上下文增强和特征细化相结合。将多尺度扩展卷积得到的特征进行融合，并自上而下注入特征金字塔网络，以补充上下文信息。在多尺度特征融合中，引入通道和空间特征细化机制来抑制冲突形成，防止微小物体被淹没在冲突信息中。此外，还提出了一种称为复制-减少-粘贴的数据增强方法，该方法可以增加微小对象在训练过程中对漏检的贡献，从而确保训练更加均衡。
在这里插入图片描述

一、文章简介

本文所提出的结构如上，CAM和FRM是网络的主要组成部分。CAM将上下文信息注入FPN，FRM过滤FPN冲突信息。它与上下文增强模块（CAM）和特征细化模块（FRM）相结合。CAM融合多尺度扩展卷积特征，获得丰富的上下文信息，用于特征增强。FRM在通道和空间维度引入了一种特征细化机制，以抑制冲突信息，防止微小物体被冲突信息淹没。
FPN将具有不同粒度的相邻特征图从上到下进行合并，可以极大地提高特征的表达能力。出现了大量类似于FPN的变异结构。PANet基于FPN添加了额外的自底向上连接，以更有效地将信息从下层传输到上层。NAS-FPN通过神经架构搜索技术发现了一种新的连接方法。BiFPN改进了PANet的连接方法，使其更有效，并在连接点引入了一种简单的注意机制。尽管上述结构极大地提高了网络的多尺度表达能力，但它们忽略了不同尺度特征之间冲突信息的存在，缺乏上下文信息可能会阻碍性能的进一步提高，尤其是对于微小物体，很容易被冲突信息淹没。本文充分考虑了冲突信息和上下文信息对检测精度的影响。
本章将详细介绍微小目标检测网络。如上图1所示，{C2，C3，C4，C5}表示输入图像被下采样{4，8，16，32}次后的不同级别。{F1，F2，F3}通过一层卷积表示为与{C3，C4，C5}相对应的新生成的特征级别，而C2则由于混乱的噪声而被丢弃。{L1、L2、L3}表示为FPN生成的特征级别，{P1、P2、P3}表示为FRM生成的特征级别。该网络主要由CAM和FRM组成。CAM的灵感来自人类识别物体的模式。例如，在很高的天空中，人类很难分辨一只鸟，但当把天空作为背景信息时，人类很容易分辨。因此，上下文信息有助于微小目标的检测。CAM应用不同扩张卷积率的扩张卷积来获得不同感受野的上下文信息，并自上而下将其注入FPN，以丰富上下文信息。但是，由于FPN不同级别之间的语义差异，在共享信息时会引入冗余信息和冲突信息。因此，提出了FRM来过滤冲突信息，减少语义差异。通过自适应地融合不同层间的特征，消除层间的冲突信息，防止微小目标特征被淹没在冲突信息中。
同时，针对微小物体产生的正样本数量较少，且对微小物体漏检的贡献有限的问题，提出了一种称为拷贝减少粘贴的数据增强方法。具体来说，复制训练集中较大的目标，缩小它们，然后将它们粘贴回原始imge。粘贴过程中，必须确保粘贴的目标不会与现有目标重叠。以下章节将详细解释上述方法。

二、CONTEXT AUGMENTATION MODULE

微小目标检测需要上下文信息。建议使用不同扩张卷积速率的扩张卷积来获得不同感受野的上下文信息，以丰富FPN的上下文信息。结构如下所示。下图为CAM的结构：该特征分别以1、3和5的比例通过扩展卷积进行处理。通过融合不同感受野的特征来获取语境信息。通过在C5上以不同的扩张卷积率进行扩张卷积，获得不同感受野的背景信息。核大小为3×3，扩张卷积率分别为1、3和5。在这里插入图片描述
可能的融合方式如下图的（a）、（b）和（c）所示。

方法（a）和（c）分别是加权融合和级联运算。即在空间和通道维度上直接添加特征图。方法（b）是一种自适应融合方法。具体地说，假设输入的大小可以表示为（bs，C，H，W），可以通过执行卷积运算来获得（bs，3，H，W）的空间自适应权重连接和Softmax。三个通道与三个输入一一对应，通过计算加权和，可以将上下文信息聚合到输出。每种融合方法的有效性的结果如下表所示。APs、APm和APl被定义为微小、中型和大型目标的精度。ARs、ARm和ARl被表示为对微小、中型和大型目标的召回。从下表中可以看出，（c）对微小物体的优势最大。APs和ARs都增加了1.8%。方法（b）对中大目标的改善最大。方法（a）带来的改善基本上介于两者之间。
在这里插入图片描述

三、FEATURE REFINEMENT MODULE

FPN旨在融合不同规模的特征。然而，不同尺度的特征具有不可忽视的语义差异。直接融合不同尺度的特征会带来大量冗余信息和冲突信息，降低多尺度表达能力。因此，提出了FRM来过滤冲突信息，防止微小目标特征被淹没在冲突信息中。FRM的整体结构如下所示。 (a)为FRM的框架，（b）是（a）中实线表示的结构
在这里插入图片描述
从上图可以看出，FRM主要由两个并行分支组成，即通道净化模块和空间净化模块。它们用于在空间和通道维度上生成自适应权重，从而引导特征向更关键的方向学习。通道净化模块的结构如图（b）所示。为了获得通道注意图，在空间维度上对输入特征图进行压缩，以聚集能够代表图像全局特征的空间信息。自适应平均池和自适应最大池相结合，以获得更精细的图像全局特征。 $X_m$ 被定义为在FRM的第m层（m={1,2,3}）层的输入。 $X （ n ， m ）$ 定义为从第n层调整到第m层的结果。 $X_{k，x，y}^m$ 被定义为位置（x，y）处第k个通道上第m个特征映射的值。因此，上面分支的输出是：
在这里插入图片描述
在上述公式中， $K_{x，y}^m$ 代表位置 $（ x ， y ）$ 处第m层的输出向量。a、 b和c是t通道自适应权重，其大小为1×1×1。a、 b和c的定义如下：

F是由串联操作生成的特性，如上图所示。σ代表sigmoid操作。AP和MP分别是平均池和最大池，然后在空间维度上对这两个权重求和，在sigmoid之后生成基于通道的自适应权重。空间净化模块通过softmax生成相对于通道的所有位置的相对权重，下分支的输出如以下等式3所示：
在这里插入图片描述
在上式中，x和y表示特征图的空间位置，k表示输入特征图的通道。 $φ_{x，y}^m$ 是位置（x，y）处的输出特征向量。 $_{c，x，y}^m$ ， $v_{c，x，y}^m$ 和 $η_{c，x，y}^m$ 表示相对于m层的空间注意权重，其中c表示它们的通道。?，ν，η可以用下式表示：
在这里插入图片描述
F是由串联操作生成的特性，softmax用于规范化通道方向上的特征映射，以获得同一位置不同通道的相对权重。因此，该模块的总输出可以表示为：

这样，FPN的所有层的特征在自适应权重的指导下被融合在一起，并且{p1，p2，p3}被用作整个网络的最终输出。
为了证明FRM的有效性，可视化了一些特征图。微小物体的检测主要由FPN的底层控制，因此仅可视化底层特征。将特征地图缩放到相同的大小。如图所示，最左边的一列是要检测的输入图像。F3、L3、P3是图1中相应标签的特征图的可视化结果。
在这里插入图片描述
特征图的可视化结果。F3是FPN的输入特征图，L3是FPN的输出特征图,P3是FRM的输出特征，具有较少的冲突信息。
从图5可以看出，F3可以大致定位目标的位置，但背景中存在更多噪声。FPN之后，大量高级语义信息被引入L3。这些特征可以滤除大部分背景噪声，但由于特征颗粒的不同，也引入了冲突信息，使得目标区域的响应减弱。针对P3，增强了目标特征，抑制了背景区域，目标与背景之间的边界更加明显，这将有助于检测器区分正负样本，便于定位和分类。从视觉分析可以看出，本文提出的FRM可以大大减少冲突信息，提高微小目标的检测精度。

四、COPY-REDUCE-PASTE DATA ENHANCEMENT

在当前的主流公共数据集中，微小物体产生的正样本数量以及微小物体对损失的贡献远小于较大目标的正样本数量，这使得收敛方向向较大目标倾斜。为了缓解这个问题，作者在训练过程中对目标进行复制、缩小和粘贴。通过增加图像中微小对象的数量和包含微小对象的图像的数量，可以增加微小对象丢失的贡献，并使训练更加平衡。下图b，c是每个目标在不同位置粘贴一次的结果。通过这种方式，微小物体的数量和上下文信息大大丰富。
在这里插入图片描述
从下表可以看出，随着粘贴次数的增加，微小物体的检测性能逐渐降低，甚至可能低于基线。这可能是因为随着粘贴次数的增加，数据集的分布逐渐被破坏，使测试集中的性能变得更差。实验结果表明，粘贴一次是最佳设置。与基线相比，APs提高了2.5%，ARs提高了1.9%，中大目标的检测性能也略有提高。
在这里插入图片描述

五、实验结果

从上图可以看出，总体而言，本文提出的模块可以显著提高目标检测性能，尤其是对于微小目标和中等目标，这也符合我们的初衷。如表所示， $AP_s$ 增加了5.4%。 $AP_m$ 增加了3.6%，而 $AP_l$ 增加了1.0%。同时，不同规模目标的召回率也有不同程度的提高。具体而言， $AR_s$ 增加了6.9%， $AR_m$ 增加了2.3%， $AR_l$ 增加了1.1%。
复制-减少粘贴：数据增强方法将 $AP_s$ 增加2.5%，将 $AP_m$ 增加2.2%，但略微降低 $AP_l$ 。
CAM：CAM模块可以改进 $AP_s$ 、 $AP_m$ 和 $AP_l$ ，尤其是 $AP_s$ 。其准确率和召回率分别提高了1.8%和1.9%。
FRM： $AP_s$ 增加了2.8%， $AP_m$ 增加了1.6%， $AP_l$ 基本相同。
在这里插入图片描述

从表4可以看出，与近年来的大多数算法相比，本文提出的算法在VOC数据集上具有更高的映射。它比PFPNet-R512高1.3%。但它比IPG RCNN低1.2%。这在很大程度上是由于主干网较差，图像尺寸较小，使得检测性能略低于IPG RCNN。如果我们用多尺度方法测试该算法，VOC数据集上的mAP可以达到85.1%，高于所有比较算法。
在这里插入图片描述
从表5可以看出，本文提出的算法在微小物体的AP和AR方面具有绝对优势。本文中的算法比YOLOV4高出3.9%（16.9%对13%），后者在比较算法中具有最高的 $AP_s$ 。与RefineDet相比，我们提出的算法在 $AR_s$ 上高9.2%（29.4%对20.2%），但在 $AP_m$ 上低1.5%。同时，本文提出的算法具有最高的中间目标AR，对中间目标具有很强的检测能力。可以看出，本文提出的算法在检测微小目标方面具有很大的优势。微小目标的AP和AR都表现良好，这比大多数检测算法都要好。