A Survey of the Four Pillars for Small Object Detection: Multiscale Representation, Contextual Infor_综合

文章地址：https://ieeexplore.ieee.org/document/9143165

本文综述了基于深度学习的小目标检测的最新研究。本文首先简要介绍了小目标检测的四大支柱，包括多尺度表示、上下文信息、超分辨率和区域建议。然后，列出了用于小目标检测的最新数据集。此外，本文还研究了最先进的小目标检测网络，特别关注了与普通目标检测体系结构相比的差异和改进，以提高检测性能。最后，对小目标检测的未来工作提出了一些有希望的方向和任务。

一、文章简介：

在这里插入图片描述

小物体的详细定义可以用不同的方面加以说明。例如，小对象边界框的长度和宽度像素应小于32；小对象边界框应覆盖原始图像的1%以下。由于较低的图像覆盖率、较少的外观线索和较大的数据集，小目标检测比普通目标检测更困难。上图清楚地描述了小物体检测和一般物体检测。下图为截止2020年相关的经典网络，其中，平均精度，IoU 0.5:0.95表示IoU的平均AP为0.5到0.95，步长为0.05。平均精度IoU 0.5对应于IoU=0.5的AP，平均精度IoU 0.75对应于IoU=0.75的AP。此外，对象大小的度量标准是：小对象（小于 $32^2$ ）、中等对象（从 $32^2$ 到 $96^2$ ）和大对象（大于 $96^2$ ）。在下表中，作者还定义了一个名为“减少程度降低”（DOR）的项目，以说明大目标检测和小目标检测之间的巨大性能差距。可以看出，与中型或大型物体相比，小型物体的平均精度（AP）要低得多。几乎所有在该数据集中训练的通用对象检测器在小对象上的性能都很差，因为中大型对象的数量远远多于小对象。
在这里插入图片描述
随着基于深度学习的目标检测技术的发展，许多针对小目标的新型检测网络被提出。在本文中，小目标检测方法主要分为四大支柱。四个支柱的划分依据是流行的目标检测框架，如mmdetection中的定义，该框架将检测器分为几个模块，例如Backbone, Neck, AnchorHead, RoIExtractor, and RoIHead。前两个关于多尺度表示和上下文信息的支柱属于颈部组件，它对主干生成的原始特征图进行细化或重新配置。该区域主要与AnchorHead组件有关。而超分辨率并不是上述的一个组成部分，它在baseline detectors的基础上增加了两个分支网络，例如生成器网络和鉴别器网络。考虑到它已经成为小目标检测的一个独立研究方向，我们也将其描述为一种支柱。

二、文章细节

多尺度表示：一方面，浅层conv层中的详细信息对于对象定位是必要的。另一方面，深层conv层中的语义信息极大地促进了对象分类。由于小对象的微小尺寸和低分辨率，位置细节在高级特征地图中逐渐丢失。而大多数通用检测器只采用最后一层的输出进行检测任务，包含丰富的分割信息，但缺乏详细信息。多尺度表示是一种将低级特征地图中的详细位置信息与高级特征地图中的丰富语义信息相结合的策略。
上下文信息：利用现实世界中对象与其共存环境之间的关系，上下文信息是提高小对象检测精度的另一种新方法。中型和大型物体可以在普通探测器中提供足够的ROI特征。然而，由于从小对象中提取的感兴趣区域特征很少，因此有必要提取更多的上下文信息作为原始感兴趣区域特征的补充。
超分辨率：如上所述，精细的细节对于对象实例定位至关重要。超分辨率技术试图将原始低分辨率图像恢复或重建到更高的分辨率，这意味着可以获得小物体的更多细节。例如，GAN的核心思想是生成器网络和鉴别器网络。在这个对抗性的过程中，生成器生成真实图像的能力和鉴别器区分真假图像的能力在不断提高。
区域建议：区域建议是一种旨在为小对象设计更合适锚框的策略。目前主流探测器的锚框主要集中在普通物体上，这表明普通探测器中使用的锚框的大小、形状和数量不能很好地与小型物体匹配。如果将常规检测器的这些锚参数直接应用于小目标，额外的噪声信息将导致巨大的计算成本，并降低检测精度。
小目标检测的框架主要分为两种，一种是利用手工特征和浅层分类器，检测道路上的障碍物或交通标志等目标，由于特征提取方法薄弱，通常性能较差。另一种是采用DCNN提取图像特征，然后对主流的通用目标检测网络进行修改，以达到精度和计算成本的良好折衷。为了显著提高传统的小目标检测性能，人们提出了各种各样的新方法。本文将小目标检测的研究工作分为五类，即多尺度表示、上下文信息、超分辨率、区域建议和其他方法。详细描述了每个类别中性能最好的网络，同时简要说明其他类似网络，以便对每个类别进行清晰的解释。

（一）、多尺度表示

小目标的弱特征表示是检测性能差的主要原因。在CNN和池化层重复下采样操作后，最终特征图中存在的小对象特征更少。此外，随着神经网络层数的增加，固有的层次结构生成具有不同空间分辨率的特征图。具体来说，虽然更深的层代表更大的感受野、更强的语义、对变形、重叠和光照变化的更高鲁棒性，但特征图的分辨率会降低，并且会丢失更详细的信息。相比之下，浅层的感受野较小，分辨率较高，但缺乏语义信息。
1）多特征图融合：一些流行的对象检测器，如R-CNN、Fast R-CNN、Faster R-CNN和YOLO，只使用最后一层的特征图来定位对象并预测置信度分数，如下(a)所示。由于缺乏详细信息，这些模型往往无法检测到小物体。SSD引入金字塔层次特征，将每个特征映射从底部组装到顶部网络层，如下（b）所示，从而改进了小对象检测。然而，考虑所有级别的特征可能会产生大量不必要的表示噪声和较高的计算复杂度。为了简化网络并提高检测效率，一些研究人员采用了反卷层，只选择几个包含最详细和语义信息的重要特征图。
MDSSD：在中提出了反卷积融合块，该块采用跳转连接来融合更多上下文特征。在该模型中，首先将三个不同尺度的高级语义特征图（SSD层的conv8_2、conv9_2和conv10_2）引入反褶积层，然后按元素将三个浅层（VGG16层的conv3_3、conv4_3和conv7）相加。应注意的是，反卷积层用于将高层特征图的采样提高到与相应低层相同的分辨率。SSD是整个模型的主干；融合过程在融合块中完成。基本思想如下（c）所示。
在这里插入图片描述
DR-CNN：与MDSSD采用的元素和策略不同，基于反卷积区域的卷积神经网络（DR-CNN）采用级联策略来融合多尺度特征地图，用于小交通标志检测。DR-CNN从VGG16中选择conv3、conv4和conv5，形成用于后续RPN和检测的融合特征图。在每个反卷积模块之后，L2归一化层也被用来确保在相同的尺度上连接的特征。这个网络的另一个创新是关于损失函数。Hard negative samples对训练阶段有很大好处。然而，普通的交叉熵损失函数很难区分简单的正样本和Hard negative samples。因此，为了充分利用Hard negative samples以获得更好的性能，在RPN和全连网络中，用一种新的两级分类自适应损失函数取代了常见的交叉熵损失函数。
MR-CNN：基于多尺度区域的卷积神经网络（MR-CNN）被提出用于小交通标志识别，其中多尺度反卷积操作被用来增加更深卷积层特征的采样，将其与浅层直接连接，构建融合特征图。因此，融合后的特征图可以生成更少的区域建议，并获得更高的召回率。此外，测试结果表明，该方法可以有效地增强特征表示，提高小交通标志检测的性能。
其他简单介绍的方法：此外，融合的多尺度特征地图用于定位对象位置，并使用深层信息执行对象分类；反向特征增强网络（BFEN），将更多的语义信息从高层传输到底层；将细粒度特征连接成空间布局保持网络（SLPN），保留ROI池层的空间信息，实现更好的定位精度；提取第三、第四和第五卷积层的特征图，并将其组合成一维向量进行分类和定位。；一种优化锚定尺寸的方法和用于道路垃圾检测的融合多级特征图。受Inception模块的启发，一种新的特征融合机制。选择YOLOv3作为基本框架，使用多尺度卷积核形成不同大小的感受野，可以充分利用低层信息。

（二）、不同特征地的连接方法：

虽然许多方法基于多尺度表示，上述都是为了提高小目标检测的效率而提出的，但是对于如何融合高层特征图和底层特征图的相关工作却很少。 CADNet：提出了通道感知反卷积网络（CADNet），用于研究深层不同通道中的特征图之间的关系，以避免特征图的简单叠加。通过利用不同尺度特征之间的相关性，可以在较低的计算成本下提高小目标的召回率。如下图所示，该框架分为三个步骤，包括scale transfer layer、卷积层和元素求和模块。特别是，scale transfer层将每四个通道的四个像素重新组织到二维平面上的相同位置，以获得位置细节并提高特征地图的分辨率。然后，通过一个4×4核大小的卷积层来利用特征映射的更多语义信息；特征图与上一层通过elementwise方法连接。因此，融合层既包含底层的细节信息，也包含高层的语义信息。一般来说，多特征地图融合有助于捕捉细节信息和丰富的语义信息，分别促进目标定位和分类。然而，许多多尺度表示方法在提高检测性能的同时增加了计算负担。此外，冗余信息融合设计可能会导致背景噪声，导致性能下降。在这里插入图片描述
上下文信息：由于小对象只占据图像的一小部分，因此直接从细粒度局部区域获得的信息非常有限。通用对象检测器通常会忽略这些局部区域之外的许多上下文特征。众所周知，每一个物体都存在于特定的环境中或与其他物体共存。然后，提出了一些基于上下文信息的检测方法，以利用小对象与其他对象或背景之间的关系。小物体的周围区域可以提供有用的上下文信息，帮助检测目标物体。通过添加特殊的上下文模块，可以显著提高检测精度。接下来，详细描述了几种使用上下文信息的重要网络模型。
ContextNet：增强的R-CNN可以被认为是第一个专注于小目标检测的探测器。在这项工作中，提出了一种新的区域提议网络（RPN）来编码小对象提议周围的上下文信息。首先，根据小对象的大小，将RPN锚定大小从原来的 $128^2$ 、 $256^2$ 、 $512^2$ 、 $pixel^2$ 缩放到 $16^2$ 、 $40^2$ 、 $100^2$ 、 $pixel^2$ ，并在conv4_3特征图中提取小对象建议，而不是VG16的conv5_3。第二，由三个子网组成的ContextNet模块被设计用于获取提案对象周围的上下文信息，如下所示。相同的两个前端子网由几个卷积层和一个全连接层组成；后端子网由两个全连接层组成。由改进的RPN提取的提议区域和与提议区域具有相同中心点的较大上下文区域分别被传递到两个前端网络。同时，从前端网络获得的两个4096-D特征向量在被输入后端网络之前被连接起来。实验结果表明，这种增强的R-CNN模型比原R-CNN模型的小目标检测图提高了29.8%。
在这里插入图片描述
Inside–Outside Net：在Inside–Outside Net（ION）中采用空间递归神经网络（RNN）来搜索目标区域外的上下文信息；然后，采用跳转池化来获取内部的多级特征映射。两个连续的四方向空间RNN单元用于在图像的每一列中移动。该模型将多个尺度和上下文信息连接起来进行检测。在ION方法中，上下文特征映射由网络顶部的IRNN模块生成。值得注意的是，IRNN由RELU组成，此外，原始VGG16的conv5层的四个副本通过1×1卷积层作为前四个方向RNN（从左到右、从右到左、从上到下、从下到上）的输入；然后，将每个方向的输出连接为下一个IRNN单元的输入。最后，获得上下文特征。
VSSA-NET：设计了一个多分辨率特征融合网络，利用带跳跃连接的反卷积层和垂直空间序列注意模块进行交通标志检测。该网络主要分为两个阶段。第一阶段是多尺度特征提取模块，通过Mobile Net和反卷积层形成多分辨率特征图。第二阶段是构建垂直空间序列注意模块。为了充分利用上下文信息，将三个特征图的每一列视为空间序列。通过在解码阶段引入注意机制，对传统的基于LSTM网络的编解码器模型进行了改进，该机制可以在不考虑噪声的情况下对上下文特征进行编码。
MFFD：随着检测精度的提高，更深的检测网络意味着更高的计算成本。一种称为模块化特征融合检测器（MFFD）的模块化轻量级网络模型；它不仅在小目标检测方面有很好的性能，而且可以嵌入到资源有限的设备中，如先进辅助系统（ADASs）。在该网络中设计了两个新颖的模块。其中，前端模块在卷积层中使用小尺寸卷积核以减少信息损失，而较小的模块在进入卷积层之前通过逐点卷积层（1×1卷积）改变输入通道的数量。其优点是网络融合了来自可用模块的多尺度上下文信息，而不是直接来自单个层，从而实现高效计算。
其他简单介绍的方法：在多级特征融合模块中使用串联模块或元素和模块，将上下文信息引入SSD。同时，设计了一个名为CSSD的特殊层来集成多尺度上下文信息。该背景层采用扩展卷积和反卷积从多尺度特征地图中提取背景信息；引入记忆网络来存储语义信息，并保留以前检测的条件分布。将记忆增强分数添加到更快的RCNN分数中，然后进行优化以完成区域分类。PCNN由三个块组成，其中全局特征从SE模块获得，零件特征从零件定位网络（PLN）提取。然后，第二个分类网络流（PCN）将局部特征和全局图像特征连接成一个联合特征，用于最终分类。此外，还介绍了TL-SSD网络，其中初始模块连接不同大小的感受野。特征拼接结合了浅层和深层特征层；浅层模型可以提供准确的位置和状态信息，而深层模型可以决定物体是否属于红绿灯。通过金字塔池化的多级上下文信息被用于构建上下文感知特征。上下文融合模块侧重于将上下文信息的比例添加到特征映射中。还设计了上下文感知RoI池，以避免损害小对象的结构并保留上下文信息，其中一个规模密集型卷积神经网络被应用于车辆检测场景。Leng等人将U-V视差算法与结合内部和上下文信息的更快R-CNN相结合。
与多尺度表示类似，上下文信息也旨在为最终检测网络提供更多信息。区别在于，上下文信息主要是获取感兴趣区域周围的信息，通过学习对象与周围信息之间的关系来改进对象分类。因此，冗余的上下文信息也会导致信息噪声。

（三）、超分辨率

超分辨率方法旨在从相应的低分辨率特征中恢复高分辨率。高分辨率图像提供了关于原始场景的更精细的细节，可以很好地应用于小对象检测。基于Gan的算法已被提出用于重建高分辨率图像。生成对抗网络在图像超分辨率方面取得了巨大进步，它由两个子网络组成，一个子网络是生成器网络，另一个子网络是鉴别器网络。该生成器生成超分辨率图像以欺骗鉴别器，而鉴别器则试图将真实图像与生成器生成的假图像区分开来。GAN基方法的常见形式如下所示。
在这里插入图片描述

Perceptual GAN：GAN方法首次用于小目标检测任务。介绍了一种新的条件产生器；它将底层特征作为输入，以获得更多细节，用于超分辨率表示。该生成器包括多个残差块，用于学习小对象和类似大对象之间的残差表示。鉴别器由两个分支组成，即对抗分支和感知分支。从一个角度来看，敌对分支将生成的小对象超分辨区域与类似的大对象区分开来。从另一个角度来看，常规的目标检测任务是在感知分支中完成的。这两个分支都试图获得最小的损失，同时对生成器进行训练，以最大限度地提高鉴别器做出错误判断的概率。
GAN：然而，GAN生成的高分辨率图像仍然不够清晰。因此，添加了细化模块，以恢复用于小人脸检测的一些细节。首先，选择MB-FCN作为baseline detector来生成包含或不包含人脸的区域，这些区域分别传递到生成器和鉴别器中。其次，低分辨率的人脸经过上采样模块和细化模块，获得清晰的超分辨率区域。第三，将非人脸区域作为负数据用于训练鉴别器，该鉴别器同时具有两个任务来区分超分辨率区域和高分辨率区域；从非面区域到面区域。
SOD-MTGAN：一种新的多任务生成对抗网络（MTGAN）。在MTGAN中，超分辨率图像由发生器网络生成；引入多任务鉴别器网络来区分真实的高分辨率图像和假图像，同时预测对象类别和细化边界框。更重要的是，分类和回归损失被反向传播，以进一步引导生成器网络生成超分辨率图像，从而更容易分类和更好地定位。MTGAN中生成器的损失函数包括对抗性损失（目标损失）、像素级MSE损失、分类损失（总体目标损失）和边界框回归损失，从而使重建图像与包含高频细节的真实高分辨率图像相似。与之前的GANs相比，生成的超分辨率图像的分类和回归损失被添加到生成器损失中，以确保从生成器网络恢复超分辨率图像；与仅使用对抗性损失和MSE损失进行优化的方法相比，它们更为现实。
JCS网络：专注于小型行人检测，JCS网络由分类子网络和超分辨率子网络组成。通过结合分类损失和超分辨率损失，将这两个子网集成为一个统一的网络。在超分辨率子网中采用了类似的残差结构，如VDSR，以探索大规模行人和小规模行人之间的关系，从而恢复小规模行人的细节。因此，重建的小尺度行人既包含小尺度行人的原始信息，也包含超分辨率子网的输出信息。在训练阶段，多层通道特征（MCF）基于HOG+LUV，并应用JCS网络来训练检测器。此外，多尺度表示与MCF相结合以增强检测能力。

（四）、Region-Proposal

在深度学习技术出现之前，区域建议的最佳执行方法是选择性搜索算法。然而，这种方法的计算效率非常有限。Faster R-CNN首次引入RPN来识别感兴趣的区域；然后，提出了R-FCN生成k×k×（C+1）特征映射，而不是单个特征映射，每个特征映射负责每个类别的检测。然而，由于锚框尺寸较大，小目标检测仍然难以准确定位。
在FastMask的基础上，AttentionMask为小对象生成定制区域方案。在基础网络的早期阶段，向特征尺度空间添加了一个更大的尺度（S8）。特别是，为了减少采样窗口的数量，采用了尺度特定的对象性注意机制（SOAM）在每个不同尺度的特征地图上选择最有希望的窗口。尽管所有尺度都根据它们的注意值进行联合调整，以找到采样窗口的最佳位置，但该策略只对最有希望的窗口进行优先采样和处理，从而节省内存和GPU源，用于添加小对象检测的尺度（S8）。锚箱的更精确位置通常具有较低的置信度，而它们更有可能被NMS的后处理拒绝。因此，设计了平滑NMS（SNMS）9来利用这些锚框，并采用IoU预测来提供更多分类证据。此外，输入图像的几个像素在四个方向上循环移动，以避免丢失位于近锚盒间隙中的小对象。
由于RPN中的参数是由先验知识确定的，因此在RPN的训练模型中经常存在不拟合问题。因此，通过增加参数，设计了强化RPN（SRPN）。此外，还引入了particle swarm optimization and bacterial foraging optimization来寻找最优参数值；然后，可以获得高质量的检测方案。还引入了包含小对象的过采样图像和小对象增强，以使模型更关注小对象。需要注意的是，小对象增强是在一幅图像中多次复制粘贴小对象区域；粘贴的对象不会与现有对象重叠。这增加了包含小对象的正匹配锚和区域建议的数量。MS COCO数据集上的结果表明，使用3倍过采样和复制粘贴策略处理图像获得了最大的增益，与原始mask R-CNN相比，例如分割和小对象检测的相对改善率分别提高了9.7%和7.1%。
在神经网络中处理背景区域需要花费大量的时间和内存。提出了一种级联掩模生成框架，使计算速度和精度之间达到平衡。原始图像首先被调整为多尺度。然后，每个区域都通过受RoI卷积启发的mask生成模块（MGM）生成区域方案和mask。最后，将每个尺度的特征图连接起来，用于ROI和检测。在SSD模型中训练后，输入图像的特征图根据可信度分为模糊目标样本和突出目标样本。突出物体样本的细节足以识别，而模糊物体样本（主要是远小物体）则通过SSD检测、物体大小确认、重复物体移除和镜外物体移除的验证进行确认。该方法也适用于其他无需架构修改的检测模型。当对原始图像中至少包含一个对象的区域进行裁剪，然后将其放大到相同的输入大小时，应用区域建议网络。这使得原来的小物体变得更像大物体，更容易被普通SSD探测器检测到。

（五）、其他结构

基于faster R-CNN，KB-RANN专注于交通标志的检测，其中预训练的SqueezeNet生成特征图，带有注意机制的RNN架构（LSTM）搜索上下文信息。此外，由于来自faster R-CNN的原始区域建议生成器对于交通标志来说太大，因此减少了VGG-16的pool4层，并采用ResNet来提取小标志的特征。之后，结合在线Hart示例挖掘（OHEM），使网络更加健壮。