这篇论文提出了一个尺度选择金字塔网络(Scale Selection Pyramid network, SSPNet),该网络由三个部分组成:背景注意模块(Context Attention Module, CAM)、尺度增强模块(Scale Enhancement Module, SEM)和尺度选择模块(Scale Selection Module, SSM)。CAM考虑上下文信息来生成分层的注意力热图。扫描电镜在不同的层次上突出了特定尺度的特征,使得探测器聚焦于特定尺度的物体而不是广阔的背景。SSM利用相邻层间的关系,实现深层和浅层之间合适的特征共享,从而避免了不同层间梯度计算的不一致性。此外,还提出了一种加权负采样(Weighted Negative Sampling, WNS)策略来引导检测器选择更有代表性的样本。
基于FPN的方法虽然取得了令人印象深刻的结果,但是它们在梯度计算上仍然存在不一致性,从而降低了FPN的有效性。由于深层锚点与微小物体不匹配,大部分深层锚点对应位置为负样本,只有少数浅层锚点对应位置为正样本。对负样本优化的相应特征通过元素加法运算直接从深层传递到浅层,与对正样本优化的特征相结合,由于加法运算不能自适应地调整相邻的数据流,导致不同层间的梯度计算不一致。也就是说,梯度计算的不一致性降低了深层的表达能力。因此,深层可能无法指导浅层的训练,反而增加了浅层的负担。
在相邻层中,如果一个对象被分配作为正样本,不一致的梯度计算并不发生在相邻层中,相邻特征对应的对象可以被视为合适的相邻层的功能,因为他们都是朝着积极的样本进行了优化。
上下文注意模块(Context Attention Module, CAM):生成分层注意热图,指出在SSPNet的每一层中,哪些尺度可以被分配为正样本的对象。如果这些相邻的注意热图中的对象有交叉,这些交叉区域的梯度是一致的。
尺度选择模块(Scale Selection Module, SSM):在热图交叉口的引导下,从深层向浅层传递合适的特征,以解决不同层间梯度计算不一致的问题。
尺度增强模块(SEM),在注意热图的引导下,将检测器聚焦于每一层中特定尺度的(指定为正样本)物体,而不是巨大和杂乱的背景。
加权负采样(Weighted Negative Sampling, WNS):为了进一步减少误报,引导检测器更多地关注有代表性的样本,避免在数千个容易的样本中丢失有代表性的样本。
1、上下文注意模块(Context Attention Module):
CAM可以生成不同层次的注意力热图。上下文信息可以提高查找小对象的性能。首先对主干网在不同阶段产生的所有特征进行上采样,使其与底部的特征图具有相同的大小,并通过串联对它们进行整合。然后,利用多重比率的采样和有效感受野的ASPP,通过考虑多尺度特征来寻找目标线索;ASPP生成的上下文感知功能被发送到一个激活门,该激活门由多个具有不同步幅的3x3卷积和sigmoid激活函数组成,以生成分层注意力热图Ak:
其中,σ为sigmoid激活函数,φk表示第k层的3x3卷积,w为3x3卷积,Fc表示ASPP产生的上下文感知特征,s = 2 k 2^k 2k?2表示卷积的步幅。
为了指出在SSPNet的每一层中哪些尺度对象可以被指定为正样本,监督注意热图与锚点在不同层匹配的对象相关联。监督注意热图在不同层次上显示了不同的具体比例尺范围,其中红色和绿色的虚线框表示对应层次的锚点不匹配的对象将作为背景。CAM可以得到特定尺度范围内的注意热图。
2、规模增强模块(Scale Enhancement Module)
SEM可以增强特定尺度对象的线索。由于不同层次的注意热图具有不同的尺度偏好,因此可以让SEM生成尺度感知特征:
F K i F_K^i FKi?、 F K o F_K^o FKo?分别是输入特征图和输出尺度感知特征图, A k A_k Ak?是第k层的注意热图,。注意,由于上下文信息有助于检测,因此使用残留连接来避免削弱对象周围的特性。由于上下文信息有助于检测,因此用残差连接来避免削弱对象周围的特性
3、尺度选择模块(Scale Selection Module, SSM)
为了从深层为浅层选择合适的特征,我们提出了SSM方法来引导深层向浅层传递合适的特征,因为合适的特征是针对同一类进行优化的,所以不会造成梯度计算的不一致。另一方面,如果相邻层的对象都能被检测到,则深层层会提供更多的语义特征,并同时与下一层[7]进行优化。我们的SSM可以表述如下:
f n u f_nu fn?u表示nearest上采样操作, P k ’ P_k^’ Pk’?为第 k t h k^th kth层合并映射, C k ? 1 C_k-1 Ck??1是第 ( k ? 1 ) t h (k?1)^th (k?1)th个残块的输出。
具体来说,SSM扮演着比例选择器的角色。下一层尺度范围内的对象对应的那些特征将被视为合适的特征流入下一层,而其他特征将被削弱,以抑制梯度计算中的不一致性。
4、加权负采样(Weighted Negative Sampling)
首先,强负本通常被检测器视为具有高可信度的正样本。因此,置信度是需要考虑的最直观的因素。然后,采用前景交点(IoF)准则来量化目标的不完整程度。
其中 C i C_i Ci?和 I i I_i Ii?分别表示第i个检测结果的置信度和对应的最大IoF,λ表示用来调整IoF和置信度权重的平衡系数。然后,可以根据 S i S_i Si?来调整每个样本的选择概率。
5、损失函数(Loss Function)
SSPNet通过联合损失函数进行优化。其中 L R P N L_RPN LR?PN 和 L H e a d L_Head LH?ead对边界框回归都采用平滑L1损耗。但对于分类, L R P N L_RPN LR?PN采用二元交叉熵(BCE)损耗, L H e a d L_Head LH?ead采用交叉熵损耗。对于 L R P N L_RPN LR?PN, i为小批处理的锚框指标。 r c i rc_i rci?和 r c i ? rc_i^* rci??分别表示预测类和ground-truth的概率分布。 t T i tT_i tTi?和 t T i ? tT_i^* tTi??分别表示预测的锚框和 ground-truth。分类和回归损失用 N C l s N_Cls NC?ls(minibatch size))和 N R e g N_Reg NR?eg(number of boxes locations) 归一化,后用平衡参数 u 1 u_1 u1?进行加权。默认情况下,将 u 1 u_1 u1?和 u 2 u_2 u2?设为1。 L H e a d L_Head LH?ead的定义与此类似。
L A L_A LA?表示注意损失,引导CAM生成分层注意热图。注意力损失可以表示为:
其中α和β分别表示为dice loss L A d L_A^d LAd?和BCE loss L A b L_A^b LAb?的超参数。为了避免被广阔的背景所淹没,使用dice loss来优先考虑前景,因为它只与注意热图和监督注意热图的交集相关。为了弥补注意热图与监督注意热图无交集时梯度消失的问题,利用BCE损耗来处理这种极端情况,并为优化提供有效的梯度。此外,采用OHEM保证探测器主要聚焦于容易被视为前景的非物体区域,并且将正负比设置为1:3,而不是考虑所有的负样本。具体而言,利用BCE用来学习分类不佳的负样本,利用dice loss学习类分布来缓解数据的不平衡。