Matrix Nets (xNets) 是一种用于提高目标检测性能指标的网络架构,该架构可以用于一步、二步以及多步目标检测神经网络。论文作者将该架构用于一阶段目标检测网络,在 MS COCO 数据集上获得了 47.8 的 mAP,并且在 80 个 Epoch 的时候就收敛了。
xNets 主要缓解了以下两个问题:
- 使用正方形的 Kernel 来提取不同宽高比目标的信息是不恰当的;
- 在各个层直接预测目标中心,降低关键点匹配难度;
如下图所示,xNets 参数效率高于其他模型:
在这篇论文中,xNet 用于基于关键点的目标检测就构成了 KP-xNet 。以前性能最好的是 CenterNet,它在 COCO 数据集上能获得 47.0 的 mAP,但是 KP-xNet 只需要一半的参数量、1/3 的迭代数量、1/2 的 GPU 内存,就能获得额外 5.7% mAP 的效果提升。
跟 FPN 相比,xNets 可以解决训练过程中目标宽高比不同的问题。如下图所示,xNets 将不同宽高比的目标输入到各个层,使目标经过该层之后宽高比接近于1。
xNets 架构如下图所示:
xNets 使用分层矩阵建模具有不同大小和宽高比的目标,其中矩阵中的每个条目 i、j 表示一个层 l_i,j,矩阵左上角层 l_1,1 中宽度降采样 2^(i-1),高度降采样 2^(j-1)。对角层是不同大小的方形层,相当于一个 FPN,而非对角层是矩形层(这是 xNets 所特有的)。层 l_1,1 是最大的层,每向右一步,层宽度减半,而每向下一步高度减半。例如,层 l_3,4 是层 l_3,3 宽度的一半。对角层建模宽高比接近方形的目标,而非对角层建模宽高比不接近方形的目标。接近矩阵右上角或左下角的层建模宽高比极高或极低的目标。这类目标非常罕见,所以可以对它们进行剪枝以提升效率。
在分配目标的时候,论文作者给出一个示例(在实际训练过程中,为了稳定收敛,论文作者宽高下线和上线分别乘以 0.8 和 1.3 ):
如果层 l_1,1 输入的目标宽高范围如下:
H ∈ [24px, 48px], W ∈ [24px, 48px]
则层 l_1,2 输入的目标宽高范围就是:
H ∈ [24px, 48px], W ∈ [48px, 96px]
如下图所示,KP-xNet 包含 4 个步骤。(a-b) 步骤使用了 xNets 主干;(c) 步骤使用了共享输出子网络,而针对每个矩阵层,他们预测了左上角和右下角的热图、中心点、偏移量;(d) 步骤利用中心点预测匹配同一层中的角,然后将所有层的输出与 soft 非极大值抑制结合,从而得到最终输出。