论文链接:https://arxiv.org/abs/1803.01534
1.实例分割思想:
机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记,区分不同物体和背景。
2.目前情况
文章研究者指出当前最优的 Mask R-CNN 中的信息传播还可以进一步优化。具体来说,低层级的特征对于大型实例识别很有用。但最高层级特征和较低层级特征之间的路径很长,增加了访问准确定位信息的难度。每个候选区域都是源于一个特征层次上的特征网络池化的,其他没有使用的特征层次信息也有助于最终预测,原先mask的预测是在单个视图上,这失去收集不同信息的机会。为了获得足够高的目标检测性能,研究者利用特征金字塔网络(FPN)来提取网络内部的特征层级,FPN在网络前馈结束后增加了自上而下的特征反馈和特征融合。但是FPN网络没有很好的利用底层信息的location信息。
3.PAN结构亮点
主要分为3个模块也是3点贡献
①改进的FPN: Bottom-up Path Augmentation
②改进之前的pool策略: Adaptive Feature Pooling
③改进mask分支: Fully-connected Fusion
- Bottom-up Path Augmentation
FPN不足:
FPN已经证明了加入一条top-down的旁路连接,能给feature增加high-level的语义性有利于分类。但是low-level的feature是很利于定位用的,虽然FPN中P5也间接得有了low-level的特征,但是信息流动路线太长了如红色虚线所示(它经过了ResNet50/101很多卷积层),增加了定位信息传递的难度。
改进:
文章在FPN的P2-P5又加了low-level的特征,最底层的特征流动到N2-N5只需要经过很少的层如绿色需要所示(仅仅有几个降维的卷积)。
具体实现:
具体操作如下图所示,P2直接copy到N2,然后N2通过步长为2的3*3卷积后分辨率缩小2倍,和P3尺寸一致,然后element-wise 相加。注: 所有channel和FPN中一致P2-P5, N2-N5都是256。
- Adaptive Feature Pooling
FPN不足:
FPN从P2-P6(P6仅用作生成proposal,不用作RoIPooling时提取特征)多尺度地生成proposal,然后做RoIPooling时会根据proposal的大小将它分配到不同的level去crop特征,小的proposal去low-level的层,大的proposal去high-level的层。而这时如果小的proposal能从high-level层获取到更多的上下文语义信息是有利于它分类的,而大的proposal能从low-leve层获取到更好的细节是有利于它定位的。
改进:
因此文章打算每个proposal从每个level的特征上都做RoIPooling,然后在后面融合每个特征层次上的每个候选区域,融合的阶段和方式都可实验,比如分类时是两个fc,这个融合阶段可以是fuse, fc1, fc2或者fc1, fuse, fc2,融合策略可是sum也可以是max,最后证明fc1, fuse, fc2和max最好。
不足:
这个改进是增加了一些运算负担。 - Fully-connected Fusion
Msk R-CNN不足:
MaskRCNN中Mask分支就是个简版的fcn,fcn是全卷积网络,它根据一个局部的视野域来预测,且参数是全图共享,而全连接fc是全图视野域对位置更敏感,看得更大。
改进:
多加一条用全连接层预测的支路来做mask预测,然后和fcn融合
具体实现:
具体做法如下图所示,至于conv4_fc接在fcn支路哪一个卷积后面,文章通过消融实验对比,conv3后面结果更好一点。
4.实验结果
PANet在多个数据集上达到了state-of-the-art。以ResNet50为基础网络的PANet,在COCO16的目标检测和实例分割双任务上超过了冠军表现,这还只是测试单尺度的性能。PANet在COCO2017的实例分割上获得第一,在目标检测任务上获得第二。在CityScapes和MVD都表现出一流的结果。
5.总结
神经网络中的信息传播方式是非常重要的因素。文章提出了 Path Aggregation Network(PANet),该网络可以对基于区域建议的实例分割框架中的信息流进行加速。通过自下而上的路径增强,在较底层用准确的定位信号增强了整个特征分层,从而缩短了较底层和最高层特征之间的信息路径。展示了适应性特征池化(adaptive feature pooling)操作,将特征网格和所有特征层级连接起来,以使每个特征层级中的有用信息能直接传播到随后的建议子网络。除此之外,还创建了一个互补的分支网络为每个建议捕捉不同的视野,从而进一步提升生成掩码预测的质量。这些提升都能够很简单地实现,只是需要少量的额外计算量。