Path Aggregation Network for Instance Segmentation阅读笔记_综合

论文链接：https://arxiv.org/abs/1803.01534

1.实例分割思想：

机器自动从图像中用目标检测方法框出不同实例，再用语义分割方法在不同实例区域内进行逐像素标记，区分不同物体和背景。

2.目前情况

文章研究者指出当前最优的 Mask R-CNN 中的信息传播还可以进一步优化。具体来说，低层级的特征对于大型实例识别很有用。但最高层级特征和较低层级特征之间的路径很长，增加了访问准确定位信息的难度。每个候选区域都是源于一个特征层次上的特征网络池化的，其他没有使用的特征层次信息也有助于最终预测，原先mask的预测是在单个视图上，这失去收集不同信息的机会。为了获得足够高的目标检测性能，研究者利用特征金字塔网络（FPN）来提取网络内部的特征层级，FPN在网络前馈结束后增加了自上而下的特征反馈和特征融合。但是FPN网络没有很好的利用底层信息的location信息。

3.PAN结构亮点

在这里插入图片描述
主要分为3个模块也是3点贡献
①改进的FPN: Bottom-up Path Augmentation
②改进之前的pool策略: Adaptive Feature Pooling
③改进mask分支: Fully-connected Fusion

Bottom-up Path Augmentation
FPN不足：
FPN已经证明了加入一条top-down的旁路连接，能给feature增加high-level的语义性有利于分类。但是low-level的feature是很利于定位用的，虽然FPN中P5也间接得有了low-level的特征，但是信息流动路线太长了如红色虚线所示（它经过了ResNet50/101很多卷积层)，增加了定位信息传递的难度。
改进：
文章在FPN的P2-P5又加了low-level的特征，最底层的特征流动到N2-N5只需要经过很少的层如绿色需要所示(仅仅有几个降维的卷积)。
具体实现：
具体操作如下图所示，P2直接copy到N2，然后N2通过步长为2的3*3卷积后分辨率缩小2倍，和P3尺寸一致，然后element-wise 相加。注: 所有channel和FPN中一致P2-P5, N2-N5都是256。
Adaptive Feature Pooling
FPN不足：
FPN从P2-P6(P6仅用作生成proposal，不用作RoIPooling时提取特征)多尺度地生成proposal，然后做RoIPooling时会根据proposal的大小将它分配到不同的level去crop特征，小的proposal去low-level的层，大的proposal去high-level的层。而这时如果小的proposal能从high-level层获取到更多的上下文语义信息是有利于它分类的，而大的proposal能从low-leve层获取到更好的细节是有利于它定位的。
改进：
因此文章打算每个proposal从每个level的特征上都做RoIPooling，然后在后面融合每个特征层次上的每个候选区域，融合的阶段和方式都可实验，比如分类时是两个fc，这个融合阶段可以是fuse, fc1, fc2或者fc1, fuse, fc2，融合策略可是sum也可以是max，最后证明fc1, fuse, fc2和max最好。
不足：
这个改进是增加了一些运算负担。
Fully-connected Fusion
Msk R-CNN不足：
MaskRCNN中Mask分支就是个简版的fcn，fcn是全卷积网络，它根据一个局部的视野域来预测，且参数是全图共享，而全连接fc是全图视野域对位置更敏感，看得更大。
改进：
多加一条用全连接层预测的支路来做mask预测，然后和fcn融合
具体实现：
具体做法如下图所示，至于conv4_fc接在fcn支路哪一个卷积后面，文章通过消融实验对比，conv3后面结果更好一点。

4.实验结果

PANet在多个数据集上达到了state-of-the-art。以ResNet50为基础网络的PANet，在COCO16的目标检测和实例分割双任务上超过了冠军表现，这还只是测试单尺度的性能。PANet在COCO2017的实例分割上获得第一，在目标检测任务上获得第二。在CityScapes和MVD都表现出一流的结果。

5.总结

神经网络中的信息传播方式是非常重要的因素。文章提出了 Path Aggregation Network（PANet），该网络可以对基于区域建议的实例分割框架中的信息流进行加速。通过自下而上的路径增强，在较底层用准确的定位信号增强了整个特征分层，从而缩短了较底层和最高层特征之间的信息路径。展示了适应性特征池化（adaptive feature pooling）操作，将特征网格和所有特征层级连接起来，以使每个特征层级中的有用信息能直接传播到随后的建议子网络。除此之外，还创建了一个互补的分支网络为每个建议捕捉不同的视野，从而进一步提升生成掩码预测的质量。这些提升都能够很简单地实现，只是需要少量的额外计算量。