MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features阅读笔记_综合

论文链接:https://arxiv.org/abs/1712.04837

论文研究：

论文解决了实例分割的问题，即同时解决对象检测和语义分割的任务。论文提出了一个名为MaskLab的模型，它可以产生三个输出：box检测，语义分割和方向预测。建立在Faster-RCNN对象检测器之上，预测的框提供了对象实例的准确定位。在每个感兴趣区域内，MaskLab通过组合语义和方向预测来执行前景/背景分割。语义分割有助于模型区分包括背景在内的不同语义类的对象，而方向预测，估计每个像素朝向其相应中心的方向，实现分离同一语义类的实例。

目前技术不足：

目前最先进的实例分割模型FCIS [1]采用位置敏感的[2]内/外得分图来编码前景/背景分割信息。内部/外部分数图的使用成功地在每个预测的边界框内分割了前景/背景区域，但由于背景编码的冗余，这也使输出通道的数量加倍。

另一方面，先前[3]的工作产生三个输出：语义分割，实例中心方向（预测像素朝向其对应实例中心的方向）和深度估计，然而，随后又要采用复杂的模板匹配来解码预测的方向以进行实例检测。

论文改进点：

论文针对以上两个不足，一方面，采用包括背景类的像素方式分类信息的语义分割预测来区分不同语义类别（例如，人和背景）的对象，从而去除[1]中的背景编码冗余，另一方面，方向预测用于分离相同语义标签的对象实例。论文模型采用了与[1,2]中相同的组装操作来收集方向信息，从而摆脱了[3]中使用的复杂模板匹配。

除此之外，论文还采用了空洞卷积[4]来提取更密集的特征图，超列特征[5]用于细化掩模分割，多网格[6]用于捕获不同尺度的背景，以及可变形裁剪和调整大小。

论文结构：

（1）Masklab三通道
Masklab三通道如下图所示：
在这里插入图片描述
MaskLab生成三个输出，精细的box预测（来自Faster-RCNN），语义分割logits（逐像素分类的logits）和方向预测logits（用于预测每个像素朝向其对应实例中心的方向的logits）。对于每个感兴趣的区域，论文通过利用语义分割和方向logits来执行前景/背景分割。具体地，对于语义分割logits，论文基于预测的框标签选择通道，并根据预测的框裁剪区域。对于方向预测logits，论文执行方向池化以组合来自每个通道的区域logits。这两个裁剪的特征被连接并通过另一个1×1卷积进行前景/背景分割。

（2）mask微调
我们通过利用超列特征进一步细化预测的粗糙掩模。具体来说，如下图所示：
在这里插入图片描述
生成的粗掩码logits（仅通过利用语义和方向特征）与来自ResNet-101下层的特征连接，然后由三个额外的卷积层处理，以预测最终掩模。

（3）变形剪裁
如下图所示：
在这里插入图片描述
“裁剪和调整大小”首先从特征映射中裁剪指定的边界框区域，然后将它们双线性地调整为指定大小（例如，4×4）。进一步将区域划分为若干子框（例如，4个子框，每个子框具有2×2的大小），并使用另一个小网络来学习每个子框的偏移。最后，依据每个变形的子框再次执行“裁剪并调整大小”操作。

具体细节：

（1）空洞卷积
论文使用了空洞卷积，它已经在语义分割、物体检测和实例分割中成功应用以提取更密集的卷积特征图。论文中使用了空洞卷积后输出图片是原始图片尺寸的1/8。
（2）语义和方向特征的效果
论文试验了使用语义或方向特征的效果如下表所示：
在这里插入图片描述
从上表看出，仅给出语义分割特征，该模型的mAP@0.75性能为24.44％，而仅使用方向特征，性能提高到27.4％，表明方向特征比语义分割特征更重要。采用这两种功能时，达到了29.72％。
除此之外，论文进一步观察到，如果还量化方向区域中的距离，则可以进一步提高性能。如下图所示：
在这里插入图片描述
例如，当使用2个bin时，将相同的方向区域分成2个区域。论文发现使用4个bin可以进一步将性能提高到30.57％。因此，模型最终生成32 = 8×4个通道用于方向池化。

（3） Mask微调
论文采用一个小型ConvNet，由三个5×5卷积层和64个滤波器组成。论文已经尝试用其他结构（例如，更多层和更多滤波器）替换小型ConvNet，但没有观察到任何显着差异。论文尝试使用较低级别的ResNet-101的不同特征。如下表所示：
在这里插入图片描述
使用conv1（第一个循环生成的特征映射）将mAP@0.75性能从30.57％提高到32.92％，同时使用conv1和conv2（即res2x块中的最后一个特征映射）获得33.89的最佳性能33.89％。论文发现在添加更多低级功能时没有进一步的改进。

论文效果：

（1）语义和方向特征
下图在学习后的语义分割logits中可视化“人”的通道：
在这里插入图片描述
从上图可以看到，非人区域可能也存在一些高激活值（例如，靠近大象腿和风筝的区域），因为语义分割分支仅使用groundtruth框训练而没有任何负面区域。这个问题由box检测分支去解决，该分支能够过滤掉错误的box预测。

（2）变形剪裁
通过下图，可视化学习后的变形子框（sub-box）：
在这里插入图片描述
论文中的子盒以圆形排列变形，试图捕获更长的盒子分类上下环境背景。结合上下文以提高检测性能这种方法已被用于很多性能优异的模型中，并且论文的模型也能够学习这一点。

（3）预测后掩模
使用Masklab对图片进行实例分割的效果如下图所示：
在这里插入图片描述

模型不足：

由上图实例分割效果展示，可以看到，对于最后一行的实例分割效果不太好，这主要是由于检测失败（例如，漏检和错误分类）和分割失败（例如，粗边界结果）。

论文总结：

论文提出了一个名为MaskLab的模型，它产生三个输出：box检测，语义分割和方向预测，用于解决实例分割的问题。 MaskLab建立在最先进的探测器之上，通过利用语义分割和方向预测来执行前景/背景分割。论文中也证明了MaskLab在具有挑战性的COCO实例分割基准上的有效性，并显示了乐观的结果。

参考文献：

[1] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional instance-aware semantic segmentation. In CVPR, 2017.

[2] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive
fully convolutional networks. In ECCV, 2016.

[3] J. Uhrig, M. Cordts, U. Franke, and T. Brox. Pixel-level en- coding and depth layering for instance-level semantic labeling. In GCPR, 2016.
[4] L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,andA.L. Yuille. Deeplab: Semantic image segmentation with deep
convolutional nets, atrous convolution, and fully connected
crfs. TPAMI, 2017.
[5] B. Hariharan, P. Arbela ?ez, R. Girshick, and J. Malik. Hyper- columns for object segmentation and fine-grained localization.
In CVPR, 2015.

[6] P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, and G. Cottrell. Understanding convolution for semantic segmen- tation. arXiv:1702.08502, 2017.