Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation_综合

利用掩码传播对视频中的对象实例进行分类、分割和跟踪 MASK

一项与 MaskTrack R-CNN[42] 类似的工作

Abstrac1t

我们介绍了一种同时对视频序列中的对象实例进行分类cls、分割segm和跟踪track的方法。我们的方法，命名为MaskProp，通过添加一个掩码mask传播分支， 将每个视频帧中的帧级对象实例掩码传播到视频剪辑中的所有其他帧，从而使流行的Mask R-CNN适用于视频。
！：在Mask-RCNN的基础上加一个在一段video clip中可以propagate instance masks的模块。这样可以参照clip最中间那个instances segmentation 来predict clip-level的instance tracks

这允许我们的系统相对于在剪辑的中间帧中分割的对象实例来预测剪辑级别的实例轨迹。为序列中的每一帧密集生成的剪辑级实例轨道最终被聚集以产生视频级对象实例分割segm和分类cls。我们的实验表明，我们的剪辑级实例分割使我们的方法对视频中的运动模糊和目标遮挡具有很强的鲁棒性。 MaskProp在YouTube-VIS数据集上实现了最好的报告准确性，表现优于ICCV 2019年视频实例分割挑战赛获胜者，尽管它要简单得多，而且使用的标签数据少了几个数量级(130万比1B图像和860K比14M边界框)。项目页面位于：https://gberta.github.io/maskprop/.

1. Introduction

在这里插入图片描述
图一：在本文中，我们解决了视频实例分割问题，该问题需要对给定视频序列中的对象实例进行分类、分割和跟踪。
我们提出的Mask Propagation框架(MaskProp)为解决这一问题提供了一种简单而有效的方法。

在本文中，我们解决了最近引入的视频实例分割问题[42]。此任务需要在每个帧中分割一组预定义对象类的所有实例，对它们进行分类，并在整个序列中链接各个实例。
近年来，卷积网络在静止图像目标检测[16，33，14，15]和分割[27，45，8，4]方面取得了显著的效果。然而，将这些模型扩展到视频实例分割是具有挑战性的。为了精确定位目标，这些方法必须在非常大的空间分辨率下操作。因此，基于流行的ResNet-101或ResNet-152主干的检测器[17]在训练期间很少适合每个GPU一个以上的图像。在视频实例分割的上下文中，这是有问题的，因为随着时间的推移跟踪对象需要同时分析多个视频帧。
要解决这个问题，可以降低输入的空间分辨率，并在GPU中容纳更多的视频帧。
但是，这样做通常会导致分段或检测性能显著下降。或者，可以对各个帧执行高分辨率实例分割，然后在单独的后处理阶段临时链接分割。但是，在十个不相交的两个步骤中执行实例分割和跟踪会产生不太理想的结果，因为这两个任务紧密交织在一起。因此，关键的挑战是设计一个统一的模型，该模型可以跟踪视频中的对象，同时保持强大的检测精度。
目前，最好的视频实例分割方法是ICCV 2019挑战赛获胜者[28]。它通过将视频实例分割分为四个问题来解决：1)检测，2)分类，3)分割，4)跟踪。这四个问题使用多个现成的组件独立解决，并将各自的解决方案组合在一起，以适应视频实例分割任务。然而，尽管性能有效，但这样的方法是不利的，因为它需要为四个任务中的每一个设计和调优单独的模型(或者，在某些情况下，需要一组模型)。这使得这种方法既昂贵又麻烦。 另一方面，MaskTrack R-CNN[42]是一种端到端训练的简单统一方法，但其性能要低得多(30.3比44.8视频地图)。
在这里插入图片描述
表1：将我们的工作与以前的视频实例分割方法进行比较的表[42，28]。 ICCV 2019挑战赛优胜者[28]将视频实例分割分解为四个不同的问题，使用不同模型的系综独立解决每一个问题，然后将这些解决方案组合在一起。相比之下，我们的方法依赖于经过端到端培训的单个统一模型。尽管我们的模型更简单，并且使用了少几个数量级的预训练数据(1.3Mvs1B图像和860Kvs14M边界框)，但我们的模型实现了更高的精度。此外，与MaskTrack R-CNN[42]相比，我们的工作产生了16.3%的MAP收益(46.6%比30.3%)
为了解决这些现有方法的缺点，我们引入了MaskProp，这是一个简单的掩码传播框架，用于同时分类、分割和跟踪视频中的对象实例。我们的方法通过添加一个分支来使流行的Mask R-CNN[16]适用于视频，该分支将帧级实例掩码从每个视频帧传播到时间邻域(我们称为剪辑)内的其他帧。这允许我们的方法计算以视频的每个单独帧为中心的剪贴层实例轨迹。然后，这些密集估计的剪辑级轨道被聚集，以形成整个视频的准确且连贯的对象实例序列，而不管其长度如何。这使得我们的方法能够处理具有挑战性的咬合、错合和运动模糊的情况。我们的方法在YouTube-VIS数据集[42]上实现了最好的精确度，表现优于ICCV 2019挑战赛获胜者[28]，尽管我们的方法要简单得多，使用的标签数据也要少得多(图像减少1000倍，边界框减少10倍)。在表1中，我们将我们的方法与这些先前的方法在准确性和其他特性方面进行了比较。

2. Related Work

图像中的实例分割。
与图像中的实例分割[11，16，44，1，2，22，26]相比，本文所考虑的问题不仅需要分割单个帧中的对象实例，还需要确定多帧之间的实例对应关系。我们利用Mask R-CNN模型[16]进行静止图像实例分割，并对其进行调整以跟踪视频中的对象实例。
视频中的对象检测。
视频中的对象检测需要对给定视频的每一帧中的对象进行分类和定位。大多数现代视频对象检测系统[46、5、40、13]实现某种形式的时空特征对准，以提高各个视频帧中的对象检测精度。但是，这些系统通常不是为跟踪对象实例而设计的。相反，我们的蒙版传播会产生剪辑级别的实例分割，而不是帧级别的边界框。
视频对象分割。
视频对象分割的任务需要以与类别无关的方式分割前景对象[43、21、36、38]，通常通过在推理期间利用可用于第一帧的地面真实掩码[6、32、10、19、37]。相反，视频实例分割需要在每个帧中查找预定义的一组对象类的所有实例，对它们进行分类并在整个序列中链接它们。
视频实例分段。
最近引入的视频实例分割任务[42]需要对视频中的对象实例进行分类、分割和跟踪。这就是这项工作要考虑的任务。只有几种视频实例分割方法可以与我们的方法进行比较。 MaskTrack R-CNN[42]提出了视频实例分割的统一模型。它用跟踪分支来扩充原始掩码R-CNN[16]，该跟踪分支在分割在单独帧中的对象实例之间建立关联。此外，我们将ICCV 2019视频实例细分挑战赛获胜者[28]也包括在我们的比较中。该方法将视频实例分割分为四个独立的子问题：分类、检测、分割和跟踪。使用单独的模型(或模型集合)来解决这些子问题中的每一个，然后组合这些解决方案以产生视频实例分割结果。为简洁起见，从现在起我们将其称为EnsembleVIS，以表明它是为视频实例分割而设计的集成方法。
我们的MaskProp框架比这两种方法都有优势[42，28]。与**MaskTrack R-CNN[42]**类似，我们的方法是一种统一而简单的方法。
然而，我们的掩码传播分支比MaskTrack R-CNN的跟踪分支更有效，相对于这个基线实现了更高的精度。此外，与EnsembleVIS[28]相比，我们的方法1)简单得多，2)使用更少的标记数据，3)在YouTube-VIS[42]上产生更高的准确率。

图2：我们的MaskProp系统的插图，它接受以帧t为中心的视频剪辑作为输入，并输出剪辑级别的实例轨迹。我们的掩码传播框架可以概括为三个高级步骤：
1)通过用帧t的给定实例分段(帧t中检测到的每个实例一个实例)掩蔽时间t处的帧特征来计算时间t处的实例特定特征映射。
2)接下来，我们使用我们的掩码传播机制将特定于实例的特征从帧t临时传播到剪辑中的所有其他帧。
3)最后，我们的模型通过将传播的实例特征与在每个时间步计算的帧级特征进行隐式匹配来预测剪辑的每一帧中的实例特定分割。
最后一步产生以帧t为中心的剪辑级别实例轨迹。

3. Video Instance Segmentation

Problem Definition.
让我们用V∈RL×3×H×W来表示由空间大小为H×W的L个RGB帧组成的输入视频。我们系统的目的是分割和时间链接所有对象实例，这些对象实例在V中至少一个帧是可见的，并且属于预定义的类别集合C={1，…，K}。为了实现这一目标，我们的模型输出具有类别标签ci∈{1，…，K}和置信度分数s的视频级实例掩码轨道Mi∈RL×H×W
Evaluation Metric.
视频实例分割根据平均查准率(AP)和平均查全率(AR)进行评估。与图像域不同，这些度量是在视频序列上评估的。因此，为了评估预测掩码序列的时空一致性，预测对象实例i和gt对象实例j之间的并集视频交集(IOU)被计算为：

其中M?j(T)是帧t中对象j的gt分割。要实现大IOU，模型不仅必须在帧级准确地分类和分割对象实例，而且必须在视频序列上可靠地跟踪它们。
与用于图像分割的COCO基准一样[25]，针对每个对象类别分别计算AP和AR的度量，然后以5%的增量对从50%到95%的10个IOU阈值进行平均。最后，将得到的AP和AR指标在类别集上求平均，从而产生最终的评估指标。

4. Mask Propagation

   掩码（MASK）传播

MaskProp将任意长度L的视频V作为输入，并输出视频中检测到的所有对象的视频级实例分割轨迹Mi、类别标签ci和置信度分数si。为了实现这一目标，我们的方法首先建立剪辑级对象实例轨迹在这里插入图片描述
对于每个单独的剪辑

我们希望使用足够长的剪辑来联合解决实例分割和跟踪，同时处理具有挑战性的遮挡和运动模糊情况。
同时，剪辑应该足够短，以便我们能够以高空间分辨率将其放入GPU的内存中。
生成的剪辑级实例蒙版MASK 在这里插入图片描述对于所有重叠的剪辑t=1，.。。。然后聚集L以产生视频级实例掩码Mi。
我们的剪辑级实例分割方法在4.1和4.2小节中描述。我们还在图2中进行了说明。后续的剪辑级实例掩码聚合方法在第4.3小节中介绍。
图3：我们通过添加掩码传播分支使Mask R-CNN[16]适用于视频，用于跟踪视频中的对象分割实例。在给定以帧t为中心的视频剪辑的情况下，我们的系统输出剪辑级别的实例分割轨迹以及在帧t中检测到的每个实例化对象的分类分数和边界框。为了紧凑，在此图中，我们说明了我们的系统处理一对帧，但通常将传播从中间帧应用到剪辑中的所有其他帧。

4.1. Video Mask R-CNN

我们的视频实例分割系统基于Mask R-CNN[16]模型，我们通过添加掩码传播分支来适应视频(参见图3)。我们训练我们的系统具有多任务损失在这里插入图片描述

，其中t表示中心帧的时间步长。我们使用与掩模R-CNN中相同的损耗项Lcls t，Lbox t，Lmask t。掩码传播损耗定义为：在这里插入图片描述

是我从以t为中心的剪辑预测的实例在时间t0的分段，而M?itt：t+T(T0)是在时间t0的对应地面真实掩码。 N?t是帧t中的地面真实对象实例数，sIoU定义为
其中分子和分母的求和是在每个像素位置p上执行的。上面的损失是软IOU损失，我们观察到它的工作略好于我们任务的标准交叉熵损失。

4.2. Mask Propagation Branch

掩码传播分支

概述。
计算实例特定特征
临时传播实例特征.es。
对传播的实例进行分段。
图4：由我们的掩码传播分支实现的3个步骤的图示：
1)对于帧t中的每个检测到的实例，我们通过张量t与帧t处的给定帧级实例掩码之间的逐元素相乘来计算特定于实例的特征张量。 2)接下来，使用与帧t和t+δ相关联的特征张量的元素级差来预测帧t和t+δ之间的运动偏移。所得到的偏移量用于通过可变形卷积将特定于实例的张量从时间t传播到时间t+δ。传播的张量表示使用在时间t+δ计算的张量预测的针对时间t+δ的特定于实例的特征。
3)最后，我们将传播的实例特征张量添加到在t+δ有效计算的张量。应用于这些张量的卷积层预测帧t+δ中的实例掩码。
不属于任何对象实例的像素使用与实例无关的注意图进行清零。

4.3. Video-Level Segmentation Instances

视频级分割实例

匹配剪辑级实例轨迹。
视频级实例ID分配。
图5：从帧T传播到给定视频剪辑中的其他帧的实例特定特征的图示。在这里，我们可视化来自一个随机选择的功能频道的传播激活。这两行中的激活对应于在时间t检测到的两个不同的对象实例。我们的可视化显示，MaskProp可靠地传播特定于每个实例的功能，即使实例出现在彼此相邻的位置，并且尽管形状、姿势以及变形和遮挡的滋扰效果发生了变化。

4.4. Implementation Details

实施细节

主干网络。
侦测网络。
高分辨率蒙版优化。
对视频级序列进行评分。
训练。
推论。

5. Experimental Results

6. Conclusion

在这项工作中，我们介绍了一种新的视频实例分割架构MaskProp。我们的方法概念简单，不需要大量的标签数据进行预训练，并且在YouTube-VIS数据集上产生了最先进的结果。将来，我们计划将MaskProp扩展到只有边界框注释可用的场景。我们也有兴趣将我们的方法应用于姿态估计和跟踪等问题。
在这里插入图片描述

图7：我们将视频实例分割结果与MaskTrack R-CNN[42]预测进行了比较。不同的对象实例使用不同的颜色进行编码。每个视频的第一行显示原始帧。第二行说明了MaskTrack R-CNN的掩码预测，第三行说明了使用我们的MaskProp获得的掩码预测。与MaskTrack R-CNN相比，我们的MaskProp跟踪对象实例的能力更强，即使它们相互遮挡或重叠。