D3S——A Discriminative Single Shot Segmentation Tracker_综合

大家好，今天分享一篇cvpr2020的目标跟踪论文。

作者主要有两大贡献：

第一，提出了一种single-shot判别分割跟踪器，其中目标由两种模型来编码，GIM对目标变化具有不变性，GEM（模型的名字）则具有很强的判别力，仅用来预测目标位置，对GIM分割出的多个目标作出选择。

第二个贡献是提出了一种高效的将segmentation mask变为旋转矩形框的方法。

Figure2是D3S网络的结构图。

Geometrically invariant model（GIM模型）

GIM模型由两种深度特征向量组成，分别与目标和背景相关，即 $X_{GIM} =\left \{ X^{F},X^{B} \right \}$ 。

由于预训练的主干特征对于准确的分割是欠优的，因此将主干特征输入 $1\times 1$ 卷积层，将维度降低为64，然后输入 $3 \times 3$ 卷积层（每个卷积层后都接ReLU）。为了得到最优的特征，上述卷积层都会在训练阶段进行调整。

在第一帧中，通过提取与目标 $X^{F}$ 对应的像素位置的分割特征向量和邻域中与背景 $X^{B}$ 相对应的分割特征向量来构建目标/背景模型。

在跟踪的过程中，将从搜索区域提取的像素级特征与 $GIM\left ( X_{GIM} \right )$ 进行比较，来计算前景和背景相似度通道 $F$ 和 $B$ （参考VideoMatch这篇论文的做法）。对于 $F$ 通道的计算，利用像素 $i$ 处提取的特征 $y_{i}$ 与 $x_{j}^{F}\in X^{F}$ 做归一化点积。

$s_{ij}^{F}\left ( y_{i},x_{j}^{F} \right )=\left \langle {\tilde y_{_{i}},\tilde x_{j}^{F}} \right \rangle$

其中， $\tilde{\left ( \cdot \right )}$ 表示 $L_{2}$ 归一化。最终，像素 $i$ 处的前景相似度 $F_{i}$ 可以通过该处最高的 $K$ 个相似度取平均来获得，即

$F_{i}=TOP\left ( \left \{ s_{ij}^{F} \right \}_{j=1:N_{F}},K \right )$

背景相似度通道B的计算与之相同，是与背景模型特征向量做相似度计算，即 $x_{j}^{B}\in X^{B}$ 。

最后利用softmax层计算出target posterior通道 $P$ 。

Geometrically constrained model（GEM模型）

GIM将目标与背景区分开，却不能将目标与相似物体区分开。作者在GEM模型中利用ATOM的deep DCF部分。首先利用 $1\times 1$ 卷积层将主干特征维度降低为64。降维后的特征与64通道的DCF（后接PeLU）做相关滤波得到响应图，其中响应图最大值的位置被认为是目标最可能的位置。

由于D3S的输出为分割的结果，因此需要确定目标在每个像素处是否存在。target location通道是通过计算响应图中最大值的位置和搜索区域中剩余像素的位置之间的欧几里得距离变换来构建。