SINT算法是Siamese跟踪的开山之作,首次开创性的将目标跟踪问题转化为一个patch块匹配问题,并用神经网络来实现。论文整体模型图下图所示:
网络结构由两部分组成,孪生网络分别处理两个输入,用AlexNet或VGGNet进行特征提取,其中为了可以更准确地定位,该网络在设计时几乎不用最大池化层,因为最大池化只会保留邻域中最大的数,会极大降低空间分辨率,它的一个最大优点是引入了局部形变的不变性。在追踪的过程中,对于下一帧要提取上百个候选区域,这样做会由重叠问题,所以作者引入了fast rcnn中的region pool layer对重叠区域进行快速处理,网络首先用前几个层处理整个图像,然后区域池层将特征映射从特定区域转换为固定长度的表示。在训练过程中,采用视频对进行训练,对于上图中的Query stream,随机地挑选一帧采用其标注好的bbox,对于Search stream,随机挑选另外一帧,不需要和Query的帧相邻,Search stream中的候选区域和bbox重叠区域大于一定值是正,反之是负的。损失函数公式如下:
其中,D是两个分支特征的欧式距离,y表示两个特征是否属于一类。
在跟踪的过程中,已知第一帧的bbox,对于之后的某一帧,将候选区域输入到Search stream,选出损失最大的候选区域。
候选区域的选择采用半径采样策略,根据前一帧的结果来选候选区域。
实验结果如下图所示。