文章提出了一个新的跟踪架构,包括专门的目标估计和分类部分。通过广泛的离线学习,高水平的知识被融合进目标估计中。目标估计部分被训练来预测目标和一个估计的bbox之间的重叠。通过仔细地整合特定目标信息,该方法达到了一个非常高的回归框精度。之后的分类部分被在线训练保证在干扰物存在的情况下的高分辨能力。
整个网络包含两个模块:(1)离线学习的目标估计模块;(2)在线学习的分类模块。
Target Estimation by Overlap Maximization
首先介绍IoU-Net,给定一个的图片和物体的回归框估计,IoU-Net预测B和物体标签边界框的IoU。其中B=,cx和cy是边界框的中心坐标。网络用一个Precise ROI Pooling层去pool由B给出的图片里的区域,得到一个特征图xB。目标函数是最大化B代表的框和ground-truth框之间的IoU,通过随机梯度下降法求出参数。
整体的网络结构如下图所示。
文章提出了modulation-based network,在只给定一个参考的图片的情况下来预测一个任意物体的IoU。整个网络的主体是ResNet-18,把block3和block4的输出作为后面的输入。模板分支输入特征x0和目标边界框B0,它返回了一个modulation向量c(x0,B0),包括1*1*Dz的正系数。模板分支包括卷积层和之后的PrPool层还有全连接层。
测试分支经过卷积层和Prpool操作得到估计边界框B的特征,最后的输出的表示是z(x,B),尺寸是K*K*Dz大小,其中K是PrPool层的空间输出尺寸。计算出的测试图片的特征然后被模板分支产生的向量c进行channel-wise想乘。这就得到了一个特定目标表示,有效地合并了参考外观信息。模块化的表示最后被输入到全连接层,去预测IoU,公式如下。通过最小化IoU(B)来训练网络。
Target Classification by Fast Online Learning
虽然目标估计模块提供了精确的边界框输出,但是它缺少鲁邦地判别目标物体和背景干扰物的能力。作者用第二个网络分支来补充估计模块。与估计木块不同,目标分类模块是在线训练的,用于预测目标的置信度。由于目标分类模块的目标是提供对象的大致的2D位置,所以它最好不受目标大小和尺度的影响。相反,它应该通过最小化错误检测来加强鲁棒性。
目标分类模型是一个2层的全卷积神经网络,定义如下。
其中,x是backbone输出的特征图,w是网络参数,?是非线性激活函数,*代表卷积操作。参考相关滤波的方法,误差函数可以写为。
Xj是图片的特征图,yj?RW*H是标签,设置以目标位置为中心的采样高斯函数。
一种基本的最小化上面的算是函数的方法是梯度下降法等,由于这种方法收敛慢,所以不适合在线学习。作者提出了一种更复杂的优化策略,专门针对此类在线学习问题,而且复杂性很低。首先定义这个最小化问题的残差是
之前的损失就可以等价的鞋为L(w)=||r(w)||^2的形式。r(w)是所有残差的连接。然后利用二次高斯牛顿近似
残差可以用一阶泰勒公式展开表示成
所以
其中,rw就是r(w),Jw=dr/dw。
文章采用共轭梯度算法来求解上面的问题,用pytorch来实现。方法只需要函数r(w)来评估误差就可以简单的实现。具体推到见论文。
Online Tracking Approach
输入图像的大小为288X288,对应于目标估计大小的5倍,经过卷积网络提取特征。 在分类模块中,在第一帧,用数据增强生成30个最初的训练样本xj。然后用上图的Algorithm 1来获取w,在之后的每一帧,添加获取的特征图到训练样本中去,得到当前帧的w。
在IoU-Net模块中,首先在之前的预测的目标位置和尺度上提取特征。然后用分类模块来找到一个分类分数最高的2D位置。用之前估计的目标宽度和高度生成一个初始的边界框B。虽然可以使用这个建议执行状态估计,但是使用多个随机初始化可以更好地避免局部极大值。因此,通过在B中加入均匀随机噪声来生成一组10个初始框。每个边界框预测的IoU使用5个步长为1的梯度上升迭代实现最大。最后取IoU最高的3个边界框的均值进行预测。
Experiments
上图展示了不同的网络结构应用IuU预测的结果,带有Modulation的表现最好。
Conclusions
文章的创新的在于借鉴了IoU-Net的思想,但是作者在网络结构上进行了分析,引入了Modulation这个概念,使得跟踪性能得到很大提高;作者还提出了卷积网络的在线学习方法,展示了很强的数学功底,需要向马丁大神多学习。