整体的网络结构类似于SiamFC中的结构。
Fully convolutional Siamese networks
网络输入的是一张训练图片x’和一张待搜索图片z’,两张图片用卷积神经网络fρ进行处理,然后得到两张特征图,对两张特征图进行互相关运算。
上面的公式相当于用模板图片x‘在z‘上进行搜索,目标是得到响应图的最大值,即目标所在的位置。用随机的图片对进行训练,在响应图上每个位置ci有标签{+1,-1}来表示目标是否在这个位置上存在。损失函数如下。
Tracking algorithm
网络本身只提供了一个函数来度量两个图像块的相似性。要将此网络应用于跟踪,需要将其与描述跟踪器逻辑的过程相结合。当预测后面帧目标位置的时候,以前面一帧得到的bbox中心划分一个窗口,面积是原来框的4倍,目标的新位置就是是得分最高的位置。原始的全卷积孪生网络只是简单地将每一帧与物体的初始帧进行比较。相反,作者在每一个新的帧中计算一个新模板,然后将其与之前的移动平均模板结合起来。
Correlation Filter networks
相对于传统的全卷积神经网络,作者在模板图片x’和搜索图片z‘互相关计算之间加了一个新的相关滤波网络模块。
其中, w=w(x)函数是相关滤波模块,它通过在频域上解决一个岭回归问题来从x=fρ(x')计算一个相关滤波标准模板w。它的作用可以理解为创建一个对变化有鲁棒性的判别模板。需要引入标量参数s和b (scale和bias)使响应图上的分数范围适合于logistic回归。离线训练方式和传统的全卷积孪生网络类似。
Correlation Filter
给定一个标量的模板图片特征图x?Rm×m,相关滤波器是一个模板w?Rm×m,它与x*δ-u的每个循环变换的内积要接近于期待的响应y[u]。
其中,w是卷积模板,x是模板图片特征图,y是响应图。通过求解下面的公式可以得到最后的卷积模板。
求解公式如下:
模板特征图x’经过相关滤波处理之后再和搜索图片特征图进行互相关操作,得到最后的得分图,用来找出目标的位置。