发表于CVPR2018,论文链接
亮点:将光流信息考虑了进去(这样就把帧间信息考虑了进去)提出了spatial-temporal注意力机制来调整各部分特征的权重。
网络结构图:
网络分为historical branch 和current branch,前者提取前T-1帧(文章中T取6)的图像特征,并将其warp到t-1的特征中。
具体地,通过FlowNet提取光流信息,FeatureNet提取特征,前5帧以光流信息作为指导warp到t-1帧得到中间虚线框中的内容,后面的空间-时间注意力模块则是输出了warp后的特征的权重信息。
最后面的CFNet是将滤波器解释为siamese框架中的一个可微层,这样就能够进行端到端地训练。
具体实现:
1、滤波器的响应以及训练与相关滤波类似,只是变成了相关滤波层,有了损失函数的定义以及反向传播的计算
2、采用光流信息的合并
把相邻帧的信息warp到指定帧(这里为t-1帧):
(7)
表示从之前帧i中warp到特定帧t-1帧的特征,是FlowNet的输出:把第i帧中位置p处投影到t-1帧中的位置
处。warp操作是由一个双线性函数实现的,在特征通道的warp操作表示为:
(8)
这里的K是指双线性插值核(没有看懂这波操作。。。。)
3、空间注意力机制:
空间注意力机制给出了不同空间位置处的权重信息。,首先采用一个bottleneck sub-network将投影到,然后采用余弦相似性机制来衡量warp后的特征和t-1帧中提取到的特征之间的相似性,即:
当与t-1帧较相近时,权重较大,反之,权重较小。
4、Temporal attention
由于空间注意力机制会导致t-1帧的权重较大,我们采用时间注意力机制来自适应地重新校准temporal chnnel如下图所示:
后面作者举例说明了重新校准会把质量并不高的帧信息权重低一些,从而改善跟踪结果。