当前位置: 代码迷 >> 综合 >> FlowTrack:End-to-end flow correlation tracking with spatial-temporal attention
  详细解决方案

FlowTrack:End-to-end flow correlation tracking with spatial-temporal attention

热度:10   发布时间:2023-12-13 01:58:30.0

发表于CVPR2018,论文链接

亮点:将光流信息考虑了进去(这样就把帧间信息考虑了进去)提出了spatial-temporal注意力机制来调整各部分特征的权重。

网络结构图:

 网络分为historical branch 和current branch,前者提取前T-1帧(文章中T取6)的图像特征,并将其warp到t-1的特征中。

具体地,通过FlowNet提取光流信息,FeatureNet提取特征,前5帧以光流信息作为指导warp到t-1帧得到中间虚线框中的内容,后面的空间-时间注意力模块则是输出了warp后的特征的权重信息。

最后面的CFNet是将滤波器解释为siamese框架中的一个可微层,这样就能够进行端到端地训练。

具体实现:

1、滤波器的响应以及训练与相关滤波类似,只是变成了相关滤波层,有了损失函数的定义以及反向传播的计算

2、采用光流信息的合并

把相邻帧的信息warp到指定帧(这里为t-1帧):

            \varphi _{i\rightarrow t-1}= W\left ( \varphi _{i},Flow\left ( I_{i},I_{t-1} \right ) \right )                 (7)

\varphi _{i\rightarrow t-1}表示从之前帧i中warp到特定帧t-1帧的特征,Flow\left ( I_{i},I_{t-1} \right )是FlowNet的输出:把第i帧中位置p处投影到t-1帧中的位置

p+\delta p处。warp操作是由一个双线性函数实现的,在特征通道的warp操作表示为:

           \varphi _{i\rightarrow t-1}^{m}(p)= \sum_{q}K\left ( q,p+\delta p \right )\varphi _{i}^{m}\left (q \right )          (8)

这里的K是指双线性插值核(没有看懂这波操作。。。。)

3、空间注意力机制:

空间注意力机制给出了不同空间位置处的权重信息。,首先采用一个bottleneck sub-network将\varphi投影到\varphi ^{e},然后采用余弦相似性机制来衡量warp后的特征和t-1帧中提取到的特征之间的相似性,即:

当与t-1帧较相近时,权重较大,反之,权重较小。

4、Temporal attention

由于空间注意力机制会导致t-1帧的权重较大,我们采用时间注意力机制来自适应地重新校准temporal chnnel如下图所示:

               

后面作者举例说明了重新校准会把质量并不高的帧信息权重低一些,从而改善跟踪结果。

  相关解决方案