当前位置: 代码迷 >> 综合 >> 【MTV】Multiview Transformers for Video Recognition 笔记
  详细解决方案

【MTV】Multiview Transformers for Video Recognition 笔记

热度:82   发布时间:2024-01-09 22:07:17.0

MTV

摘要

MTV由独自分开的encoder组成,并通过横向连接

做了许多消融实验,结果比单个view的准确度高,计算成本低

在五个通用数据集上效果好,在大规模预训练基础上效果更好

引言

图像领域,采用金字塔形多尺度处理表现好,例如slowfast。但由于pooling和下采样部分时空信息丢失;

MTV不依靠金字塔结构获取多尺度信息,构建transformer视频理解模型:

  • 慢流用更小的encoder

  • 采用不同‘’view‘,从不同维度提取token,再分别进入transformer横向链接

  • views越多,准确度上升

    在这里插入图片描述

结论

基于处理多种"view"提出了处理多尺度时间信息的transformer模型

有较为良好的性能,在五个最常用的数据集上取得最优结果

相关工作

  • 受ViT,ViViT,Timesformer启发
  • 多尺度计算在计算机视觉领域非常有效

同时处理多个view比增加transfomer深度提高准确度更大

通过变化线性投射时空管道的size获取不同的view

模型

  • 基于ViT与ViViT
  • 多视角token化

    定义一个view为通过一套尺寸固定的管道所呈现的视频表现

    对于不同view可采用不同的卷积核,不同的大小,小尺度卷积核会产生更多的token

    小尺度会获取更加精确的运动信息,大尺度会获取缓慢变化的场景信息

  • 多视角transformer
    • 多视角encoder

      只对来自同一时刻的token做self-attention,仿照ViViT的 Factorised Encoder

      没必要对所有时空域做self-attention

    • 横向连接融合信息

      在这里插入图片描述

      Cross-view attention (CVA) 将view根据token的多少排序,连接两个相邻的view。因为尺度不一样,需要做投射,投射后将两者融合,相当于再做了个attention:

      在这里插入图片描述

      Bottleneck tokens 通过B瓶颈token来传递信息。同样将view根据token的多少排序,连接两个相邻的view。将B token直接拼接到输入的token,然后将输出线性投射到前一个view的维度,然后再拼接到输入的token上。整个过程从含有更多的token的view开始。这些B token通过随机初始化。

      MLP fusion 在每个encoder 层中在MLP块前融合,使用直接拼接的方法融合进前一个view

    • 从每个视角提取一个token,通过一个global encoder生成分类结果

      提取每一个view的cls token,再通过一个transformer encoder处理

实验

详细见论文,3种fusion中CVA效果最好。

  相关解决方案