MTV
摘要
MTV由独自分开的encoder组成,并通过横向连接
做了许多消融实验,结果比单个view的准确度高,计算成本低
在五个通用数据集上效果好,在大规模预训练基础上效果更好
引言
图像领域,采用金字塔形多尺度处理表现好,例如slowfast。但由于pooling和下采样部分时空信息丢失;
MTV不依靠金字塔结构获取多尺度信息,构建transformer视频理解模型:
-
慢流用更小的encoder
-
采用不同‘’view‘,从不同维度提取token,再分别进入transformer横向链接
-
views越多,准确度上升
结论
基于处理多种"view"提出了处理多尺度时间信息的transformer模型
有较为良好的性能,在五个最常用的数据集上取得最优结果
相关工作
- 受ViT,ViViT,Timesformer启发
- 多尺度计算在计算机视觉领域非常有效
同时处理多个view比增加transfomer深度提高准确度更大
通过变化线性投射时空管道的size获取不同的view
模型
-
基于ViT与ViViT
-
多视角token化
定义一个view为通过一套尺寸固定的管道所呈现的视频表现
对于不同view可采用不同的卷积核,不同的大小,小尺度卷积核会产生更多的token
小尺度会获取更加精确的运动信息,大尺度会获取缓慢变化的场景信息
-
多视角transformer
-
多视角encoder
只对来自同一时刻的token做self-attention,仿照ViViT的 Factorised Encoder
没必要对所有时空域做self-attention
-
横向连接融合信息
Cross-view attention (CVA) 将view根据token的多少排序,连接两个相邻的view。因为尺度不一样,需要做投射,投射后将两者融合,相当于再做了个attention:
Bottleneck tokens 通过B瓶颈token来传递信息。同样将view根据token的多少排序,连接两个相邻的view。将B token直接拼接到输入的token,然后将输出线性投射到前一个view的维度,然后再拼接到输入的token上。整个过程从含有更多的token的view开始。这些B token通过随机初始化。
MLP fusion 在每个encoder 层中在MLP块前融合,使用直接拼接的方法融合进前一个view
-
从每个视角提取一个token,通过一个global encoder生成分类结果
提取每一个view的cls token,再通过一个transformer encoder处理
-
实验
详细见论文,3种fusion中CVA效果最好。