0 Abstract
从视频中识别独立的actions和群体的activities。现有方法大多基于actors的位置的空间和时间建模。文本提出的actor-transformer模型学习能为群体活动识别提供额外的关联信息。对每一个Actor提取其2D姿态表示和3D CNN表示,将其输入Transformers模型中。
1 Introduction
本文的目标是识别一个人的动作及其所属的团体。例如,排球运动,一个人跳起而团队活动是扣杀。识别群体活动的常用策略是利用建模个体参与者之间的空间图关系的表示,并随着时间的推移跟随参与者及其运动。本文基于transformer网络能能更好的建模actors之间的关系的假设,并结合actor-level信息进行群体活动识别。
本文收到NLP中捕捉上下文联系的启发,其中transformer的self-attention机制能够不适用循环或递归更好的建立跨单词的依赖模型。本文假设transformer网络能够更好的建模actors之间的关系并结合actor-level的信息来进行群体活动识别。关键点在于self-attention能够学习actors之间的交互并提取多对activity识别的重要信息。
对于独立的actor进行编码考虑两个部分:①位置编码,②对actor的静态和动态表示的显示建模。对每一个Actor提取其2D姿态表示和3D CNN表示,将其输入Transformers模型中。
本文提出了三项贡献:
- 提出了用于群体活动识别的transformer网络,能够细化并聚合actor级别的特征,而不依赖任何显式的空间和时间建模。
- 为transformer提供了丰富的静态和动态actor表示(2D pose network和3D CNN),并实证的研究了不同的方式来结合这些表示并显示它们的互补的好处。
- 在Collective and Volleyball数据集上取得了最好的效果。
2 Related Work
概述,一个有用的字都没
3 Model
目标:通过增强和聚合个体演员的特征识别多actor的群体活动。
假设:transformer网络的attention机制能够无需调整的迁移过来,根据每个actor的表现推断整个组的活动。(out-of-the-box)
该论文验证了transformer在群体动作识别的可用性
Overview
输入:T个视频帧,每帧包含N个actor的bounding boxes
网络结构:两个分支,包含静态和动态分支
静态分支:为每个actor的boundingbox输出一个HRNet姿态表示
动态分支:将系列RGB帧或optical flow帧作为I3D的输入,然后用RoIAlign提取actor级的特征
识别:transformer encoder(E)细化并聚合actor级特性,再接独立动作和群体活动分类器。
融合策略:提供两种融合方式,early fusion是在transformer encoder(E)之前合并静动态分支的actor级特征。late fusion则在之后。
3.1 Actor Feature extractor
3.1.1静态模型:采用位姿估计模型获得关节位置:
输入:actor的boundingbox和预测关键关节的位置
网络:HRNet
输出:网络的最后一层,也就是最后一个分类层之前的特征。
3.1.2动态模型:
输入:堆叠的T帧中的actor的bounding box
网络:I3D + RoIAlign
输出:actor的特征
3.2 Transformer
每个词的self-attention
因此输入的句子S表示为
mult-head
再接线性层,dropout
在本文的工作中将actors的特征作为S输入transformer。
用中心点(x,y)表示每个actor特征Si的boundingbox,采用与Attention is all you need中相同的函数PE编码中心点。
3.3 Fusion
3.3.1 Early fusion
能够在推断群体活动之前访问静态和动态特征。
3.3.2 Late fusion
别处理静态特征和动态特征进行群体活动识别,可以分别集中处理静态特征和动态特征。
3.4 Training objective
采用标准的交叉熵损失进行分类,并将两个损失合并为一个加权和