3D Human Pose Estimation with Spatial and Temporal Transformers
基于时空Transformers的3D人体姿态估计
论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Zheng_3D_Human_Pose_Estimation_With_Spatial_and_Temporal_Transformers_ICCV_2021_paper.pdf
代码地址:
https://github.com/zczcwh/PoseFormer
论文研究方向:
应用于视频连续帧,2D-to-3D的人体姿态估计方法。
论文出发点:
1.Transformers结构已经成为自然语言处理NLP的首选模型,并被引入到计算机视觉任务中,如图像分类、目标检测和语义分割。Transformers具有高效、可伸缩性和强大的建模能力等优点。
2.由于Transformers的自我注意机制,可以清楚地捕获长输入序列之间的全局相关性,使得它成为解决序列数据问题的特别合适的架构。
3. 作者将Transformers结构扩展到 视频输入3D-HPE。
论文创新点:
-
第一个提出纯Transformers模型PoseFormer,不涉及卷积结构。
用于视频2D-to-3D提升的3D HPE。 -
设计了一个时空Transformers结构,其中空间变换模块编码人体关节之间的局部关系,时间变换模块捕获整个序列中帧之间的全局依赖关系,然后输出中心帧的精确三维人体姿势。
论文实验细节:
两个NVIDIA RTX 3090 GPU用于培训和测试。
在进行实验时,我们选择了三种不同的帧序列长度,即f=9,f=27,f=81。
在训练和测试中都应用了水平翻转姿势作为数据增强。
使用ADAM优化器对我们的模型进行了130个历元的训练,权重衰减为0.1。
我们采用指数学习速率衰减方案,初始学习速率为2e-4,每个历元的衰减因子为0.98。
我们将批量设置为1024,并对变压器编码层采用随机深度,速率为0.1。
对于2D姿态检测器,Human3.6M上使用级联金字塔网络(CPN),并且以地面真实2D姿态作为MPI-INF-3dHP的输入。
论文实验性能:
PoseFormer模型在Human3.6M和MPI-INF-3dHP数据集上都实现了最先进的结果。
Human3.6M结果:
MPJPE(average)=44.3
P-MPJPE(average)=34.6
MPI-INF-3DHP结果:
PCK=88.6,AUC=56.4,MPJPE=77.1
论文方法:
图a:将给定序列中每一帧的整个2D姿势视为标记,忽略了空间关系(关节到关节)
图b:每个2D关节坐标视为一个标记,并从序列的所有帧中提供由这些关节形成的输入,但内存需求会扩大很多倍。
作者采用两个维度的不同transformers模块直接建模空间和时间方面
图a:时间transformers的基线模块。
图b:PoseFormer体系结构,由三个模块组成
1.一个空间transformers模块,用于在考虑每个单独骨架的关节相关性的情况下提取特征。
2.一个时间transformers模块,用于学习整个序列的全局依赖关系。
3.回归头模块回归中心框架的最终3D姿势。
PoseFormer和Sota方法的定性比较