【3D-HPE】3D Human Pose Estimation with Spatial and Temporal Transformers （ICCV2021论文介绍）_综合

3D Human Pose Estimation with Spatial and Temporal Transformers
基于时空Transformers的3D人体姿态估计

论文地址：https://openaccess.thecvf.com/content/ICCV2021/papers/Zheng_3D_Human_Pose_Estimation_With_Spatial_and_Temporal_Transformers_ICCV_2021_paper.pdf
代码地址：
https://github.com/zczcwh/PoseFormer

论文研究方向：

应用于视频连续帧，2D-to-3D的人体姿态估计方法。

论文出发点：

1.Transformers结构已经成为自然语言处理NLP的首选模型，并被引入到计算机视觉任务中，如图像分类、目标检测和语义分割。Transformers具有高效、可伸缩性和强大的建模能力等优点。
2.由于Transformers的自我注意机制，可以清楚地捕获长输入序列之间的全局相关性，使得它成为解决序列数据问题的特别合适的架构。
3. 作者将Transformers结构扩展到视频输入3D-HPE。

论文创新点:

第一个提出纯Transformers模型PoseFormer，不涉及卷积结构。
用于视频2D-to-3D提升的3D HPE。
设计了一个时空Transformers结构，其中空间变换模块编码人体关节之间的局部关系，时间变换模块捕获整个序列中帧之间的全局依赖关系，然后输出中心帧的精确三维人体姿势。

论文实验细节：

两个NVIDIA RTX 3090 GPU用于培训和测试。

在进行实验时，我们选择了三种不同的帧序列长度，即f=9，f=27，f=81。

在训练和测试中都应用了水平翻转姿势作为数据增强。

使用ADAM优化器对我们的模型进行了130个历元的训练，权重衰减为0.1。

我们采用指数学习速率衰减方案，初始学习速率为2e-4，每个历元的衰减因子为0.98。

我们将批量设置为1024，并对变压器编码层采用随机深度，速率为0.1。

对于2D姿态检测器，Human3.6M上使用级联金字塔网络(CPN)，并且以地面真实2D姿态作为MPI-INF-3dHP的输入。

论文实验性能:

PoseFormer模型在Human3.6M和MPI-INF-3dHP数据集上都实现了最先进的结果。
Human3.6M结果：
MPJPE(average)=44.3
P-MPJPE(average)=34.6
在这里插入图片描述
MPI-INF-3DHP结果：
PCK=88.6，AUC=56.4，MPJPE=77.1

论文方法：

在这里插入图片描述
图a:将给定序列中每一帧的整个2D姿势视为标记,忽略了空间关系（关节到关节）
图b:每个2D关节坐标视为一个标记，并从序列的所有帧中提供由这些关节形成的输入，但内存需求会扩大很多倍。
作者采用两个维度的不同transformers模块直接建模空间和时间方面

在这里插入图片描述

在这里插入图片描述
图a：时间transformers的基线模块。
图b：PoseFormer体系结构，由三个模块组成
1.一个空间transformers模块，用于在考虑每个单独骨架的关节相关性的情况下提取特征。
2.一个时间transformers模块，用于学习整个序列的全局依赖关系。
3.回归头模块回归中心框架的最终3D姿势。

在这里插入图片描述
PoseFormer和Sota方法的定性比较