当前位置: 代码迷 >> 综合 >> 【3D-HPE】3D Human Pose Estimation with Spatial and Temporal Transformers (ICCV2021论文介绍)
  详细解决方案

【3D-HPE】3D Human Pose Estimation with Spatial and Temporal Transformers (ICCV2021论文介绍)

热度:57   发布时间:2024-01-04 03:15:38.0

3D Human Pose Estimation with Spatial and Temporal Transformers
基于时空Transformers的3D人体姿态估计

论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Zheng_3D_Human_Pose_Estimation_With_Spatial_and_Temporal_Transformers_ICCV_2021_paper.pdf
代码地址:
https://github.com/zczcwh/PoseFormer

论文研究方向:

应用于视频连续帧,2D-to-3D的人体姿态估计方法。

论文出发点:

1.Transformers结构已经成为自然语言处理NLP的首选模型,并被引入到计算机视觉任务中,如图像分类、目标检测和语义分割。Transformers具有高效、可伸缩性和强大的建模能力等优点。
2.由于Transformers的自我注意机制,可以清楚地捕获长输入序列之间的全局相关性,使得它成为解决序列数据问题的特别合适的架构。
3. 作者将Transformers结构扩展到 视频输入3D-HPE。

论文创新点:

  1. 第一个提出纯Transformers模型PoseFormer,不涉及卷积结构。
    用于视频2D-to-3D提升的3D HPE。

  2. 设计了一个时空Transformers结构,其中空间变换模块编码人体关节之间的局部关系,时间变换模块捕获整个序列中帧之间的全局依赖关系,然后输出中心帧的精确三维人体姿势。

论文实验细节:

两个NVIDIA RTX 3090 GPU用于培训和测试。

在进行实验时,我们选择了三种不同的帧序列长度,即f=9,f=27,f=81。

在训练和测试中都应用了水平翻转姿势作为数据增强。

使用ADAM优化器对我们的模型进行了130个历元的训练,权重衰减为0.1。

我们采用指数学习速率衰减方案,初始学习速率为2e-4,每个历元的衰减因子为0.98。

我们将批量设置为1024,并对变压器编码层采用随机深度,速率为0.1。

对于2D姿态检测器,Human3.6M上使用级联金字塔网络(CPN),并且以地面真实2D姿态作为MPI-INF-3dHP的输入。

论文实验性能:

PoseFormer模型在Human3.6M和MPI-INF-3dHP数据集上都实现了最先进的结果。
Human3.6M结果
MPJPE(average)=44.3
P-MPJPE(average)=34.6
在这里插入图片描述
MPI-INF-3DHP结果
PCK=88.6,AUC=56.4,MPJPE=77.1
在这里插入图片描述

论文方法:

在这里插入图片描述
图a:将给定序列中每一帧的整个2D姿势视为标记,忽略了空间关系(关节到关节)
图b:每个2D关节坐标视为一个标记,并从序列的所有帧中提供由这些关节形成的输入,但内存需求会扩大很多倍。
作者采用两个维度的不同transformers模块直接建模空间和时间方面

在这里插入图片描述

在这里插入图片描述
图a:时间transformers的基线模块。
图b:PoseFormer体系结构,由三个模块组成
1.一个空间transformers模块,用于在考虑每个单独骨架的关节相关性的情况下提取特征。
2.一个时间transformers模块,用于学习整个序列的全局依赖关系。
3.回归头模块回归中心框架的最终3D姿势。

在这里插入图片描述
PoseFormer和Sota方法的定性比较

  相关解决方案