当前位置: 代码迷 >> 综合 >> 【论文笔记】Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
  详细解决方案

【论文笔记】Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

热度:61   发布时间:2024-02-22 05:27:45.0
  • 时隔很久终于回来了,虽然状态不是很好,但是因为开学了就不得不搞起来。
  • 换了方向了,以后大概是姿态估计走下去了。

1 Intro
这是一个自底向上的实时多人的2D人体姿态估计模型。提出了PAFs方法,用来学习人体部位和人体的关联关系。证明了只改进PAF而不是同时改进PAF和身体部位位置可以显著提高运行时性能和准确性。
自顶向下的方法直接利用了现有的单人姿态评估技术,但是会受到影响:如果人检测失败了(当人们离得很近时,很容易失败)就没有办法恢复。此外,它们的运行时间与图像中的人数成正比,因为要对对于每个人检测,运行一个单人姿态估计器。相反,自底向上方法很有吸引力,因为它们有很好的鲁棒性,并且有潜力使运行时复杂性与图像中的人数量不相关。
创新点:提出2D向量Part Affinity Fields(衡量两两关节点的亲和度)

2 Method
在这里插入图片描述

Pipeline:(a)方法以整个图像作为CNN的输入,共同预测(b)用于身体部位检测的confidence map和?用于部分关联的PAFs。(d)解析步骤执行一组双方匹配来关联候选的身体部分。(e)最终将它们组合成全身性的姿势,供图像中所有的人使用。
2.1 Network Architecture
在这里插入图片描述

两分支多级CNN的架构。第一个分支中的每个阶段预测置信映射St,第二个分支中的每个阶段预测PAFs Lt。在每个阶段之后,将两个分支的预测与图像特征连接起来,以供下一阶段使用。
2.2 Simultaneous Detection and Association
首先通过卷积网络(由VGG-19和finetuned的前10层)对图像进行分析,生成一组feature map F,输入到每个分支的第一阶段。在第一阶段,网络生成一组检测置信度图S1和一组PAF L1,其中。在接下来的每一阶段中,前一阶段两个分支的预测,连同原始图像特征F,被连接起来,用于产生精细的预测。
在这里插入图片描述

下图显示跨阶段信任映射和关联字段的细化。网络在每个阶段的末端分别应用两个损失函数,每个分支各一个损失函数,在预测结果和groundtruth之间使用一个L2 loss。
在这里插入图片描述

图中可以看出右手腕(第一行)和PAFs(第二行)的置信图。尽管在早期阶段左右身体部位和四肢之间存在混淆,但在后期阶段,通过整体推断,估计会越来越精确,如突出显示的区域所示。
损失函数如下:
在这里插入图片描述

W是个mask用来避免图像中漏掉标注的点对loss的影响(此时w(p)=0),最总loss是

2.3 Confidence Maps for Part Detection
置信度图S*由ground truth的关键点生成,每一张置信度图是对特定关键点的2D表示(如果图像中只有一个人且关键点可见,则每个置信度图应存在单个峰值;若图像中有k个人,其中该关键点可见的有j个,比如j个手腕,则应该有 j 个峰值)。S的意义理解为对于图像属于关键点j的概率。
在这里插入图片描述

首先对第k个人产生部位j的置信度图。其中第k个人部位j的位置,p是图像坐标,表示了峰值的蔓延程度,总置信度图的计算公式为(取峰值):
在这里插入图片描述

2.4 Part Affinity Fields for Part Association
PAF解决如下图(b)所示问题,找中间点容易产生不同人part之间的连接。它在整个肢体的支持区域中保留位置和方向信息(如图c所示)。局部亲和度是每个分支的二维向量场,对于属于某个特定分支区域的每个像素,二维向量编码了从肢体的一部分指向另一部分的方向。每一种肢体都有相应的亲和场,将其两个相关的身体部位连接起来。
在这里插入图片描述

方法如下:
在这里插入图片描述

表示第k个人的limb c(两两关节的联接)是否存在于某像素点,若存在,其值为limb c的单位向量,否则为0
在这里插入图片描述

如果v满足以下两个条件,则判断像素p在limb c上。
在这里插入图片描述

然而σ(l手臂长度,σ手臂宽度)那里我认为应该是小于等于σ/2
关键点dj1,dj2和PAF已知之后,计算两个关键点连线向量和两关键点连线上各像素的PAF向量之间的点积的积分作为两个关键点之间的相关性。
在这里插入图片描述

像素p进行采样
在这里插入图片描述

2.5 Multi-Person Parsing using PAFs
例如图片中存在多个手肘和手腕时,如何确定每一个人的手腕和手肘并进行连接?即一张图像上存在n个手肘m个手腕(关键点),手肘标签Dj1{dj11,dj12….,dj1n},手腕标签Dj2{dj21,dj22….,dj2m},手臂(手腕和手肘相连)集合Zc。
关键点和关键点之间的相关性PAF已知,将关键点作为图的顶点,将关键点之间的相关性PAF看为图的边权,则将多人检测问题转化为二分图匹配问题,并用匈牙利算法求得相连关键点最优匹配。如下图所示,就是不断简化,将匹配拆分,最后变成二分图匹配。
在这里插入图片描述

3 Limitation
在这里插入图片描述

作者给出了一些处理障碍,比如模糊的动作,遮挡导致的错误匹配,这些部分可以改进

  相关解决方案