仅浅读了论文,若有理解不对,还望指出。
方法
输入:3D pose 序列
第一步:正则化,从原始的系统W坐标系转换为新系统坐标系H。该变换会更换视角,但保持节点之间的相对位置不变性。如下图,从原本的W视角转换成了H视角。这种处理方法是常用的3D骨架正则化处理方法。简单描述这个转换方法:它以两个髋部连线为x轴,其中点与脊柱的连线为z轴,然后求出与xz垂直的y。此外,为了不同高度的人具有可比性,还进行了坐标的缩放,使之身高相同。
第二步:特征提取
先计算两个额外的信息。
- (关键点对的距离信息)P,这个可以形象地理解为身体部位长度的计算。
- (原始数据中关键点对的角度和高度)B,可以理解为身体部位的屈角和高度。
然后使用将修正后的骨架、P、B作为输入,使用TCN进行特征提取。
第三步
利用anchor最后一帧的embedding作为anchor特征(猜测TCN可能和RNN一样,最后一帧的输出包含了之前所有帧的信息),然后计算anchor和target之间的距离,距离计算方法有两种,cos和js。根据评估数据集上的精确度和召回率设置距离阈值,距离小于一定该阈值则接受之。