论文:[JOLO-GCN WACV2021]Mining Joint-Centered Light-Weight Information for Skeleton-Based Action Recognition;
这篇论文是2021的一篇论文,比较简单。下面是本人对其中最重要部分的一些理解。
该论文最主要的工作就是在骨架数据集对应的原RGB视频图像中提取出了一个以对应骨架节点为中心的小范围精细运动的光流。如下图,可看出该光流((c))图和普通光流((a)图)不一样的是将中心点(对应骨架图中的关节点)的位移运动矢量去掉,只剩下围绕该中心点旋转扭曲等精细运动的运动矢量组成的光流图,原文称为Joint-aligned optical Flow Patches (JFP)。动机:骨架动作识别里面精细动作信息是提高识别精度的关键(比较明显的动作信息大家都可以识别)
因此作者就得到了两种输入类型:
原生骨架图输入和JFP输入,其对应关系如下图所示:
每一个骨架图输入维度:T×K×3×N(如NTU数据集为K节点数为25,N为图像中个体数量);实验中例子:300×25×3×N;这里3为3D坐标信息。
相似的,JFP输入维度:(T×K×?×?×2×N) —> 2T×K×?2×N(注意这里K一直取14,且计算光流时以关节点为中心的窗口为l×l(l实验中为32),经过线性插值法下采样至?×?(?实验中为8));实验中例子:T×K×?×?×2×N = 64×14×8×8×2×2;2T×K×?2×N = 128×14×64×2。
这里2是由于计算光流时使用2D坐标进行光流的计算。
之后这两个输入分别输入到如下网络中的两个流中:
其中每个流中的GCN骨干部分有两种选择:全为ST-GCN与全为2s-AGCN。
实验中使用2s-AGCN加上这个细节光流图的加成在NTU60的x-sub上可以达到93.8%(ST-GCN为81.5%)
思考:该JPF光流在实验中可以对识别精度帮助很大;除此之外,还有什么方法可以提取出此种精细特征,并且还易于实现(单单只是使用骨架信息来提取,如连续帧相减得到运动矢量模长小于一定阈值的运动信息)?是否可以给精细动作更高的权重以至于不被大幅度动作所淹没(单独提取出精细动作的骨架图运动信息再增加一个流)?实验尝试。