本文提出了一种新颖的人-物体交互检测模型,在多个数据集上该方法展现出大大优于现有最佳方法的性能。在人-物体交互检测任务中,人与物体交互方式的多样性及交互场景的复杂性,相比于传统的视觉任务存在更多挑战。研究人员提出了一种多层级(multi-level)的交互关系识别策略,包括交互域、物体、人体语义三个层级。
具体来说,本文提出了一种多分枝网络结构的模型,该模型利用人体姿态信息,通过基于注意力机制动态放大(Zoom-in)交互关系相关人体语义区域以增强该区域的特征,并在此基础上对全局特征进行融合,从而进一步提高模型对于人-物体交互的细粒度检测能力与健壮性。
人物交互模型结构总览,模型的主要输入为输入图片的特征图和人物交互关系的几何信息及人体的关键点。这两大信息将由Holistic model 和Zoom-in module在多层级上对特征进行处理和融合,最后对特征进行融合并给出预测。
朴素的想法:
对于一张图片先做目标检测,得到人体和物体所在区域,然后再提取①人②物③人∩物区域的特征,进行分类
但是作者觉得这样的做法只能得到整体的一些特征,模型不容易学到一些局部特征,于是我们就使用人体关键点来作为指导,关键点所在区域当成attention mask,这样可以得到更多的局部特征。
上述即为整体流程,backbone用来提取特征,在得到特征图的基础上预测人物框,人体关键点,然后将相应的特征送到需要的模块中,做分类,即可得到结果
创新点:
- 使用Pose作指导,起到attention map 的作用
- Pose可以起到全局和局部指导的作用。