当前位置: 代码迷 >> 综合 >> Transferable Interactiveness Knowledge for Human-Object Interaction Detection
  详细解决方案

Transferable Interactiveness Knowledge for Human-Object Interaction Detection

热度:96   发布时间:2024-02-11 05:20:22.0

-----------------------《1》.本文的思想方法:--------------------------

利用迁移学习的交互知识(人和物是否发生交互)信息,促进人和物交互检测。在分类之间,先判断出人和物有无交互。

-----------------------《2》 关于Interactiveness Knowledge:--------------
1.作用:指明人和物是否发生交互,促进后面的类别检测。
2.来源:通过交互网络学习,从HOI datasets, regardless of HOI category settings(交互式网络是一种可转换的知识学习者,可与任何HOI检测模型合作,以达到理想的结果)

-----------------**《3》**HOI detection :-------------------------------
1.检索人和对象的位置,并从静态图像推断交互类

------------------**《4》**our method(two stage)--------------------------------
process:
first stage: we first discriminate a human-object pair as interactive
or not
second stage : classify it as specific HOIs

两阶段的好处:
1)这样的两阶段预习将减轻学习困难,并引入层次预测。
2)需要特别注意的是,交互性提供了额外的信息来帮助HOI分类,并且独立于HOI类别设置。这意味着它可以跨数据集传输,并用于增强为不同HOI设置而设计的HOI模型。

在这里插入图片描述

=======4.论文的第四部分方法详解=
4.1. overview:
从语义的角度来看,交互知识提供了比传统的HOI范畴更普遍的信息。因为任何一个人-物对都会被分配一个根据HOI注释的二值交互标签。
来源:交互性知识可以从不同的HOI类别设置的多个数据集学习,并转移到任何特定的数据集。
(interactiveness predictor)P:交互性预测网络
作用:利用交互性知识来减少由于过多的非交互候选对造成的误报。

(Representation Network)R:feature extractor

作用:R is responsible for feature extraction from detected instances

(Classification Network) C:HOI classifier
作用: C utilizes node and edge features to perform HOI classification
4.2 Representation and Classification Networks

Human and Object Detection:
使用检测框架ResNet-50-FPN,得到人和物的边界框,和相应的分数。检测的结果将会用设定的阈值按照分数筛选。
Representation Network
a Faster R-CNN [22] with ResNet-50

HOI Classification Network
对于我们的分类网络C,总共三个流,人物流,物体流,空间流。我们利用一个人流和一个对象流来提取人、对象和上下文特征.空间流用于编码实例的空间位置。

在这里插入图片描述

4.3. Interactiveness Network:
交互网络主要跨HOI数据集学习交互知识。并最终用于判断是否有人和物的交互.
网络的输入:这里的输入也是三个流,人流和物流,空间和姿态融合的流。

交互可以通过提取和融合必要的信息,进行学习。
1.The visual appearance of human and object
2. spatial location and human pose information.

图4 中上面部分,person2和person1就是根据空间位置判断有无交互
图4中下面部分,两个人都离动物很近。这时候。根据人的姿态,判断有无交互。
所以将视觉图像、空间位置和人体姿态信息结合起来,是实现交互性识别的关键。

网络P:这里的人流分支H,物流分支C和网络R里面的分支共享权重

在联合训练中,hp、O P块可以与hc、O C共享权重。该权值共享策略能够保证多任务训练中信息共享,更好地优化P和C。
4.4 Interactiveness Knowledge Transfer Training:
利用R、P和C,我们的框架有两种实现模式:默认模式下的层次联合训练和迁移学习模式下的迁移训练。
Hierarchical Joint Training在这里插入图片描述
a)上图是默认模式下的联合训练

Non-Interaction Suppression (NIS) ·
a)前面的图是训练,interactiveness discrimination and HOI classification两个任务联合训练

后面的那个图是测试。先判断有无交互,再进行分类

在这里插入图片描述
图(b)前面的上半部分P,在不同的数据集训练一个transferable knowledge learner,
前面的下半部分C,考虑到不同数据集中HOI类别设置的多样性,C必须在单一数据集上进行一次训练。

4.5 Testing with Non-Interaction Suppression:

在这里插入图片描述

在这里插入图片描述
完结,下面实验部分请看论文。

  相关解决方案