CVPR 2017
《Detecting Visual Relationships with Deep Relational Networks》
属于基于CNN实现的,并非后续主流的RNN、LSTM、图神经网络的方法,并且比较早,因此不作过详细记录,仅重点记录下创新点
文章目录
-
-
- 《Detecting Visual Relationships with Deep Relational Networks》
-
- 针对问题
- 本文创新点
- 网络结构
- 空间位置信息提取
-
针对问题
Local prediction,前人工作没有考虑到上下文等等
本文创新点
在预测关系类别时,增加了主宾语目标的空间位置信息。
算是本文最大的创新点,并且这种上下文信息的提取方法据 汤凯华大佬的19年的一篇博文里说是感觉比较合理的(相对于其它方法中,只输入主宾目标的union区域特征)
网络结构
空间位置信息提取
通过对目标的位置掩码进行特征提取来得到位置特征,然后输入到DR-Net中。
注:原文中也提及了一些场景图生成的方案并且说明了这些方案的不足,有一定的启发性,有兴趣的读者可以去看看