当前位置: 代码迷 >> 综合 >> 场景图生成论文阅读笔记 之 Detecting Visual Relationships with Deep Relational Networks
  详细解决方案

场景图生成论文阅读笔记 之 Detecting Visual Relationships with Deep Relational Networks

热度:67   发布时间:2023-12-23 09:20:40.0

CVPR 2017

《Detecting Visual Relationships with Deep Relational Networks》

属于基于CNN实现的,并非后续主流的RNN、LSTM、图神经网络的方法,并且比较早,因此不作过详细记录,仅重点记录下创新点

文章目录

      • 《Detecting Visual Relationships with Deep Relational Networks》
        • 针对问题
        • 本文创新点
        • 网络结构
        • 空间位置信息提取

针对问题

Local prediction,前人工作没有考虑到上下文等等

本文创新点

在预测关系类别时,增加了主宾语目标的空间位置信息
算是本文最大的创新点,并且这种上下文信息的提取方法据 汤凯华大佬的19年的一篇博文里说是感觉比较合理的(相对于其它方法中,只输入主宾目标的union区域特征)

网络结构

在这里插入图片描述

空间位置信息提取

通过对目标的位置掩码进行特征提取来得到位置特征,然后输入到DR-Net中。
在这里插入图片描述

注:原文中也提及了一些场景图生成的方案并且说明了这些方案的不足,有一定的启发性,有兴趣的读者可以去看看

  相关解决方案