当前位置: 代码迷 >> 综合 >> ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记
  详细解决方案

ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

热度:71   发布时间:2024-03-09 12:45:43.0

目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文出自香港大学的sibei,二作是中山大学李冠斌老师
下载链接

动机

Phrase level visual grounding具有两个challenge:①大量的、可变的视觉内容,多样的短语描述(不同的短语描述可能指向同一个bbox,eg:穿红衣服的男子、拉小提琴的男子。。。);②短语关系推理中存在明确的引用(顺序?)。现有方法分为两类:①大多数方法不建模短语之间的关系,而关注于特征融合,如下图(a);②少部分方法考虑了短语之间的关系,但是它们捕获的是部分(或粗糙)的短语上下文,短语之间没有明确的语言关系,如下图(b)。

贡献

  • 提出关系传递模块(Relational Propagation Module,RPM),可以基于linguistic relation在phrases pair间传递信息;
  • 提出一种基于语言结构引导的网络,在语言解析图的指导下,迭代地给名词短语传递跨模态信息。
  • 在Flickr30K Entities数据集上测试,超过了SOTA。

方法

模型的整体框架如下图所示,处理过程共分为五个步骤,下面逐一介绍。

①. 对输入图片进行编码,将visual featureVVV和spatial coordinatesPPP融合,得到spatial-aware featureFFF
②. 对输入文本进行解析,得到linguistic graphGGG,解析方法使用VL15中的方法。
③. 对于每个结点,基于FFF和结点对应的短语特征wn′w_{n}^{'}wn?,得到多模态特征MMM和短语增强图SSS,这里得到的MMM在不同的迭代轮次中均不改变,作为评价anchor boxes置信度的依据。
④. 使用RPM模块,在边上进行消息传递,得到关系增强图RRR,再进行结点信息聚集,得到联合强化图CCC
⑤. 使用MMMCCC选择出最优的anchor box,回归offset即可。

实验

在Flickr30K Entities上的实验结果:

消融实验:

实验结果:

  相关解决方案