目录
- 简介
- 动机
- 贡献
- 方法
- 实验
简介
本文出自香港大学的sibei,二作是中山大学李冠斌老师
下载链接
动机
Phrase level visual grounding具有两个challenge:①大量的、可变的视觉内容,多样的短语描述(不同的短语描述可能指向同一个bbox,eg:穿红衣服的男子、拉小提琴的男子。。。);②短语关系推理中存在明确的引用(顺序?)。现有方法分为两类:①大多数方法不建模短语之间的关系,而关注于特征融合,如下图(a);②少部分方法考虑了短语之间的关系,但是它们捕获的是部分(或粗糙)的短语上下文,短语之间没有明确的语言关系,如下图(b)。
贡献
- 提出关系传递模块(Relational Propagation Module,RPM),可以基于linguistic relation在phrases pair间传递信息;
- 提出一种基于语言结构引导的网络,在语言解析图的指导下,迭代地给名词短语传递跨模态信息。
- 在Flickr30K Entities数据集上测试,超过了SOTA。
方法
模型的整体框架如下图所示,处理过程共分为五个步骤,下面逐一介绍。
①. 对输入图片进行编码,将visual featureVVV和spatial coordinatesPPP融合,得到spatial-aware featureFFF。
②. 对输入文本进行解析,得到linguistic graphGGG,解析方法使用VL15中的方法。
③. 对于每个结点,基于FFF和结点对应的短语特征wn′w_{n}^{'}wn′?,得到多模态特征MMM和短语增强图SSS,这里得到的MMM在不同的迭代轮次中均不改变,作为评价anchor boxes置信度的依据。
④. 使用RPM模块,在边上进行消息传递,得到关系增强图RRR,再进行结点信息聚集,得到联合强化图CCC。
⑤. 使用MMM和CCC选择出最优的anchor box,回归offset即可。
实验
在Flickr30K Entities上的实验结果:
消融实验:
实验结果: