当前位置: 代码迷 >> 综合 >> Graph Relation Transformer: Incorporating Edge Relations into the Transformer Architecture 论文笔记
  详细解决方案

Graph Relation Transformer: Incorporating Edge Relations into the Transformer Architecture 论文笔记

热度:31   发布时间:2023-12-29 15:50:47.0

Graph Relation Transformer: incorporating Edge Relations into the Transformer Architecture 论文笔记

  • 一、Abstract
  • 二、Graph Relation Transformer (GRT)
  • 三、Results and Discussion
    • 1、Fusion Function for Edge Features
    • 2、Ablation Study on Edge features
  • 结语

写在前面
这篇论文是CVPR2021 Workshop的第五篇,也是比较短的一篇文章,3页(含参考文献)。见名知意,和图神经网络相关的Transformer,这类文章看着就比较新,因为理论上来说我目前看到的文章还没有把图神经网络和Transformer扯上关系的,当然也可能是我没太关注图神经网络在多模态这方面的研究吧。
论文链接: Graph Relation Transformer: Incorporating Edge Relations into the Transformer Architecture
代码:无

一、Abstract

摘要首先抛出大的研究对象:类似VizWiz这样的研究发现VQA系统能够帮助视觉受损的人阅读和推理图像中的文字。TextVQA因此产生,要求model阅读和推理图像中的视觉目标和文本目标。但TextVQA不仅要推理视觉+文本,同时还要推理这些目标之前的空间关系,从而促进了每一个目标对之间边缘特征信息的利用。

现有不足之处:要么使用关系类别,而非边缘特征向量,要么在Transformer中没有使用到边缘特征

提出方法的优点:
1、能够泛化到多种模态的信息关联上
2、在没有任何其他优化方法的基础上,提升M4C模型0.65个点,测试集0.57个点
3、GRT超过了M4C的空间推理能力

二、Graph Relation Transformer (GRT)

之前的工作使用图关系在图像目标检测上,但是目前还没有在Transformer上的(正常,因为整合这种边缘信息到Transformer上面还是比较难的)。
作者在这一部分提出4种边缘的类型:
1、Appearence similarity
2、Spatial translation features
3、Spatial interaction labels
4、Modality pair labels

作者的观察:self-attention天然能够在每个输入上执行图计算?但是,在Transformer上莫得地方给你玩 “edge relations”,所以作者提出自己的GRT,确实6,整合 n2 对边特征到Transformer上;另外,边是有方向性的。

在这里插入图片描述
然后开始简介下transformer流程,之后介绍自己的:采用每一个点的目标特征来融合边的特征,
三种方式:输入特征到 “keys” 的投影;
输入到 “Value” 的投影;
输入到这两者的投影;

在这里插入图片描述
整合方式有两种:concat(concatentation) & add(projection to a common vector space then addition)

接下来是对三种融合方式的解释:

一方面:融合 “keys” 使得目标 “i” 对目标 “j” 的权重应该依赖于 Eij,即目标 “j” 的在目标 “I” 上的相关性应该取决于两个目标是如何关联的。

另一方面:self-attention最终计算的是 “value” 的平均,融合 “value” 确保目标 “j” 对目标 “i” 的影响取决于Eij

训练设置:
在这里插入图片描述

三、Results and Discussion

在这里插入图片描述
GRT 使用了 “spatial translation”、 “spatial interaction labels”、 “modality pair labels” 的边特征以及在 “value” 中通过 “add” 融合了这些边。 SMA+SAMT 则使用了其他的新架构 + 其他的优化。

性能的比较和提升:提升的点是由于融合了边信息.

在这里插入图片描述

1、Fusion Function for Edge Features

在这里插入图片描述
当模型能够改变其他基于上下文的目标表示和当前目标中的空间关系时,模型的推理效果最好(add操作)。

2、Ablation Study on Edge features

在这里插入图片描述
每个模型仅在 “value” 中融合 边特征,采用 “add” 操作融合。注意一下,这是去掉特征的消融实验,结果表明去掉 Appearance similarity 特征更好。
原因:多头注意力采用了逐个 appearence 特征的点乘,类似于 similarity 操作,又由于已经有一个 similarity 操作,所以再整合一个 similarity 特征可能不会特别管用(所以去掉就有用了?)。去掉其他特征会导致性能更加下降,表明其他特征更好。

结语

这篇文章怎么说,有点忒短了,意犹未尽之感,说了但没有说完,连个具体模型都莫得个图。

  相关解决方案