The More You Know: Using Knowledge Graphs for Image Classification ——用知识图谱进行图像分类论文_综合

个人的学习记录，有参考

https://blog.csdn.net/sunshine__0411/article/details/82847203?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-2.control

Abstract

使人类区别于现代基于学习的计算机视觉算法的一个特征是获得关于世界的知识并使用该知识推理关于视觉世界的能力。人类可以了解物体的特征以及它们之间发生的关系，从而学习各种各样的视觉概念，并且可以通过很少的例子学习。本文研究了知识图谱形式的结构化先验知识在图像分类中的应用，表明利用结构化先验知识可以提高图像分类的性能。我们基于最近关于图的端到端学习的工作，引入Graph Search Neural Network，作为将大知识图谱有效地结合到视觉分类pipeline中的方法。我们在一些实验中表明，我们的方法在多标签分类中优于标准神经网络。

1.Introduction

我们的世界包含人类理解的数百万视觉概念。这些常常是模棱两可的（番茄可以是红色或绿色），重叠的（交通工具包括汽车和飞机），并且有数十或数百个子类别（数千种特定种类的昆虫）。虽然一些视觉概念非常常见，如人或车，但大多数类别的例子较少，形成长尾分布。然而，即使只显示了几个甚至一个例子，人类仍然具有非常显著的能力来高精度地识别这些类别。相比之下，虽然现代的基于学习的方法可以高精度地识别某些类别，但是通常需要为这些类别中的每个类别提供数千个标记的示例。考虑到视觉概念空间大、复杂而且动态，这种为每个概念构建大型数据集的方法是不可扩展的。因此，我们需要寻找目前人类拥有而机器没有的方法。

解决方法之一就是构建知识和推理。人类不仅仅是基于外观的分类，我们通过经验和语言获取关于这个世界的知识。在每天的生活中我们都依靠这种知识来分辨物体。礼物，我们或许在一本书中看到过关于“象鼩"（就是图中的那个像老鼠但是不是老鼠的动物，）(或许仅仅是看来一眼），我们就获得了辨别它的一个能力。图一展示了我们在这个问题中是如何使用我们的知识去判别的。我们可能知道“象鼩"看起来像老鼠，有一个鼻子和尾巴，产于非洲，常见于灌木林。利用这些信息，我们在野外看见它时就能加以辨别。我们一眼就能辨别出来（我们看见一个像老鼠一样的动物，它有鼻子和尾巴），通过回忆知识（思考我们听过的动物和它们的特短板，栖息地）然后推理分析（这是一个“象鼩"因为它有一个鼻子和尾巴，看起来像老鼠，但是老鼠和大象都不会有这些特点）。使用这些信息，即使我们只在图片上看过它一两眼，就能对它进行分辨。

在图上或者神经网络训练的图中，端到端（备注：端到端指输入是原始数据，输出是最终结果）的学习已经有很多工作。大多数方法要么从图中提取特征，要么学习在节点之间传递证据的传播模型，该模型以边缘的类型为条件。一个例子是Gated Graph Neural Network，它以任意的图作为输入。给定特定于任务的一些初始化，它学习如何传播信息并预测图中每个节点的输出。该方法已被证明可以解决基本的逻辑任务和程序验证

我们的工作改进了该模型，并将端到端的图形神经网络应用于多标签图像分类。我们引入图形搜索神经网络(Graph Search Neural Network，GSNN)，它利用图像中的特征对图形进行有效的注释，选择输入图的相关子集，并预测表示视觉概念的节点上的输出。然后使用这些输出状态对图像中的对象进行分类。GSNN学习传播模型，该模型推理不同类型的关系和概念，以便在节点上产生输出，然后用于图像分类。我们的新架构减轻了GGNN在大图上的计算问题，这允许我们的模型被有效地训练并用于使用大知识图谱的图像任务。我们展示了我们的模型在推理概念中是如何有效的，以改善图像分类任务。重要的是，我们的GSNN模型还能够通过跟踪信息在图中如何传播来提供关于分类的说明。

这项工作的主要贡献是：（a）引入GSNN，作为将潜在大知识图谱合并到端到端学习系统中的一种方法，该系统在大图的计算上是可行的；（b）使用噪声知识图谱进行图像分类的框架；（c）通过使用传播模型来解释我们的图像分类的能力。我们的方法大大优于多标签分类的baselines。

2 .Realted Work

研究知识图谱并且使用图谱进行图像推理近来已经成为研究图像的热点。为了能够对图像进行分析推理，已经提出来几个方法。例如，参考文献[38]中搜集一个知识库然后要求这个知识库去做做一阶前平衡推理来预测负担。【20】中建立一个不同种类的例子图，使用空间关系去实现上下文的推理。例如【17】中的方法使用在途中随意的走动头学习边缘的模式，当实现走路时，并且在知识图谱中学习新的边缘。还有一些研究使用知识库进行图像检索【12】或是回答视觉查询【39】。但是这些工作都基于建立然后查询知识库，而不是使用已存在的知识库作为边信息去实现一些视觉任务。

然而，这些方法中没有一个是通过端到端的方式进行学习，而且图中的传播模型大多是手绘的。近来，从知识图谱中通过神经网络和其他端到端的学习系统去实现推理已经成为研究的活跃点.一些工作中把图作为卷积输入的一种特殊情况，不同于将帧输入与网格中的帧相联系，输入是图，依赖于要么是一些全局图结构，要么是一些预处理的图边缘2,6,11,25]然而，这些方法中的大多数都输在晓得，干净的诸如分子这样的数据集上训练的。在视觉问题中，这些图编码上下文关系和常识关系，并且明显更大和更嘈杂。

LI和Zemel提出来GGNN【18】在图结构数据上使用神经网络，我们提出的GSNN是基于GGNN。通过变化GNN应用到不同的领域都取得了一些成就。例如化学中的QSPR分析，子图匹配以及其它一些在