Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17)
英文原文链接:https://www.ijcai.org/proceedings/2017/0230.pdf
Object Detection Meets Knowledge Graphs
Yuan Fang, Kingsley Kuan, Jie Lin, Cheston Tan and Vijay Chandrasekhar
Institute for Infocomm Research, A*STAR, Singapore 新加坡A*STAR信息通信研究所
yfang@i2r.a-star.edu.sg,
kingsley.kuan@gmail.com,
{lin-j,cheston-tan,vijay}@i2r.a-star.edu.sg
Abstract
图像中的目标检测是计算机视觉中的一个关键任务,从安全监控到自动驾驶汽车都有重要的应用。现有的最先进的算法,包括深度神经网络,只注重利用图像本身的特征,很大程度上忽略了关于真实世界的大量背景知识。在本文中,我们提出了一个新颖的知识感知的目标检测框架,使得能够将知识图等外部知识集成到任何目标检测算法中。该框架采用语义一致性的概念对知识进行量化和泛化,通过重新优化的过程来提高目标检测与背景知识的一致性。最后,在两个基准数据集上的实证评估表明,与现有的基线相比,我们的方法可以显著提高召回率高达6.3个点,而不影响平均精确度。
1 Introduction
许多计算机视觉任务最终寻求通过图像和视频来解读世界。虽然在过去的十年中取得了重大进展,但在人类和机器的学习方式之间仍然存在着惊人的差距。尽管目前的机器学习方法,包括最先进的深度学习算法,可以有效地从训练数据中找到模式,但它们无法利用普通人所拥有的关于现实世界的大量背景知识。鉴于图像和视频是世界的反映,利用背景知识可以在解释这些数据方面具有巨大的优势。
Task and insight
在本文中,我们研究了目标检测这一计算机视觉关键任务[Everingham et al.,2010]。给定一幅图像,目标是识别一组regions或bounding boxes,并用使用预先定义的对象标签之一进一步对每个bounding boxes进行分类,如图1所示。
深度卷积神经网络研究进展[Sermanet et al.,2013;Girshick et al.,2014],特别是快速或更快R-CNN[Girshick,2015;Ren et al.,2015],在目标检测方面显示出很大的前景。然而,与以前的方法一样,这些方法只考虑训练图像中存在的模式,而没有利用一般人所具有的许多知识。例如,人类有常识或隐含的知识,家猫有时会坐在桌子上,但熊并不是这样,除非是非常罕见的情况。这种背景知识自然有助于加强猫和桌子的同时检测(例如,在图1a中,即使没有一张训练图像描绘猫和桌子在一起)。另一方面,如果预测图像同时包含bear和table,这与我们的背景知识相冲突,则检测更容易出错。
虽然这些背景知识看起来是随机的,很难组织,但是已经有广泛的研究和商业努力将其编码成机器可读的形式,通常被称为知识图谱[Paulheim,2017]。知识图谱是对语义知识进行建模的图,其中每个节点是一个现实世界的概念,每个边代表两个概念之间的关系。例如,图2展示了一个玩具知识图。特别是,在图1a中,cat与table的关系加强了cat与table的检测。我们注意到,知识图谱已经在其他领域证明了相当大的成功,例如网络搜索和社交网络[Dong et al.,2014]。除了玩具图之外,大规模的知识图谱通常是通过众包或从半结构化和非结构化数据中自动提取来构建的,这超出了本文的研究范围。
Challenges and approach
即使有了现有的知识图谱,为了有效地利用其中的知识进行目标检测,仍然存在两个主要的技术挑战。
第一,我们如何量化和概括知识?量化是必要的,因为知识图谱需要符号表示,但大多数目标检测算法是在subsymbolic或数值表示上操作的。此外,该量化方法不仅适用于上下文与直接观测知识匹配的图像,而且还可以推广到具有新上下文的图像。在我们的方法中,对于知识图上的每一对概念,我们计算它们的语义一致性的数值程度。例如,由于cat坐在table上的关系存在于知识图中,因此cat和table是语义一致的概念,而bear和table则不是。概念也可以通过一系列间接关系连接起来,比如猫舔盘子和放在桌子上的盘子。这就产生了泛化能力。我们可以推断猫和