当前位置: 代码迷 >> 综合 >> Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering
  详细解决方案

Don’t Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering

热度:75   发布时间:2023-12-16 07:43:37.0

虽然以前的VQA直接将Image-Question元组(I,Q)映射到应答(A),但GVQA将VQA的任务分为两步:LOOK:找到回答问题所需的对象/图像块,并识别块中的视觉概念;从问题中找出合理答案的空间,并通过考虑哪些概念是合理的,从一组公认的视觉概念中返回适当的视觉概念。

GVQA的另一个新颖之处是它把回答“是”/“否”作为一项直观的验证任务。

给定一个问题和一个图像,问题首先通过问题分类器,并被分类为是/否或非是/否。

对于非yes/no的问题,被激活的GVQA组件是(1)视觉概念分类器VCC,它以问题特征和图像特征作为输入,(2)答案集群预测器ACP,其输入是整个问题。.VCC和ACP的输出被输入到答案预测器AP产生答案。

对于yes/no问题,,被激活的GVQA组件是(1)VCC(类似于非YES/NO),(2)概念提取器(CE),其输入是整个问题。

VCC和CE的输出被输入到Visual Verifier(V V)预测“是”或“否”。

Visual Concept Classifier(VCC)
视觉概念分类器(VCC)负责定位回答问题所需的图像块,以及生成与定位块相关的一组视觉概念。图像以VGG-Net最后一个池层的激活形式被馈送到注意模块。问题使用LSTM进行词嵌入,然后输入注意模块。多跳注意产生来自VGG-Net的图像区域特征的加权线性组合。
Question Classifier
把输入的问题Q分为yes-no和非yes-no两种类型,yes-no问题输入到CE,非yes-no问题输入到ACP。
Answer Cluster Predictor (ACP)
只适用于非yes-no问题,用于确定答案的类型,输入问题后,该模块将问题分为C的其中一类。
Concept Extractor (CE)
使用基于POS标签的提取系统,从需要在图像中验证视觉存在的yes/no问题中提取问题概念,改变其输出维度,使其可以和VCC的输出在VV中结合。
Answer Predictor (AP)
输入VCC输出的视觉概念和ACP输出的概念种类,从而预测出答案。ACP的种类对应VCC的分类结果。ACP的输出可以很容易地映射成与VCC输出具有相同维数的向量,方便在AP中结合。由此产生的ACP嵌入在VCC嵌入中按元素添加,然后是FC层和Softmax激活,最后产生998个答案种类(除去了yes和no)。
Visual Verififier (VV)
给出了VCC预测的一组视觉概念,以及需要验证其视觉存在的概念的嵌入(由CE给出),VV的作用是验证VCC预测中概念的存在或缺失。将CE嵌入按元素添加到VCC嵌入中,然后是FC层和Softmax激活,最后产生两个答案分布,yes和no。
  相关解决方案