当前位置: 代码迷 >> 综合 >> Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会
  详细解决方案

Visual Question Answering: Datasets, Algorithms, and Future Challenges心得体会

热度:10   发布时间:2024-01-26 21:26:51.0

最近刚好在写综述,也看了一篇较早的综述性文章,作为VQA入门性文章还是值得一看的,这边自己记录了一下关于这篇文章的阅读体会,以及相关部分翻译,以供自己学习写作为用。

文章下载地址:Visual Question Answering: Datasets, Algorithms, and Future Challenges——下载地址

目录

1.文章导读

2.文章精读

2.1经典的数据集介绍

2.3 VQA的评价指标(Evaluation Metrics):

2.4 VQA算法介绍

3.VQA未来之挑战

4.作者对未来VQA数据集的建议

5.结论

6.论文参考文献


1.文章导读

视觉问题回答(Visual Question answer, VQA)是近年来计算机视觉和自然语言处理领域出现的一个新问题,已经引起了深度学习、计算机视觉和自然语言处理领域的广泛关注。在VQA中,算法需要回答关于图像的基于文本的问题。自2014年发布第一个VQA数据集以来,已经发布了更多的数据集,并提出了许多算法。在这篇综述中,作者从问题公式化、现有的数据集、评估指标和算法等方面仔细检查了VQA的当前状态。特别地,作者讨论了当前数据集在适当地训练和评估VQA算法方面的局限性。然后,作者详尽地回顾了VQA的现有算法。最后,作者讨论了未来VQA和图像理解研究的可能方向。

2.文章精读

从2014年起,VQA逐渐发展,其涉及到的主要问题包括:目标识别,目标检测,属性分类,场景分类,计数,除了这些,甚至可以探究图像中目标之间的空间关系,场景原因提问(比如问图中的女孩人物为什么哭?)。

VQA的应用也是非常具有潜力。VQA能够尽可能的帮助盲人来理解世界,也能够以一种自然的方式改变人机交互,甚至可以在没有标签和元数据的情况下进行图像检索。

视觉图灵检测能够评估图像语义分析是否达到人类可以接受的层面,因此这篇文章将对于VQA的一些基本问题展开讨论。

图1:与VQA相比,对象检测、语义分割和图像字幕。中间的图是典型对象检测系统的理想输出,右边的图是来自COCO数据集[10]的语义分割图。这两个任务都缺乏提供有关对象的上下文信息的能力。这张COCO图片的说明文字范围很广,从非常普通的场景描述,例如,一个繁忙的城镇人行道旁边的街道停车场和十字路口。例如,一个女人牵着一条狗慢跑。这两个标题都是可以接受的,但是使用VQA可以提取更多的信息。对于COCO-VQA数据集,关于此图像的问题是滑冰运动员穿什么样的鞋?城市还是郊区?那里有什么动物?

2.1经典的数据集介绍

从2014年以来,常见的VQA数据集主要有DAQUAR,COCO-QA,The VQA Dataset,FM-IQA,Visual7W,Visual Genome。除了DAQUAR,这些数据集中的图像大多来自COCO(Microsoft Common Objects in Context,包含328,000张图像,91类目标,超过2百万个标签,平均每张图片超过5个描述),另外还有Visual Genome和 Visual7W用了Flickr100M数据集做了补充。一个好的数据集需要有图像,问题,以及现实世界中的概念。

(1)DAQUAR(DAtaset for QUestion Answering on Real-world images):最早也是最小的VQA数据集,包含了6795张训练数据和5673张测试数据,所有图像来自于数据集NYU-DepthV2 Dataset。该数据集质量较差,一些图像杂乱无章,分辨率低,并且问题和回答有明显的语法错误。

DAQUAR:在桌子角落的电脑后面是什么?地面的真相:论文

如上图所示,DAQUAR图像常常被杂乱和低分辨率的图像破坏。

(2)COCO-QA:这个数据集是由COCO数据集进行看图说话,并用NLP算法来产生问题和回答。该数据集包含训练数据78736张,测试数据38948张。关于提出的问题,其中69.84%是对于目标提问,16.59%是关于颜色提问,7.74%是关于计数提问,6.10%是关于位置提问。所有答案都是单个词语,一共只有435个独一无二的答案。COC-QA数据集最大的问题在于所有的QA(question-answer)都是通过NLP算法得到,但是这么做的问题就是无法对从句还有语法多样性进行处理,这样就导致了提问中的一些语法错误,另外还有一个问题就是问题只是针对上述4方面而设计。

COCO-QA:一个十字路口的一侧、两辆双层巴士和第三辆车显示了什么?真实答案:建筑

如上图所示,相当数量的COCO-QA问题有语法错误,而且是无意义的。

(3)The VQA Dataset:该数据集由COCO中的图像和一些抽象的卡通图像组成,大多数工作只用了这个数据集中从COCO数据集中选取的图像,这个子集一般称作COCO-VQA。COCO-VQA对于每张图片设计3个问题,对每一个问题设计10个答案,这些问题是由AMT(Amazon Mechanical Turk)的工人做的,然后另一批工人则专门回答问题,每个问题是由10个独立的人回答。该数据集共有614163张图(其中248349张图用于训练,121512张图用于验证,244302用于测试);The VQA Dataset中的另外一部分被称为SYNTH-VQA,该数据集有50000张合成场景,涉及到100种目标,30种动物模型,20种人类卡通模型,一共有150000个QA,每张图同样有3个问题,每个问题有10个回答。COCO-VQA广泛用于模型的评估,但该数据集存在的问题则是,很多问题由于语言的偏向性,使得不同答案变得高度相似统一。另外由于很多问题都是主观的,这就导致提问的过程中存在一定的指向性,比如下面这张图所示:

 (a):问:(你想坐那架飞机吗?)是的(4倍),不是(6倍)。VQA数据集包含主观问题,这些问题很容易在注释者之间引起分歧,而且显然也缺少一个客观正确的答案。

 (b):问:树是什么颜色的?GT:绿色。数据集中共有73个问题询问这个问题。其中有70个问题,大部分答案是绿色的。这些问题通常可以在没有图像信息的情况下得到回答。

 (c):问:你为什么说这个女人很强壮?是的(5x),可以手臂向上,头倒立,手倒立,可以头倒立,她是倒立在凳子上。寻求描述性或解释性答案的问题可能会给评估带来很大的困难。

(4)FM-IQA(The Freestyle Multilingual Image Question Answering):该数据集的提问和回答也都是人工做的,提问和回答是中文,然后翻译成英文,不同前面的数据集的是,回答可以是一个句子。

(5)Visual Genome:该数据的图像来自于COCO和YFCC100M,共108249张图,包括170万个QA pairs,至目前位置(这篇文章的发表年份2016年10月),该数据集是最大的VQA数据集。数据集的提问为6W:What, Where, How, When, Who,
and Why,该数据集答案的多样性要明显好于其他数据集,且答案的词数要多于其他数据集。另外提问没有“是否”的问题。

(a)来自视觉基因组数据集的示例图像以及注释的图像区域。问:天空是什么样子的?问:马是什么颜色的?

(6)Visual7W:该数据集是上一个数据集的扩充,7W则指What, Where, How, When, Who, Why, and Which。该数据集包含了47300张图。为了准确回答问题,这里用到了bounding box来圈出可能的4个答案。

(b) Visual7W[34]中指向QA任务的示例。包围框是给定的选项。问:你可以用哪个物体刺食物?

下图显示了以上几个图的多样性。几个较新的VQA数据集中答案分布的长尾性质。例如,在训练集中选择500个最重复的答案将覆盖COCO-QA中所有可能的答案的100%,而在可视基因组数据集中覆盖不到50%。对于基于分类的框架,这意味着训练一个具有更多输出类的模型。

(7)SHAPES:该数据集中的提问包括属性,关系,形状的所在位置,涉及244个独一无二的问题,64张图,所有的问题只有“是或否”两个答案。该数据集的图像中都是一些形状,颜色不同的多边形组成,比如:

图6:来自SHAPES数据集的示例图像。形状数据集[44]中的问题包括计数(有多少三角形?)、空间推理(圆形上方是否有红色形状?)和推理(蓝色形状是否为红色?)

2.3 VQA的评价指标(Evaluation Metrics):

VQA被设定为一个开放性的任务(算法生成一个字符串来回答一个问题),或者是一个选择题(从选项中进行选择)。对于多项选择题,简单正确率通常用于350次评估,如果算法做出了正确的选择,它就会得到正确的答案。对于开放式的VQA,也可以使用简单的准确性。

在这种情况下,一个算法的预测答案字符串必须与地面真实答案完全匹配。然而,准确性可能过于严格,因为有些错误比其他错误严重得多。例如,如果问题是“355张照片里有什么动物?”系统输出“狗”而不是正确的标签“狗”,它受到的惩罚和输出“斑马”一样严重。问题也可能有多个正确答案,例如,“树上有什么?”可能会将“秃鹰”列为正确的地面真值答案,因此系统输出“eagle”或者,如果“鸟”的答案是“是”,那么它也会被扣分。由于这些问题,人们提出了几种替代精确精度的方法来评估开放式VQA算法。

图7:简单的问题也可以从COCO-VQA中的注释器中得到不同的答案。问:狗在哪里?A: 1)用碗吃饭;2)在地板上;3)饲喂点;4)通过食物;5)内;6)在地板上用盘子吃东西;7);8)在灰碗前面,垃圾桶的右边;9)靠近食盆;10)在地板上

大概有4种指标:

(1)simple accuracy:优点:易于使用,缺点:小错误和大错误的惩罚项一样。比如树上的“秃鹰”和“鹰”和“鸟”,三者的惩罚项是一样的。

(2)Modified Wu-Palmer Similarity:优点:引入回答与真值之间的相似性机制,并用阈值进行取舍。缺点:相似词汇却表达完全相反意思的情况无法解决,比如“白色”和“黑色”,两者同样表达颜色,相似性高达0.91,但实际意思却截然相反;另外对于语义概念非常苛刻,无法处理句子或短语。

(3)Consensus Metric:优点:简单易行,同一问题的相同答案能够获得更高的分数。缺点:允许一个问题有至少两个答案。

(4)Manual Evaluation:优点:对于单词或者短语句子同样有效。缺点:耗费大量人力物力;人的判断具有主观性,没有具体标准。

2.4 VQA算法介绍

目前提出了许多算法,所有的算法都可以概括为以下三个部分:

1) extracting image features (image featurization)-(计算机视觉)图像特征提取部分,主要用预训练的CNN,包括VGGNet,ResNet,GoogLeNet

2) extracting question features (question featurization)-(自然语言处理)问题特征提取部分,主要用BOW(bag-of-words),LSTM,GRU(gated recurrent units),skip-thought vectors)

3) an algorithm that combines these features to produce an answer-结合两种特征来生成答案的算法,大多数是将VQA视为分类问题)

图8:VQA基于分类的框架的简化图。在这个框架中,图像和问题的特征被提取出来,然后将它们结合起来,这样分类器就可以预测答案。各种特征提取方法和结合这些特征的算法已经被提出,图中列出了一些比较常用的方法。

关于将图片特征和问题特征两种特征结合来生成答案的一般处理方法都包括:

a. Combining the image and question features using simple mechanisms, e.g., concatenation, elementwise multiplication, or elementwise addition, and then giving them to a linear classifier or a neural network.(使用一些简单的方法将两种特征结合起来, 比如讲两个特征矩阵连接,矩阵元素点乘,矩阵元素对应相加,然后将合并后的特征输入到一个线性分类器或者神经网络中)

b. Combining the image and question features using bilinear pooling or related schemes in a neural network framework. (用双线性池化或者相关机制将两个特征结合起来并输入到神经网络中)

c. Having a classifier that uses the question features to compute spatial attention maps for the visual features or that adaptively scales local features based on their relative importance. (使用问题特征的分类器来计算视觉特征的空间注意力图,或则是基于注意力的重要性来获得视觉图像的自适应尺度局部特征)

d. Using Bayesian models that exploit the underlying relationships between question-image-answer feature distributions. (使用贝叶斯模型来计算“问题-图像-答案”分布之间的潜在关系)

e. Using the question to break the VQA task into a series of sub-problems.(将一个大问题划分为一系列的小问题)

另:

(1)baseline model(基线模型):

前面也提到了,这里常用的思路就是将两个特征用一些简单的方法结合起来,再输送到神经网络中。常用的方法包括矩阵连接,矩阵点积,矩阵相加等。

这里作者给出了两篇[1][2]文献中的方法:[1]中用BOW(bag-of-words)来表示问题,用GoogLeNet来提取视觉特征,然后将两个特征连接,并输入到逻辑回归分类器中。[2]中用skip-thought vectors来表示问题,用ResNet-152来提取图像特征,然后用了两个隐含层的MLP(multi-layer perceptron)模型,输出用了一个线性分类器,但是最后的结果似乎是MLP过拟合了。

[1]B. Zhou, Y. Tian, S. Sukhbaatar, A. Szlam, and R. Fergus, "Simple baseline for visual question answering," arXiv preprint arXiv:1512.02167, 2015.

[2]K. Kafle and C. Kanan, "Answer-type prediction for visual question answering," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

之后的改进文献中还有一些是用的LSTM来表示问题[3],用GooLeNet来提取图像特征,然后用两个特征向量的乘积输入到两个隐含层的MLP中。

[3]S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L. Zitnick, and D. Parikh, "VQA: Visual question answering," in The IEEE International Conference on Computer Vision (ICCV), 2015.

(2)Bayesian and Question-Aware Model(贝叶斯问题感知模型):

VQA需要建立图像特征和问题特征之间的关系。比如文献[4],作者用了语义分割来确定目标在图像中的位置,然后训练贝叶斯模型,来对目标的空间关系进行建模,但是该模型的效率很低;另外文献[5],先根据问题来预测答案,然后再处理图像特征和问题特征。

[4]M. Malinowski and M. Fritz, \A multi-world approach to question answering about realworld scenes based on uncertain input," in Advances in Neural Information Processing Systems (NIPS), 2014.

[5]K. Kafle and C. Kanan, \Answer-type prediction for visual question answering," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

(3)Attention Based Models (注意力模型):

注意力机制能够使我们更快的找到想要关注的区域。VQA中引入注意力机制的思路目前有两种:一是使用空间注意力来提取CNN的区域特征;二是用合并注意力来表达文本中的关键信息。原文中给了很多这方面的参考文献,有兴趣的话可以读读原文推荐的这些文献。

首先是对于用CNN提取图片全局特征,该过程丢失了一些局部特征,因此引入注意力机制,引入的思路也是有两种,一种是将图像均匀的划分为许多网格,每一个网格的位置都代表了图像的局部特征,这一操作常常设置在最后一层卷积之前,直到最终的池化过程。其中每一个网格位置都由一个问题所确定,这个步骤如下图所示:

图9:该图演示了将注意力合并到VQA系统中的一种常见方法。CNN中的卷积层输出一个K×K×N张量的特征响应,对应于N个特征映射。一种方法是在不同的空间位置上抑制或增强特征。利用带有这些局部图像特征的问题特征,可以计算出每个网格位置的权重因子,从而确定空间位置与问题的相关性,然后利用这些权重因子计算出注意加权图像特征。

另一种思路是用空间注意力来生成region proposal(bounding box)搜索框,使用CNN对每一个box进行编码,最后再确定每一个问题所对应的box。例如文献[6]中使用了Edge Boxes来生成搜索框。

[6] K. J. Shih, S. Singh, and D. Hoiem, "Where to look: Focus regions for visual question answering," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

作者在这一节举了很多关于attention机制用于VQA的模型,这里不多做介绍,只是简单的给出模型的名字:

Focus Regions for VQA,(使用Edge Boxes生成图像的搜索框来作为attention)

Focused Dynamic Attention (FDA) models,(使用搜索框在图像中搜索问题中提到的目标。用word2vec计算问题中关键词和搜索框标签的一致性得分,高于0.5的box输入到LSTM,与此同时,另一个LSTM则用于问题表示,两个LSTM的输出同时输入到全连接层,最后再用softmax来预测答案)

Stacked Attention Network (SAN),(使用了空间网格的可视特征)

Dynamic Memory Network (DMN),(使用了空间网格的可视特征)

Spatial Memory Network model,(通过计算image patch和问题中的关键单词之间的相关性来确定空间注意力)

modified Dynamic Memory Network (DMN),(整合注意力,将模型分成输入模块,情景记忆模块,回答模块)

Hierarchical Co-Attention model,(将注意力同时用于问题和图像)

(4)Bilinear Pooling Methods(双线性池化方法):

这里作者主要介绍了两个模型,这类方法重点还是放在如何结合图像特征和文字特征。

[7]提出的Multimodal Compact Bilinear (MCB) pooling用于结合图像和文字特征,相较于其他如向量点积等操作,该方法的思想是近似图像特征和文字特征的矢量积(outer-product)。如果直接做矢量积的话,那么就会有非常大的维度开销,而MCB则能够在低维度条件下进行矢量积的近似。

[7]A. Fukui, D. H. Park, D. Yang, A. Rohrbach, T. Darrell, and M. Rohrbach, "Multimodal compact bilinear pooling for visual question answering and visual grounding," in Conference on Empirical Methods on Natural Language Processing (EMNLP), 2016.

由于上述模型的计算开销仍然比较大,作者又在[8]提出了multi-modal low-rank bilinear pooling (MLB) scheme,这里用到了Hadamard乘积和线性映射来实现近似双线性池化。

[8]J.-H. Kim, K.-W. On, J. Kim, J.-W. Ha, and B.-T. Zhang, "Hadamard product for low-rank bilinear pooling," arXiv preprint arXiv:1610.04325, 2016.

(5)Compositional VQA Models(组合VQA模型):

这类模型用于将问题分割为多个小问题来处理,比如“图像中马的左边是什么?”,那么分割问题后,应该先定位到“马”,然后再找该目标左边的目标。这类思路就用组合VQA模型来解决,比较有名的模型是The Neural Module Network (NMN)和Recurrent Answering Units (RAU)。

NMN将问题分解为子问题(sub-tasks),然后将这些问题再送到子网络(neural sub-networks)中进行处理,每一个子网络只处理一个小问题。常用的模块包括查找(find),描述(describe),测量(measure),转换(transform)。最后再将这些模块集成到一个图层中。

RAU不需要任何外部语言分析就能够进行模块的组合。模型使用独立(self-contained)的回答单元(answering unit)来解决VQA的子问题,这些独立的回答单元以循环的形式排列,每个链上的回答单元都用注意力机制来驱动。

(6)Other Noteworthy Models(其他有价值的模型):

先验知识库(knowledge bank)能够很好的改善实验效果,比如如果数据库中记录了某种动物的颜色,生活习惯,大小等信息,那么针对该动物的提问则能够获得更准确的答案。比如在全连接层前引入Dynamic Parameter Prediction layer;基于ResNet改进的Multimodal Residual Networks (MRN)。

(7)What methods and techniques work better?(哪种方法的表现更好):

前面也提到了这么多方法,那么究竟哪种方法比较好呢,作者基于COCO-VQA数据集做了比较:

另外,实验结果表明,ResNet的图像特征提取比VGG或GoogLeNet的表现更好,ResNet-101比VGG-16大概会有2%的性能提升;空间注意力能一定程度上的提升性能;贝叶斯和组合VQA模型实际上并没有显著提高性能。

3.VQA未来之挑战

VQA由两个不同的数据流组成,需要正确地使用它们来确保健壮的性能:图像和问题。但是,当前的系统是否充分利用了视觉和语言呢?消融研究[36,32]经常显示,只有问题的模型比只有图像的模型表现得好得多,尤其是在开放式COCO-VQA上。在COCO-QA中,简单的图像盲模型仅使用问题可以获得50%的准确率,而使用相对适中的[36]图像可以获得820的准确率。在[36]中,DAQUAR37使用了更好的嵌入图像盲的语言。

如下图10所示,VQA算法的性能得到了快速的提升,但是在最佳的方法和人类之间仍然有很大的差距。目前还不清楚,性能的改善是来自后来的系统所采用的机制,例如注意力,还是其他因素。此外,很难将文本和图像数据的贡献分离开来。由于评估算法的方式不同,在比较算法时也存在许多挑战。

图10:与最早的基线和人类表现相比,当前跨数据集的最新结果。最早的基线是指数据集创建者报告的数字,当前最先进的模型是从表3中性能最好的方法中选择的。DAQUAR、daquar37和COCO-QA报告的准确性,COCO-VQA报告的准确性。

(1)VQA中的视觉和语言:

图像和文本是VQA中两个截然不同的数据流,根据一些简化研究(Ablation studies),问题模型要比图像模型的表现好很多;另外,问题和答案之间还存在非常明显的偏执(bias),比如下面这张图,两个问题表达的同一个意思,但是回答却完全相反:

因此今后要解决的问题,就是减少数据集中问题和答案之间的偏差(making datasets less biased)以及对图像内容的进行更加精细的分析。

(2)VQA中注意力机制的作用:

目前很难评价注意力机制在VQA中的作用。

有简化研究表明,去掉注意力机制的模型的性能会降低;目前在COCO-VQA数据集上表现最好的模型也用到了空间注意力结构,但是也有一些很简单的没有使用注意力机制的模型性能反而超过了复杂注意力机制的模型性能;还有没有使用注意力的模型对图像特征和问题特征进行向量的点积,也取得了比注意力模型更好的性能;当然也有文献表明,注意力机制收到问题偏执(bias)的影响,有时候是不能够定位到准确区域的。比如我想找图像中的窗帘,由于注意力机制会从底开始寻找,所以大概率会定位到床而不是窗,这是因为窗帘在注意力机制中会定位到bedroom。

(3)Bias Impairs Method Evaluation(偏执损害方法的评估):

主要面临的问题有两个:一是很多问题中带有很强的bias,很多问题都直接涉及到目标或场景的属性;二是一些复杂问题,比如“为什么。。。。”,目前对这类问题很难评估。

(4)Are Binary Questions Sufficient(二值型问题(只回答是或否)是否充分):

目前的一个讨论是二值型问题是否会造成问题复杂性的缺失。一方面,二值型问题易于评估和处理;另一方面,二值型问题是VQA数据集中重要的一类问题,一旦问题偏执(bias)能够被控制,那么这类问题就可以被完全接受。

(5)Open Ended vs. Multiple Choice (开放式还是多选式):

开放式的问题评估目前还是非常有挑战的,多选式的问题目前是VQA数据集评估的一种有效方法。但是多选式的评估,最大问题在于是用缩小到一定范围的选项来确定最终的答案而不是真正的回答问题。目前大多还是做得多选式问题,这样做还不够充分,不是我们想要的开放式回答,但是目前是VQA的重要组成部分。

4.作者对未来VQA数据集的建议

 

a.未来的数据集需要更大。

b.未来的数据集需要减少偏见。

c.未来的数据集需要更细致的分析来进行基准测试。

5.结论

VQA是计算机视觉和自然语言处理领域的一个重要的基础研究问题,它要求系统完成比任务特定算法更多的任务,如对象识别和对象检测。一种能够回答关于图像的任意问题的算法将是人工1030智能的一个里程碑。我们相信VQA应该是任何视觉图灵测试的必要部分。在这篇论文中,我们批判性地回顾了现有的数据集和VQA算法。我们讨论了评估算法生成的答案的挑战,特别是多字答案。我们描述了偏见和其他1035个问题如何困扰着现有的数据集。这是一个主要问题,该字段需要一个数据集来评估VQA算法的重要特征,因此,如果一个算法在该数据集上表现良好,则意味着它在VQA上通常表现良好。未来在VQA上的工作包括创建更大、更多样的1040数据集。这些数据集中的偏差将很难克服,但是以一种微妙的方式单独评估不同类型的问题,而不是单纯使用天真的准确性,将会有很大的帮助。进一步的工作将需要开发的VQA算法,可以推理的图像内容,但这些算法可能导致重要的新领域的研究。

6.论文参考文献

[1]B. Zhou, Y. Tian, S. Sukhbaatar, A. Szlam, and R. Fergus, "Simple baseline for visual question answering," arXiv preprint arXiv:1512.02167, 2015.

[2]K. Kafle and C. Kanan, "Answer-type prediction for visual question answering," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[3]S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L. Zitnick, and D. Parikh, "VQA: Visual question answering," in The IEEE International Conference on Computer Vision (ICCV), 2015.

[4]M. Malinowski and M. Fritz, \A multi-world approach to question answering about realworld scenes based on uncertain input," in Advances in Neural Information Processing Systems (NIPS), 2014.

[5]K. Kafle and C. Kanan, \Answer-type prediction for visual question answering," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[6] K. J. Shih, S. Singh, and D. Hoiem, "Where to look: Focus regions for visual question answering," in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[7]A. Fukui, D. H. Park, D. Yang, A. Rohrbach, T. Darrell, and M. Rohrbach, "Multimodal compact bilinear pooling for visual question answering and visual grounding," in Conference on Empirical Methods on Natural Language Processing (EMNLP), 2016.

[8]J.-H. Kim, K.-W. On, J. Kim, J.-W. Ha, and B.-T. Zhang, "Hadamard product for low-rank bilinear pooling," arXiv preprint arXiv:1610.04325, 2016.

 

 

 

 

  相关解决方案