当前位置: 代码迷 >> 综合 >> 论文翻译(5)-Contextual Inter-modal Attention for Multi-modal Sentiment Analysis
  详细解决方案

论文翻译(5)-Contextual Inter-modal Attention for Multi-modal Sentiment Analysis

热度:52   发布时间:2024-03-06 00:14:23.0

Contextual Inter-modal Attention for Multi-modal Sentiment Analysis
多模态情感分析中的语境跨模态注意
github地址:https://github.com/soujanyaporia/contextual-multimodal-fusion
链接:https://pan.baidu.com/s/1bNsgWInUlG2-M88PSXGcPQ
提取码:uk6m

摘要

多模态情感分析提供了各种挑战,其中之一是不同输入模态的有效组合,即文本、视觉和听觉。在本文中,我们提出了一个基于递归神经网络的多模态注意框架,该框架利用上下文信息进行话语级别的情感预测。所提出的方法关注多模态多话语表示,并试图学习其中的贡献特征。我们在两个多模态情感分析基准数据集上评估了我们提出的方法,即。CMU多模态意见水平情感强度(CMU-MOSI)语料库和最近发布的CMU多模态意见情感和情感强度(CMU-MOSEI)语料库。评价结果表明,该方法的有效性,在MOSI和MOSEI数据集上的准确率分别为82.31%和79.80%。与最先进的数据集模型相比,性能提高了大约2和1个百分点。

一、引言

传统上,情感分析(庞和李,2005,2008)已被广泛应用于各种文本(胡和刘,2004;刘,2012;Turney,2002年;Akhtar等人,2016,2017;Mohammad等人,2013年)。相比之下,多模态情感分析由于Y ouTube、Instagram、Twitter、Facebook等众多社交媒体平台的巨大增长,最近得到了关注(陈等,2017;茯苓等,2016,2017d,b;扎德等人,2017年,2016年)等。这取决于可以从用于分析的多个模态(例如,文本、视觉和听觉)获得的信息。其动机是利用来自多个来源的各种(通常是不同的)信息来构建一个高效的系统。例如检测一句讽刺的话“我的邻居在家!!凌晨3点醒来很好。”是比较繁重的任务,仅考虑文本信息的负面影响。然而,如果系统可以访问其他信息源,例如视觉,它可以很容易地检测到说话者不愉快的手势,并将其归类为负面情绪极性。类似地,在某些情况下,声学特征如强度、音高、停顿等。对系统的正确性起着重要的作用。然而,以有效的方式组合这些信息是研究人员经常不得不面对的一项重要任务(扎德等人,2017;陈等,2017)。

视频为提取多模态信息提供了很好的来源。除了视觉框架之外,它还提供了口头语言的声学和文本表示等信息。此外,说话者可以在一个视频中说出多种话语,这些话语可以有不同的情感。话语的情感信息往往与其他语境话语相互依赖。以独立的方式对这样的话语进行分类对底层算法提出了许多挑战。

本文提出了一种基于递归神经网络的多模态多话语注意框架的情感预测方法。我们假设,将注意力应用于贡献的相邻话语和/或多模态表示可以帮助网络以更好的方式学习。多模态情感分析的主要挑战在于正确利用从多模态中提取的信息。虽然经常有人认为,纳入所有可用模式总是有利于提高性能,但必须指出,并非所有模式都发挥同等作用。

多模态框架的另一个问题是,一个模式中的噪声会影响整体性能。为了更好地解决这些问题,我们提出了一种新的融合方法,通过关注在目标话语和它的上下文之间计算的模态间关系。我们认为,在多模态情感分类中,不仅同一话语的两个模态之间的关系是重要的,而且跨语境的模态之间的相关性也是重要的。

想象一个由三种形式组成的话语Ut,比如at(即音频)、Vt(即视频)和Tt(即文本)。让我们也假设uk是由形式Ak,Vk和 Tk组成的语境话语的一员。在这种情况下,我们的模型计算Ut和 Uk的模态(例如,Vt和 Tk)之间的相关性,以便为最终分类产生更丰富的多模态表示。然后,注意力机制被用于关注与目标话语具有较高关联性或相似性(使用模态间相关性计算)的重要语境话语。

与以前简单地将注意力放在上下文话语上进行分类的方法不同,我们通过计算目标话语和上下文话语的模态之间的相关性来关注上下文话语。这明确地帮助我们区分相关语境话语的哪些模态对于目标话语的情感预测更重要。该模型通过关注上下文话语来促进这种模态选择,从而当来自上下文的这些模态与目标话语的模态相结合时,生成更好的多模态特征表示。我们在最近的两个基准数据集上评估了我们提出的方法,即CMU-MOSI(扎德等人,2016年)和CMUMOSEI(扎德等人,2018年c),其中一个是最大的(CMU-MOSEI)多模态情感分析可用数据集(联邦法规第4.1节)。评估表明,对于各种输入形式(即文本、视觉和听觉)的组合,所提出的注意框架获得了比最先进的系统更好的性能。

我们提出的工作的主要贡献有三个方面:a)我们提出了一种新的多模态情感分析技术;b)我们提出了一个有效的关注框架,该框架利用了跨多种模式的贡献特性用于相邻话语的情感分析;c)我们在两个不同的基准数据集上展示了用于情感分析的最先进的系统。

相关工作

对文献的调查表明,与基于文本的情感预测相比,多模态情感预测是一个相对较新的领域(Morency等人,2011;Mihalcea,2012年;茯苓等,2016,2017b扎德等人,2018年a)。涵盖从单模态分析到多模态分析的文献的良好综述在(茯苓等人,2017a)中给出。在(茯苓等人,2016)中提出了基于多核学习的融合技术的应用,其中他们使用深度卷积神经网络来提取文本特征,并将其与其他(视觉和听觉)模式融合以进行预测。

扎德等人(2016)引入了多模态词典,以更好地理解表达情感时面部手势和口语单词之间的相互作用。作者介绍了MOSI数据集,这是第一个能够研究多模态情感强度分析的数据集。扎德等人(2017)提出了一个张量融合网络模型来学习三种模态(即文本、视觉和听觉)的模态内和模态间动力学。他们报告了在CMU-MOSI数据集上使用多模态提高的精确度。在(陈等人,2017)中提出了一种利用具有时间注意的门控多模态嵌入式长短期记忆(-((A))进行多模态输入的词级融合的应用。门控多模态嵌入(GME)减轻了融合的困难,而具有时间注意力的LSTM(LSTM)执行词级融合。

上面提到的作品没有考虑上下文信息。茯苓等人(2017b)提出了一个基于LSTM的框架,该框架利用上下文信息来捕捉话语之间的相互依存关系。在另一项工作中,茯苓等人(2017d)提出了一个基于用户意见的框架,通过应用基于多核学习的方法来组合三种模态输入(即文本、视觉和听觉)。扎德等人(2018年a)提出了多注意模块(MAB)来捕获三种形式(文本、视觉和听觉)的信息。他们报告的准确度比不同数据集的最先进模型高出2-3%。

我们提出的方法和现有的工作之间的根本区别在于,我们的框架应用对相邻话语的关注来利用语境信息进行话语级情感预测。据我们所知,我们目前的工作是第一个尝试使用多模态注意块(利用相邻话语)进行情感预测的工作。我们使用多模态注意框架,该框架利用跨多模态和相邻话语的贡献特征进行情感分析

三、提出方法

在我们提出的框架中,我们旨在利用多模态和语境信息来预测话语的情感。视频中特定说话者的话语代表时间序列信息,并且合乎逻辑的是,特定话语的情感会影响其他相邻话语的情感。为了模拟相邻话语和多模态之间的关系,我们提出了一种基于递归神经网络的多模态注意框架。所提出的框架为一系列话语提取多模态信息(即文本、视觉和听觉),并将其输入三个独立的双向门控循环单元(GRU) (Cho等人,2014)。接下来是一个密集的(完全连接的)操作,在时间步或话语之间共享(文本、视觉和听觉各一个)。然后,我们对密集层的输出应用多模态注意(This is followed by a dense (fully-connected) operation which is shared across the time-steps or utterances (one each for text, visual & acoustic).)。目标是学习多种模态和话语之间的联合,并通过更多地关注这些来获得贡献特征。特别地,我们采用了双模态注意框架,其中注意函数被应用于两两模态的表示,即视觉-文本、文本-听觉和听觉-视觉。最后,成对关注的输出和表示被连接并传递到softmax层进行分类。我们称我们提出的架构为多模态多话语双模态注意框架。图1展示了所提出的MMMU-BA框架的总体架构。关于注意力计算的说明,请参见附录中的图3。
在这里插入图片描述在这里插入图片描述为了进行比较,我们还对提出的MMMU-BA框架的另外两个变体(即a)进行了实验。多模态单话语自我注意(MMU-SA)框架和b)。多话语自我注意框架。这些变体的体系结构在注意力计算模块方面有所不同,命名惯例“MMMU”、“MMU”或“MU”表示参与注意力计算的信息。例如,在MMMU-BA中,我们通过多模态和多话语输入计算注意力,而在MMU-SA中,注意力是通过多模态但单话语输入计算的。相比之下,我们只计算多话语输入的注意力。所有三个变体的其余组件保持不变。

3.1多模态多话语双模态注意框架(MMMU-BA)

假设一个特定的视频有“u”个话语,原始话语级别的多模态特征被表示为TR∈ Ru×300(原始文本)、VR∈ Ru×35(原始视觉)和AR∈ Ru×74(原始听觉)。具有前向和后向状态连接的三个分离的双GRU层首先被应用于紧接着完全连接的密集层,产生T ∈ Ru×d(文本)、V ∈ Ru×d(视觉)和A ∈ Ru×d(听觉),其中“d”是密集层中的神经元数量。最后,在三种模态的不同组合上计算成对注意(pairwiseattentions)。特别地,V和T之间的关注度计算如下:
Bi-modal Attention:双模注意:
V & T的情态表达是从双GRU网络中获得的,因此包含了每个情态的语境信息。首先,我们在两个表示上计算一对匹配矩阵M1,M2∈ Ru×u,这两个表示考虑了交叉模态信息。
在这里插入图片描述
多话语注意: Multi-Utterance Attention
如前所述,在提出的模型中,我们旨在利用每个话语的上下文信息进行预测。我们使用SoftMax函数计算双模注意矩阵M1 & m2的每个话语的概率分布分数(N1∈ Ru×u& N2∈ Ru×u)。这实质上是计算上下文句子的注意力权重。最后,在多模态多话语注意矩阵上应用软注意来计算模态注意表示(即O1& O2)。

在这里插入图片描述
Multiplicative Gating & Concatenation乘法门控和级联

最后,在每个单独模态的多模态话语特定表示和其他模态之间计算乘法选通函数跟随(Dhingra等人,2016)。这种元素式矩阵乘法有助于关注多种形式和话语的重要组成部分。
在这里插入图片描述
注意力矩阵A1和A2然后被连接以获得V和T之间的MMMU-BAVT∈Ru×2。
在这里插入图片描述
MMMU-BAAV& MMMU-BATAcomputations:

类似于MMMU-BAVT,我们按照同样的程序计算MMMU-BAA V& MMMUBATA。对于由原始视觉、听觉和文本模式组成的数据源,首先,我们计算每个组合的双模注意对,即MMMU-BAVT、MMMUBAA V和MMMU-BATA。最后,受剩余跳跃连接网络(residual skip connection network)的激励,我们将双模态注意力对与单个模态(即,垂直,A & T)连接起来,以增强到较低层的梯度流。然后,该串联特征用于最终分类。

3.2 Multi-Modal Uni-Utterance - Self Attention (MMUU-SA) Framework

MMU-SA框架在注意水平上不考虑来自其他话语的信息,而是利用单个话语的多模态信息来预测情感。对于具有“q”个话语的视频,需要“q”个单独的注意块,其中每个块计算单个话语的多模态信息上的自我注意。设Xup∈ R3×dis是相互作用的信息矩阵,其中三维行是三个模态的密集层的输出。对于句子p = 1,2,…q,会分别计算注意矩阵Aup∈R3×d。最后,对于每个话语p,Aup和 Xup被连接并传递到输出层进行分类。详情请参考附录。

3.3多话语自我注意框架Multi-Utterance - Self Attention (MU-SA) Framework

在MU-SA框架中,我们将自我注意分别应用于每种模态的话语,并以此进行分类。与话MMUU-SA不同,MU-SA在注意层面上利用话语的语境信息。设T ∈ Ru×d(文字)、V ∈ Ru×d(视觉)和A ∈ Ru×d(听觉)为密集层的输出。对于这三种模式,需要三个单独的注意模块,每个模块占用单一模态的多话语信息并计算自我注意矩阵。分别为(4声)文本、视觉和听觉计算注意矩阵At、Av和Aa。最后,将V、At、Aa、V、T & A连接起来,并传递到输出层进行分类。

四 数据集、实验和分析

在本节中,我们描述了用于实验的数据集,并报告了结果以及必要的分析。

4.1数据集
我们在两个基准数据集上评估了我们提出的方法,即CMU多模态意见水平情感强度(CMU-MOSI)语料库(扎德等人,2016)和最近发表的CMU多模态意见情感和情感强度(CMU-MOSEI)数据集(扎德等人,2018c)。CMU-MOSI数据集由跨越2199个话语的93个视频组成。每个话语都有一个与之相关的情感标签。它有52个、10个和31个培训、验证和测试视频,共1151个、296个和752个话语。

CMU-MOSEI拥有3229个视频,其中22676个话语来自1000多个在线YouTube用户。训练、验证和测试集分别由16216、1835和4625个话语组成。附录中提供了关于这些数据集的更多详细信息。CMU-MOSI数据集中的每个话语都被标注为正或负,而在CMU-莫塞数据集中,标注在-3到+3的连续范围内。然而,在本工作中,我们将CMU-MOSEI 的实例投影到一个两级分类设置中,其中值≥ 0表示积极情绪,值< 0表示消极情绪。我们采用这样的策略是为了与之前发表的关于CMU-MOSI数据集的作品保持一致
4.2特征提取

我们使用CMU-多模态数据SDK1(扎德等人,2018a)进行特征提取。对于MOSEI数据集,提供了单词级特征,其中文本特征由GloV e嵌入提取,视觉特征由Facets2提取,声学特征由CovaRep提取(Degottex等人,2014年)。计算话语中单词级特征的平均值,以获得话语级特征。
对于每个单词,特征向量的维数被设置为300(文本)、35(视觉)和74(听觉)。相比之下,对于MOSI数据集,我们使用了(茯苓等人,2017b)中提供的utterance-level features征。这些话语级特征分别表示用于文本、视觉和听觉模态的卷积神经网络(Karpathy等人,2014)、3D卷积神经网络(Ji等人,2013)和Open Smily(Eyben等人,2010)的输出。对于文本、视觉和听觉,话语级特征的维度分别为100、100和73。

4.3实验
我们评估了我们为CMUMOSI(测试数据)和CMU-莫塞(开发数据)4提出的方法。准确性分数用作评估指标。

我们使用有300个神经元的双向神经元组,每个神经元组后面有一个由100个神经元组成的稠密层。利用稠密层,我们将所有三个模态的输入特征投影( project)到相同的维度。我们将dropout设定为0.5 (MOSI)和0.3(MOSEI)作为正规化的衡量标准。此外,对于双GRU层,我们还使用dropout=0.4 (MOSI)和0.3(MOSEI))。我们在密集层使用ReLu激活函数,在最终分类层使用softmax激活为了训练网络,我们将批量设置为32,使用带有交叉熵损失函数的亚当优化器,并训练50个epoch。我们报告了所有实验5次运行的平均结果。

我们对文本、视觉和听觉输入的单模态(一次只采用一种模态)、双模态(一次采用任意两种模态)和三模态(一次采用所有三种模态)的所有有效组合进行实验。在多模态注意框架中,即MMMUBA和MMU-SA,注意力是在至少两种模态上计算的,因此,这两种框架不适用于表1中的单模态实验。
在这里插入图片描述对于MOSEI数据集,我们使用文本获得了更好的性能。随后,我们一次采用两种模式来构建双模输入,并将其馈送到网络。对于文本-声音输入对,我们获得了最高的准确率,MMMU-BA,MMUU-SA and MU-SA 分别为79.74%、79.60%和79.32%。我们从双模态组合获得的结果表明,文本-声学组合是比其他组合更好的选择,因为它提高了整体性能。最后,我们使用三模态输入进行实验,观察到MMMU-BA、MMU-SA和MU-SA框架的性能分别提高到了79.80%、79.76%和79.63%。这种改进意味着将所有三种模式结合起来是更好的选择。此外,性能改善在统计学上也比双数输入和单模态输入显著。此外,我们观察到MMMU-BA框架报告了79.80%的最佳准确性,从而支持了我们的主张,即多模态注意框架(即MMMU-BA)比自我注意框架(即MMU-SA & MU-SA)捕获更多的信息。
4.4注意力机制分析
我们分析关注值(attention values)以理解提出的体系结构的学习行为。为了说明,我们从CMU-MOSI测试数据集中选取了一个示例视频。这个特殊视频的文字记录在表2中。
在这里插入图片描述我们发现,所提出的三模态模型(MMMU-BA)能够正确地预测所有九个实例的标签,而其他模型至少会有一个错误分类。对于提出的三模态MMMU-BA模型,图2a、图2b和图2c分别说明了视觉-文本、听觉-视觉和文本-听觉的成对MMMU-BA最大注意力权重N1和N2的热图。N1和N2是从成对匹配矩阵M1& M2获得的softmax attention weights。N1和N2矩阵行的元素表示多个句子的不同权重。从注意力热图来看,很明显,通过在上下文话语和模态之间应用不同的权重,该模型能够正确地预测所有话语的标签。

在这里插入图片描述所有的热图都证明了该模型学习了多模态和多话语信息,因此能够正确预测所有话语的标签。例如,MMMU-BAVT的热图(图2a)表示N1的元素权重高于N2,因此该模型将更多的注意力放在文本部分,而相对较少的注意力放在视觉部分(因为N1乘以T & N2乘以V)。此外,可以得出结论,与其余的文本特征和视觉特征相比,前几个话语的文本特征是最有帮助的。

三模态MU-SA模型中文本(Nt)、视觉(Nv)和听觉(Na)的最大注意权重分别如图2d、图2e和图2f所示。注意力矩阵是9*9维的。这个模型错误地预测了话语u5的标签。另一方面,三模态MMU-SA模型中的softmax注意力权重如图2g所示。九个独立的注意力权重(Nu1,Nu2,…Nu9)是为九个发音计算的。这个模型错误地预测了u4和u5的标签。
在这里插入图片描述在这里插入图片描述我们进一步分析了我们提出的体系结构(即MMMU-BA),有无注意。在MOSI,对于三模态输入,MMMU-BA架构报告在没有注意框架的情况下,准确率降低了80.89%,而在有注意的情况下,准确率为82.31%。我们在MOSEI数据集中观察到类似的性能,我们获得了79.02%的准确率,而有注意框架时的准确性为79.80%。统计检验显示这些改进是显著的。我们还观察到两个数据集中双模输入的相似趋势。所有这些实验(见表3)表明,注意力框架是我们提出的体系结构中的一个重要组成部分,如果没有这一点,网络会发现在所有情况下(即双模和三模输入设置)学习都更加困难。
在这里插入图片描述我们成功地证明了在模态组合(即双模注意框架)上的注意计算比在单一模态上的自我注意组合更有效。为了进一步完善所提出的方法,我们还实验了三模态注意框架(一次在三个模态上计算注意力)。虽然我们得到的结果令人信服,但它并没有提高双模态注意框架的性能。对于三模态注意框架,我们在MOSEI和MOSI上分别获得了79.58%和81.25%的准确率。

4.5比较分析
对于MOSI数据集,我们比较了我们提出的方法与以下最先进的系统的性能。茯苓等人(2017b)基于LSTM的序列模型来捕获话语的上下文信息;ii)。茯苓等(2017c)-张量水平融合技术结合所有三种模式;iii)。陈等(2017)-一种具有时间注意的门控多模态嵌入式(-((A))用于多模态输入的词级融合。和iv)。扎德等人(2018年a)-通过三种模式捕捉信息的多个注意块。

在表4中,我们展示了我们提出的模型和其他最先进的系统之间的比较性能。在MOSI数据集,茯苓使用三模态输入,报告的准确度分别为80.3%和81.3 %。扎德等人(2018年a)获得了& 77.4%的准确度。陈等人(2017年)报告其模型的两个变量的准确率分别为75.7%((A))和76.5%(-((A))。与最先进的系统相比,当我们使用所有三种模态,即文本、视觉和听觉时,我们提出的模型获得了82.31%的改进精度。与最先进的双模输入相比,我们提出的系统也获得了更好的性能。
在这里插入图片描述对于MOSEI数据集,我们针对以下系统进行评估:1)茯苓等人(2017b),2)扎德等人(2018a),3)扎德等人(2018b),其中作者提出了一个用于多视图顺序学习的记忆融合网络。我们对茯苓等人(2017b)的系统进行了评估,在三模态输入下获得了77.64%的准确率。作者在(扎德等人,2018年a)和(扎德等人,2018年b)中报告了三模态输入的准确率分别为76.0%和76.4%。相比之下,我们提出的方法的准确率为79.80%。如表4所报告的,与茯苓等人(2017b)相比,所提出的方法对于所有双模和单模输入组合也获得了更好的性能。

如表4所示,我们观察到,与p值< 0.05(使用T测试获得)的最先进系统相比,我们提出的方法获得的性能明显更好。为了进一步分析,我们还在表7中报告了针对MOSEI数据集的三类分类(正、中和负类)问题设置的结果。请注意,这种设置在MOSI是不可行的,因为标签只有阳性或阴性。

4.6误差分析

我们使用所有三个输入源对我们提出的MMMU-BA模型的预测进行误差分析。表5展示了两个数据集的混淆矩阵。
在这里插入图片描述
对于MOSEI数据集,我们观察到正类的精度和召回率(84%的精度和88%的召回率;非常令人鼓舞。然而,对于负类来说,同样的情况相对较低(68%的准确率和58%的召回率)。相比之下,对于相对平衡的MOSI数据集,我们获得了两个类非常相似的性能,即正(86%精度和85%召回率)和负(77%精度和75%召回率)。不同输入组合的PR曲线见附录。

我们进一步定性分析了我们的输出,并在表6中列出了一些常见的错误类别和例子。
在这里插入图片描述

五、结论

在本文中,我们提出了一个基于递归神经网络的多模态注意框架,该框架利用上下文信息进行话语级别的情感预测。网络学习基于三种形式,即。文字,视觉和听觉,考虑到视频中的句子序列,通过对两个基准数据集(一个是流行的和常用的(MOSI)数据集,另一个是最新的和最大的(最大的)多模态情感分析数据集)的评估结果,我们成功地表明所提出的基于注意力的框架比各种最先进的系统表现得更好。今后,我们将研究新技术,探索处理含蓄情绪和讽刺的方法。未来的工作方向还包括增加更多的维度,例如情绪分析和强度预测。

生词短语

Please refer to the appendix for more details详情请参考附录
evaluation metric评估标准
project投影

  相关解决方案