当前位置: 代码迷 >> 综合 >> 论文翻译(8)---A Neural Micro-Expression Recognizer
  详细解决方案

论文翻译(8)---A Neural Micro-Expression Recognizer

热度:38   发布时间:2024-03-09 05:57:56.0

一种神经微表情识别器
论文+源代码地址
链接:https://pan.baidu.com/s/1lKEOWG75sg57J0z7lTr3lw
提取码:yysi

github地址:https://github.com/xiaobaishu0097/MEGC2019

摘要

识别微表情是重要和批判性研究和重要应用的基础,我们推测,这个问题需要了解细微的人脸运动,整合人脸结构,以及有限训练数据的解决方案。在本文中,我们构建了一个有效的微表情识别系统,该系统利用了来自这些推测的技术。首先,我们引入一种基于起始帧和顶点帧的光流方法来编码细微的人脸运动。这已经被先前的研究证实了。其次,为了从刚性人脸结构中获得有区别的表示,提出了基于局部平均池的方法将结构先验注入到网络中。具体来说,我们采用了两种领域适应技术,包括对抗训练和表情放大和缩小(EMR)。实验表明,该系统在第二届微表情大赛(MEGC)上取得了非常有竞争力的成绩。

一.引言

微表情(ME)是1/25秒内细微的肌肉运动。除了表情较短之外,微表情更有可能是应用场景中被抑制的表情。与有意识的表情相比,微表情更容易反映真实的感受和动机。微表情识别的研究成果可以应用于国家安全、临床诊断、司法系统和政治选举等领域。由于ME持续时间短,面部肌肉运动强度低,所以MER非常具有挑战性。这些挑战意味着人类在微表情识别方面的表现仍然处于相当低的水平。因此,设计有效的微表情自动识别系统非常重要。

MER的早期工作主要集中在从微表情视频剪辑中提取手工特征。例如,具有三个正交平面的局部二进制模式[2]提取与动态纹理相关的区别特征。在文献[1]中将其作为微表情识别任务中的特征描述符,并被广泛用作该领域的基线方法。还研究了具有积分投影(STLBP-IP) [3]和区分时空LBP (DSLBP) [4]的LBP-TOP类时空LBP的其他变体。

光流可以提取具有代表性的运动特征,这些特征对于面部纹理的多样性是鲁棒的。光流估计可以用来丰富除RGB通道之外的输入[5]。其他工作认为光流是一种基于光流的其他手工特征的数据预处理步骤。例如,MDMO(多学科设计优化方法)[15]计算定向光流矢量以从感兴趣区域形成直方图,这对于微表情识别是有区分性的。通过累积光流的导数,双加权定向光流(Bi-WOOF) [6]利用光学应变生成加权直方图,该直方图可用于识别微表情。

最近,运动放大被用来显著提高微表情识别任务的准确性。作为一种数据处理方法,MAG放大了原始微表情视频剪辑的运动特征。一些工作[14]、[7]、[15]显示通过引入MAG而提高了识别精度。

深度神经网络在包括微表情识别在内的许多领域都表现出了对特征提取和分类的竞争学习能力。双时间尺度卷积神经网络[8]在CASME 1和CASME 2数据集上应用三维神经网络模型[17]。时空递归卷积网络(STRCN)通过使用具有递归连接的CNNs来模拟时空运动变形和细微变化[14]。然而,深度方法受到训练样本不足的影响。即使结合三个微表情数据集,样本总数也不超过500个。因此,为微表情识别任务设计特定的迁移学习技术是值得的,以便计算机视觉领域中的其他面部数据集可以有助于微表情识别。

此外,标准化和裁剪的面部中的眼睛、眉毛、鼻子和嘴的运动信息是高度结构化的,并且与表情相关。以往的研究没有关注微表情的这些局部细节,而是将从整个人脸提取的特征馈入分类器。

为了解决上述问题,本文提出了一种基于局部的深度神经网络,采用了两种域自适应技术(对立域自适应和运动放大与缩小)。我们的深度方法可以自动学习提取与面部相关的区别特征。此外,这两种域自适应技术有助于丰富可用的训练样本。我们的竞赛代码可在https://github.com/xiaobaishu0097/MEGC2019.获得

二、方法

A.再处理
记录微表情的视频片段包含许多与面部表情无关的自然场景中的变化,例如背景和头部姿势。为了最小化这种不相关特征的负面影响,我们介绍了以下数据预处理步骤:
①OpenCV预先训练的HOG和线性SVM物体检测器用于检测人脸区域
②我们利用[23]中的方法来识别上述面部区域中的面部标志,该方法已经在dilb库中实现。
③通过使用OpenCV内置的面部对齐算法,我们基于面部标志获得了面部的归一化旋转、平移和缩放表示。

B运动特征提取
微表情特征与面部区域的细微运动高度相关。我们使用光流方法提取运动特征。为了降低计算成本,选取微表情片段的起始帧和顶点帧来计算光流,光流与原始的两个视频帧具有相同的图像大小。开始帧是第一帧,顶点帧与其他视频帧相比具有最大的运动。

Resnet [10]可以通过监督学习提取有区别的图像表示。我们选择Resnet18作为光流编码器的主干,基于ImageNet2012数据集的预训练权重作为初始化。

C.基于零件的分类( Part-Based Classification)
输入源中的局部细节包含有区别的信息。因此,智能系统需要在识别任务中注意局部细节的能力。PCB方法[16]将卷积神经网络主干中的特征映射分成几个子张量。然后,他们使用平均池和1*1卷积对每个子张量进行降维,以获得基于部分的特征向量。最后,多个分类器基于相应的特征向量进行分类训练。基于零件的(part-based )机制在个人重新识别任务中取得了竞争性的结果。受此启发,我们将从我们提出的特征编码器的最后一个卷积层提取的特征图分成顶部和底部,分别对眼睛区域和嘴巴区域更具代表性。平均池化和分类的两个单独分支应用于上述两个子张量。同时,我们用第三个全连接层将两个分支中第一个完全连接层的输出连接成一个向量来执行表情识别分类任务。基于零件的机制的细节如图1所示。
在这里插入图片描述D.监督域适应

由于微表情识别任务的样本量很小,我们通过引入宏观表情识别任务(CK+)[11]来应用领域自适应。我们手动将原始宏表情标签分类到与目标域相同的标签空间中(MEGC2019挑战),以便它们可以在共享模型中执行监督训练。

我们为微表情域和宏表情域提出了一种称为表情放大和缩小的域适应技术。我们假设微表情的顶点是宏表情不可避免的中间过程。选取宏表情视频剪辑的开始帧和顶点帧之间的中间帧。我们称这一步为宏表情约简(macro-expression reduction)。为了最大化微表情和宏表情之间的相似性,我们还执行微表情放大。运动放大(MAG)放大细微的运动,广泛用于微表情识别任务[14],[15],以提高识别精度。我们利用麻省理工学院欧拉视频放大(EVM)的开放实现来放大微观表达。如图2所示,作为EMR(Expres-sion Magnification and Reduction (EMR))的结果,宏观表达和微观表达的强度的相似性增加。此外,为了弥合源域和目标域之间的数据分布差距,基于对抗的域自适应技术近年来被广泛研究以获得域不变特征[12],[13]。我们使用分类器的最后一个全连接层的输入作为鉴别器的输入,鉴别器由两个全连接层组成。模型结构如图3所示

在这里插入图片描述在这里插入图片描述

E.整个系统的学习目标
我们把Lt、Lb当作是图1中顶部和底部分支的分类损失。图3中级联特征向量的分类损失和对抗损失称为Lc和 Ladv。总之,整个系统的总体学习目标是将以下损失函数最小化:
在这里插入图片描述
在这里插入图片描述

基于该目标函数,通过反向传播来更新模型参数。

三.实验

A数据集
本次挑战使用了三个自发的面部微表情数据集:CASME II [17]数据集、SAMM [18]、[19]数据集和SMIC [20]数据集。为了将组成单个数据集并执行统一的评估指标,所有三个数据集中的情感分类标签都被适当地映射到一个公共的简化子集,包括否定、肯定和惊奇。这一合并的数据集包括来自68名受试者的442个样本(145个来自中亚、中东和非洲第二次会议,133个来自SAMM,164个来自SMIC)(24个来自中亚、中东和非洲第二次会议,28个来自SAMM,16个来自SMIC)。还引入了CK+数据集来实现域自适应。CK+包括327个带有表情标签的视频剪辑,也可以重新标记为上述三个标签。

B.评估指标
“留一被试法”交叉验证用于保证每个样本独立评估。因此,执行了68个训练和测试程序。由于标签分布不均衡,本文将未加权F1-score (UF1)和未加权平均召回率(UAR)作为性能度量,以避免所提出的方法对某个类别的过拟合。给定每个C类(总共C类)超过68倍的真阳性(TPc)、假阳性(FPc)和假阴性(FNc),UF1可计算为:
在这里插入图片描述C.结果和分析
基于MEGC2019官方评估指标的LOSO实验结果如表一所示,根据表一,基于部分的模型加上情绪放大和识别(EMR)显著优于基线方法LBPTop。三个数据集的未加权F1评分(UF1)和未加权平均回忆(UAR)分别达到0.7663和0.7531,而LBP-TOP的未加权F1评分和未加权平均回忆分别仅为0.5882和0.5785。如果我们额外采用对抗域适应机制,UF1和UAR在复合数据集上都可以提高20个百分点以上。因此,领域自适应技术对于小数据集的微表情识别任务至关重要。在复合数据集的每个单独部分上,所提出的方法也优于基线方法。更具体地说,表1最后一行中的系统包含了我们提出的所有技术,在SMIC数据集和SAMM数据集上的UF1和UAR上都获得了更好的结果。然而,对抗机制在CASME II数据集上没有显示出相同的有效性。这种不一致可能是由于微表情数据集中训练样本不足造成的。因此,探索更好的迁移学习技术对于进一步开展针对微表情识别任务的工作至关重要。

在这里插入图片描述

结论

本文提出了一种神经微表情识别器来解决小数据集下的微表情识别任务。基于部分的模型和两个领域适应技术是我们的主要贡献。基于部分的模型迫使编码器学习专注于面部局部运动的表示,这对于表情重新连接是有区别的。对立域自适应有助于提取微表情数据集和宏表情数据集之间的跨域不变特征。运动放大和缩小缩小缩小了两类表情之间的分布差距。LOSO实验结果表明,在2nd Micro-Expression大挑战(MEGC)中,我们提出的方法可以在每个数据集上获得更高的UF1。

生词短语

underpin巩固;支持;从下面支撑;加强…的基础
be applied to areas such as national security, clinicaldiagnosis, the judicial system, and political elections 国家安全、临床诊断、司法系统和政治选举等领域
integral Projection 积分投影
derivatives导数
Oriented Optical Flow定向光流
weighted histograms加权直方图
deformation变形
normalized rotation, translation, and scale representation 归一化旋转、平移和缩放表示
Eulerian Video Magnification (EVM)欧拉视频放大(EVM)
Massachusetts Institute of Technology (MIT) 麻省理工学院
to bridge the data distribution gap between为了弥补以下之间的数据分布差距
concatenated feature vector级联特征向量
unified evaluation metric统一评估指标

  相关解决方案