当前位置: 代码迷 >> 综合 >> 论文:Deep Face Recognition: A Survey——Mei Wang, Weihong Deng
  详细解决方案

论文:Deep Face Recognition: A Survey——Mei Wang, Weihong Deng

热度:57   发布时间:2024-02-28 22:58:23.0

前些天看了一篇名字同样为《Deep Face Recognition: A Survey》的文章,为了区别,这篇文章特意标明了作者。我对自己比较感兴趣的地方进行了摘抄。
本文主要分为4个部分:
(a)网络结构和损失函数;
(b)数据处理方法和数据集;
(c)人脸识别的一些应用场景;
(d)现有挑战和发展方向。

下图是人脸识别的方法的大概回顾,揭示了该领域向深度学习发展的过程。
在这里插入图片描述

深度学习方法的大致流程如下:
在这里插入图片描述
首先经过人脸探测,然后进行对齐,反欺骗,人脸处理,最后是深度人脸识别。
1)人脸探测的目的是获取存在人脸的图像。
2)关于这个对齐,文中指出了一些我们可以参考的文献。
3)反欺骗是为了避免不同类型的攻击。
4)人脸处理这部分是有必要的,因为姿态、光照、表情和咬合等各种情况仍然会影响深度人脸识别模型的表现。主要可以分为两个处理方案:一个做法是“一到多”——从单张照片生成若干不同姿势的变体;另外的做法是“多到一”——将多个非正面图像合成为一个正面图像。
5)网络结构有两个主要分为主干网络或者集成网络,损失函数方面。SoftMax作为分类网络使用的函数,不适用于人脸识别网络,因为同一个张脸的变体间的内部差异可能要大于不同人之间的外部差异,所以损失函数经过了一些改进,网络结构和损失函数统计如图:
在这里插入图片描述
总结的图片如下:
在这里插入图片描述

(a)网络结构和损失函数
损失函数的发展如下图所示:
在这里插入图片描述
主干网络的发展历程如下(第一行是物体识别网络,第二行是人脸识别网络):
在这里插入图片描述
轻量级网络,自适应结构的网络,连接对准识别网络(端对端处理对准和识别两个任务)
集成网络可以分为多输入网络和多任务网络。多输入网络可以在数据增强的情景下使用,多个子网络分别提取不同的输入的特征,然后集成在一起;多任务网络的思路是:将识别任务从其他影响因素如光照,姿势中剥离出来。
在获得了足够优秀的特征提取器之后,需要将提取出来的特征进行匹配。在匹配部分,通常是用 L2 或者余弦距离来确定特征向量的相似度,此外也有一些其他的做法。

(b)用于训练和识别的脸部处理
按照时间线统计方法如下:
在这里插入图片描述
按照前面所说的“一到多”和“多到一”分类来看,可以分为以下几种:
“一到多”增强方法可以进一步被分为四类:数据增强,三维模型,自编码器模型和GAN模型。“多到一”规范化方法可以进一步分为三类:自编码器模型,CNN模型和GAN模型。
1)“一到多”之数据增强:
常用的数据增强方法包括光度变换[75]、[22]和几何变换,如图像的过采样(不同尺度的裁剪获得多个斑块)[22]、镜像[153]和旋转[154]。Liu等人[58]生成了以人脸区域不同地标为中心的7个重叠图像块,并用7个结构相同的cnn对其进行训练。
2)“一到多”之三维模型:
三维人脸重建也是丰富训练数据多样性的一种方法。他们利用三维结构信息建模姿态之间的转换。三维模型首先利用三维人脸数据获取形变位移场,然后利用形变位移场获取不同位姿角度下的二维人脸数据。
3)“一到多”之自编码器模型:
不同于三维模型的做法(利用二维图像重建三维模型,然后将其投影到不同姿态的二维图像中),自编码器模型可以直接生成二维目标图像。以一张人脸图像和编码目标姿态的姿态码作为输入,编码器首先学习与姿势无关的人脸表示,然后,解码器使用姿态无关表示和姿态码生成目标姿态处观察到的具有相同身份的人脸图像。
4)“一到多”之GAN模型:
利用三维模型生成轮廓人脸图像,DA-GAN [56]通过GAN对图像进行了改动,GAN结合了对数据分布的先验知识。
5)“多到一”之自编码器模型:
与一对多增强的自编码器模型借助位姿编码生成所需的位姿图像不同,这里的自编码器学习了姿态无关的人脸表示,并通过不需要位姿编码的解码器直接对人脸进行归一化。
6)“多到一”之CNN模型:
CNN模型通常直接学习非正面人脸图像和正面图像之间的二维映射,并利用这些映射在像素空间中对图像进行归一化。
7)“多到一”之GAN模型:
GAN也可以用于“多到一”的标准化过程。

(b)人脸数据库和评估标准
人脸数据集的一些罗列如下:
在这里插入图片描述
在这里插入图片描述
这些大型的训练集从深度或广度上进行了扩展。VGGface2提供了一个大规模的深度训练数据集,该数据集的受试者数量有限,但每个受试者都有很多图像。数据集的深度强制训练模型处理范围广泛的类内变化,如光线、年龄和姿态。相比之下,MS-Celeb-1M和Mageface (Challenge 2)提供了广度上的大规模训练数据集,其中包含许多受试者,但每个受试者的图像有限。数据集的广度保证了训练后的模型能够充分地覆盖各种人的可变外貌。
值得注意的是,这些数据集是有倾向的。举例来说,由于收集数据的时候是通过抓取谷歌网站上的图片,所以选择的多是:微笑的,化妆的,年轻的,美丽的,这会导致用这种数据集训练出来的模型繁华性不高,也就是说一旦数据分布变化了,其效能会降低。即使是同一个数据集内部,不同分类之间的样本个数也有区别,所以模型的表现也有区别,如图:
在这里插入图片描述
在这里插入图片描述
在了解任务评估和评价指标之前,我们需要搞清楚一些关键词。人脸验证(face verification)是
计算图库之间的一对一相似度,以确定是否两个图像是同一对象;人脸识别计算一对多的相似度来确定所测人脸的具体身份。当所测的人脸出现在图库中,这称为封闭集识别;如果测试对象包括那些不在图库中的人,这就是开放集识别。
在人脸验证中,经典的测量方法是使用受试者的工作特性(ROC)和估计平均准确度(Acc)。在一个给定的阈值(自变量),ROC分析测量真实接受率(TAR),它是正样本正确超过阈值的部分,以及虚假接受率(FAR),它是负样本比较中错误超过阈值的部分。
封闭集识别中,Rank-N是基于受试者的搜索返回其在图库中的对应图像在k排名的结果中的百分比。CMC(cumulative match characteristic,累计匹配特征曲线 )曲线报告了在给定排名(自变量)内被识别的受试者的百分比。
由于隐私问题,公众数据集大多是从名人的照片中收集的,跟日常生活中的场景相去甚远。为了研究不同的具体场景,相应构建更困难、更真实的数据集。根据其特点,我们将这些场景分为四类:跨因素人脸识别、异质性人脸识别、多/单媒体人脸识别和工业人脸识别,如图:
在这里插入图片描述
1)跨因素人脸识别:
由于面部外观是复杂的非线性的,有些变化是由人自己引起的,如姿势、跨年龄、化妆、伪装等。
2)异质性人脸识别:
它指的是在不同的视觉域匹配人脸的问题。视觉域差距主要是由感官设备和相机设置造成的,例如可见光与近红外,照片与素描。
3)多/单媒体人脸识别:
有时,训练集中每个人的图像数量可能非常小。此外,可以对测试集中的每个被试人脸加入一组图像和视频,进行集对集识别。(不太明白)
4)工业人脸识别:
虽然深度人脸识别在一些标准上已经超过了人类的性能,但在工业上采用深度人脸识别时,相对于精度,需要更多地关注一些其他因素,比如抗攻击和三维情形。相对于公开的二维人脸数据库,三维扫描难以获取,且在公开的三维人脸数据库中,扫描对象和扫描对象的数量仍然有限,阻碍了三维深度扫描的发展。

(c)深度学习的多种识别场景
···跨因素人脸识别有跨姿势,跨年龄,还有化妆的识别。
1)跨姿势:
如[182]所示,许多现有算法从正脸-正脸验证到正脸-侧脸验证下降了超过10%,跨姿势FR仍然是一个极具挑战性的场景。除了上述方法之外,还包括一对多的增强、多对一的归一化和组合网络,还有一些其他的算法设计跨姿势的的人脸识别。Cao等[215]尝试在深度特征空间而不是图像空间进行正面化。一个深度残差等变映射(DREAM)块*(注意,残差的使用)*动态地添加残差到一个输入表示将一个侧面转换为一个正面图像。Chen等人[216]提出将特征提取与多视点空间学习相结合,同时使特征具有更强的姿态鲁棒性和识别性。位姿不变模型(Pose Invariant Model, PIM)[217]端到端联合进行人脸的正面化和学习的位姿不变表示,使二者相互促进,并进一步引入无监督跨域对抗训练和学习学习策略,提供高保真的正面参考人脸图像。
2)跨年龄:
跨年龄FR是非常具有挑战性的,因为随着时间的推移,随着年龄的增长,面部外观会发生变化。一种直接的方法是将期望的图像与目标年龄进行合成,这样就可以在同一年龄群体中进行识别。[218]使用生成概率模型来模拟每个短期阶段的面部衰老过程。解决交叉年龄问题的另一种方法是分别分解老化和标识组件,并提取年龄不变的表示。在[193]中,年龄不变特征是通过年龄估计任务从表征中减去年龄特异性因素得到的。
3)化妆:
Li等人[208]通过双层对抗网络(BLAN)从化妆图像中生成非化妆图像,然后使用合成的非化妆图像进行验证,如图所示。
在这里插入图片描述
还有一些遮挡物,比如假发,胡须,帽子等,也会带来挑战。

···异质性人脸识别包括:可见光-红外线识别,低分辨率识别,照片-素描识别。
1)可见光-红外线识别:
Saxena等人[235]和Liu等人[236]通过微调将可见光深度网络转移到近红外域。也有反过来的。
2)低分辨率识别:
虽然深度网络对低分辨率有很大的鲁棒性,但目前仍有一些研究关注于提高低分辨率FR的性能。
3)照片-素描识别:
素描草图可以帮助执法人员迅速识别嫌疑人。照片-素描识别大概可以分成两类:第一类是利用迁移学习直接匹配照片和素描草图;第二类是利用图像转换将照片转为草图或者草图转为照片。

···多/单媒体人脸识别包括:小样本识别,基于集合/模板的识别,视频识别。
1)小样本识别:
小样本情况下的人脸识别通常有两条路可选:合成训练数据,或者学习到更为强大的特征。Hong等人[249]使用3D人脸模型生成各种姿态的图像,并采用深度域自适应处理其他变化,如模糊、遮挡和表情。如图:
在这里插入图片描述
2)基于集合/模板的识别:
与传统的图像到图像识别不同,集对集识别以集合(包含图像和视频的异构内容)作为最小的表示单位。在学习了每个集合中媒体的人脸表示后,通常采用两种策略进行集对集匹配。一种是利用这些表示对两个集合进行两两相似度比较,并通过max score pooling[96]、average score pooling[252]及其变体[253]、[254]将结果聚合为单个最终得分。另一种策略是特征池化[96], [103], [81],首先将每个集合的面表示聚合为单个表示,然后在两个集合之间进行比较。
3)视频识别:
视频识别的两个关键问题是:一是将不同帧间的信息整合在一起,构建视频人脸的表示;二是处理严重模糊、姿态变化和遮挡的视频帧。对于帧聚合,Yang等人[83]提出了一种神经聚合网络(NAN),其中的聚合模块由两个由记忆驱动的注意块组成,生成一个128维的向量表示。

···工业识别包括:三维人脸识别,部分人脸识别,面向移动设备的人脸识别,脸部抗攻击,去倾向识别。
1)三维人脸识别:
与二维方法相比,三维深度FR具有固有的优势,但由于缺少大量的带注释的三维数据,三维深度FR发展得并不好。为了扩大三维训练数据集,大多数研究采用一对多增强的方法合成三维人脸。然而,提取三维人脸深度特征的有效方法还有待探索。
2)部分人脸识别:
He等[261]将对齐后的人脸图像分割成多个多尺度的小块,将两个局部人脸图像之间的不相似度作为对应小块之间的L2距离加权计算。
3)面向移动设备的人脸识别:
随着手机、平板电脑和增强现实技术的出现,人脸识别已经在移动设备上得到了应用。由于计算能力的限制,这些设备中的识别任务需要轻量而及时地执行。
4)脸部抗攻击:
随着人脸识别技术的成功,各种类型的攻击,如脸部欺骗和对抗性干扰,正成为巨大的威胁。面部欺骗是指通过打印照片、戴上口罩、甚至是显示在其他电子设备上的图像向生物识别传感器呈现一张假脸。对抗式扰动是另一种攻击,它可以定义为最小向量r的加法,这样当这个向量加到输入图像x时,即(x + r),深度学习模型会错误地分类输入,而人类不会。
5)去倾向识别:
在前文中提到了数据集中存在各种各样的倾向。为了解决这个问题,有一些研究试图在人脸识别中引入公平性,并减轻人口统计学上的偏差。非均衡训练[283]、属性去除[284]、[285]、[286]和域适应[173]、[287]、[147])。非均衡训练方法通过模型正则化,考虑到整体模型目标函数中的公平性目标来缓解偏差。属性去除方法通过混淆或去除人脸的人口统计信息来学习属性不变表示。域适应方法提出从域自适应的角度研究数据偏差问题,并尝试设计域不变特征表示来减轻跨域的偏差。

(d)技术挑战
现有的挑战包括:
1)安全问题
2)保护隐私的人脸识别
3)理解深层脸部识别
尽管有了进展,许多基本问题仍然是开放的,例如什么是身份的深度表征[301]?为什么深层神经网络,而不是人类,很容易被敌对的样本欺骗?
4)非饱和基准数据集导致的挑战
对于数据集和算法,在未来的研究中有必要测量和解决深度人脸识别的种族/性别/年龄偏差。
5)跨应用和场景的人脸识别
6)追求极致的准确性和效率
7)融合的问题
人脸识别本身还远远不能解决所有的生物识别和法医任务,比如辨别同卵双胞胎和手术前后的人脸匹配[302]。一个可靠的解决方法是整合多个来源的生物特征证据[303]。这些信息源可能对应于不同的生物特征(例如,脸+手[304])、传感器(例如,2D + 3D面部摄像机)、特征提取和匹配技术,或实例(例如,各种姿态的面部序列)。在数据层、特征层、评分层、等级层和决策层进行信息融合,有利于人脸生物识别和法医应用[305]。

  相关解决方案