Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision_综合

学习人脸反欺骗的深度模型：二进制或辅助监控

摘要

人脸反欺骗是防止人脸识别系统的安全漏洞的关键。以往的深度学习方法将人脸反欺骗表述为一个二值分类问题。他们中的许多人很难掌握足够的欺骗线索，因而无法进行有效的归纳。在本文中，我们认为辅助监督对于引导朝着区分性和普遍性限线索的学习的很重要。利用CNN-RNN模型对人脸深度进行像素监督估计对rPPG信号进行序列监督评估。估计深度和rPPG信号被融合来区分真实和恶搞的面孔。此外，我们引入了一个新的人脸抗欺骗数据库，该数据库覆盖了大范围的照明、主题和姿态变化。试验表明，该模型在数据库内和跨数据库测试中都达到了最先进的结果。

介绍

生物识别系统广泛的应用于手机解锁、门禁、安全等领域，人脸识别是目前最受欢饮高度一种生物识别方式。当人脸识别系统越来越受欢迎的的时候，攻击者也出现了面部欺骗（例如演示攻击，PA），并试图作为真正的用户进行身份验证。人脸PA包括在智商呢打印人脸（打印攻击）、在数字设备上回放人脸视频（重放攻击）、戴口罩（面罩攻击）等。为了对抗PA，人脸抗欺骗技术被开发用于在人脸图像被识别之前检测PA。因此，人脸抗欺骗对于确保人脸识别系统对PA的鲁棒性和使用的安全性至关重要。
RGB图像和视频是人脸抗欺骗系统的便准输出，类似于人脸识别系统。研究人员通过将手工制作的调整输入二进制分类器来开始基于纹理的抗欺骗方法。后来在深度学习时代，几种卷积神经网络（CNN）方法被利用。

图1

图1所示。传统的基于CNN的人脸反欺骗方法利用二进制监督，考虑到CNN庞大的求解空间，可能会导致过拟合。本研究利用深度图和rPPG信号这两种复制信息作为超视觉，设计了一种新的网络架构，以改善推理过程中的泛化和可解释决策。

softmax损失函数作为监督。几乎所有之前的工作都将面部防欺骗的问题仅仅看作一个二进制（实时 vs 欺骗）分类问题。

用二进制监督学习深度反欺骗模型有两个主要问题。首先，存在不同程度的图像退化，即欺骗模式，是将欺骗面孔与真实面孔进行比较，包括皮肤尾部损失，颜色失真，莫尔条纹，形状变形?和欺骗伪像（例如反射）。损失了softmax的CNN可能会发现能够将两种类别分开的任意线索，例如屏幕边框，但不能发现忠实的欺骗模式。当这些提示在测试期间消失时，这些模型将无法区分欺骗与活动面孔，从而导致泛化不力。其次，在测试期间，通过二进制监督学习的模型将仅生成二进制决策，而没有解释或决策依据。在追求可解释的人工智能时，希望学习的模型生成支持最终二进制决策的欺骗模式。

为了能够解决这些问题，如图1 所示，我们提出了一个深度模型，该模型使用了来自时空辅助信息的监控。而不是二值监督，以实现在脸部视频中的人脸PA的鲁棒检测。这些辅助信息是根据我们对真人面孔和恶搞面孔关键区别的领域知识获取的，包括两个方面：空间和时间。从空间的角度来看，众所周知，人脸面部深度，例如：鼻子比正面视图中的脸颊更靠近相机，而打印或重放攻击中的脸部具有平坦或平面的深度，例如，纸像上的所有像素都与相机具有相同的深度。因此深度可以作为辅助信息来监督真人和恶搞脸。从时间的角度来看，正常的rPPG信号（如心跳信号），可以从实时的面部视频中检测到，但不能从恶搞假图中识别到。因此，我们提供不同的rPPG信号作为辅助监督，引导网络分别从live和spoof人脸视频中学习。为了实现这两种监控功能，我们设计一种网络架构，通过快速连接来捕获不同的尺度，并设计了一种新的，非刚性配准层来处理rPPG估计中的运动和姿态变化。

此外，与许都视觉问题类似，数据在抗欺骗模型的训练中扮演着重要的角色。正如我们所知道的，相机/屏幕的质量是一个衡量真假脸的关键影响因素。现有的MUAA、CASIA、重播攻击、MSU-MFSD等人脸抗欺骗数据库采集于3-5年前。鉴于消费电子产品的快速发展，用于手机数据的设备类型（如相机和欺骗介质）在分辨率和城乡质量方面与现在的设备相比已经过时。最近的MSU-USSA和OULU数据库的受试者在姿势、光照、表情方面的变化更少。由于缺乏必要的变化，很难学习一种有效的模型。考虑到对更高级数据库的明显需求，我们收集了一个面部防欺骗数据库，在野生数据库（SIW）中名为spoof。SiW数据库由165个主题、6个欺骗媒介和4个会话组成，涵盖了诸如饼图、距离相机等变化。SiW涵盖了比以往的数据库更大的变化。本工作的主要共享包括：

我们提出利用新颖的辅助信息（即深度图和rPPG）来监督CNN学习，以提高泛化能力。
我们提出了一个新颖的CNN-RNN端到端架构学习深度图和rPPG信号。
我们发布了一个新的数据库i，包含变化的派，和其他实际的因素。我们实现了最先进的面部抗欺骗性能。

前人工作

我们从三个方面回顾了以往的人脸抗欺骗方法：基于纹理的方法、基于时间的方法和远程的光体积描摹方法。

**基于纹理的方法：**由于大多数人脸识别系统只采用RGB摄像头，使用纹理信息一成为解决人脸抗欺骗的自然之法。之前的很多研究成功都是利用手工制作的特征。如LBP、HoG、SIFT, SURF,以及SVM，LDA等传统的分类器。为了克服光照变化的影响，他们在不同的输入域寻找解决方案，如HSV和YCbCr颜色空间，傅里叶谱。
随着深度学习在许多计算机视觉问题上被证明是有效的，最近有许多人尝试使用基于CNN的特征或CNNs来对抗欺骗干扰。大部分的工作是利用softmax损失将人脸防欺骗作为一个简单的二值分类问题。如[30,37]使用CNN作为特征提取器，对imagenet预训练的CaffeNet和vggo-face进行微调。【20，30】的工作将不同设计的人脸图像输入CNN，如多尺度的人脸和手工制作的特征，并直接将live和spoof进行分类。与我们相似的一项先前的工作是【5】，其中atoum等人提出了一种使用纹理和深度的基于CNN 的双蒸汽抗欺骗的方法。我们在许多方面对【5】进行了改进，包括融合和时间监督，即更精细的架构设计，新颖的非刚性配准层，以及全面的实验支持。抗欺骗干扰最早的解决方案之一是基于可见线索，如眼睛闪烁。诸如【26，42】等方法通过跟踪嘴和嘴唇的运动来检测面部活性。虽然这些方法对典型的纸攻击有效，但当攻击者出现重放攻击或眼睛/嘴巴被挖出的纸攻击时，它们就变得脆弱。

还有一些方法依赖于更一般的时间特征，而不是特定的面部运动。最常见的方法是框架连接。许多手工制作的基于特征的方法可以通过

-----------------------未完待续----------------------------------------------

结论

本文确定了辅助监管对基于深度模型的人脸反欺骗的重要性。拟议的网络结合了CNN和RNN架构，以共同估计面部图像的深度和面部视频的rPPG信号。我们介绍了SiW数据库，其中包含比以前的数据库更多的主题和变化。最后，我们通过实验证明了我们方法的优越性。

翻译自论文：https://openaccess.thecvf.com/content_cvpr_2018/papers/Liu_Learning_Deep_Models_CVPR_2018_paper.pdf