On the Detection of Digital Face Manipulation
文章目录
- Introduction
- Innovation
- Method
-
- Attention-based Layer
-
- Manipulation Appearance Model
- Direct Regression
- Loss Functions
- Experiment
-
- Benefit of Attention map
- Forgery Detection Results
- Manipulation Localization Results
- Inverse Intersection Non-Containment(IINC)
Introduction
随着先进的面部合成和面部处理方法的出现,新型的伪造人脸正在被创造出来,它们在社交媒体中的使用引起了人们的极大关注。借鉴于数字认证表明真实图像在高频域的“指纹”信息使得摄像机认证成为可能,那么在伪造图像中,高频信息也会一定程度上反映伪造算法的一些特性。这使得图像级别的伪造检测成为可能。
由于人脸伪造图像的修改可以是整个图像或者某个区域,本文假设一个经过很好训练的网络能够通过不同区域的空间信息来判定人脸是否被篡改。并且对伪造区域的预测能够帮助模型将关注重点区域信息,从而提升检测效果。
为此,本文提出多任务学习模型,在检测伪造图片的同时,对图像中的伪造区域进行定位。文中采用注意力机制,通过训练学习得到的attention map来定位伪造区域,并且通过伪造区域的强化进一步提升分类结果。
同时,本文首次推出一种多类别伪造人脸数据集Diverse Fake Face Datasets (DFFD)。主要包括:Identity swap, Expression swap, attribute Manipulation,entire synthesized faces四种人脸伪造方式。
Innovation
- 推出首个包含多种人脸伪造类型的数据集。
- 采用multi-task的方式同时对图像进行伪造检测和获取伪造区域。
- 采用Attention机制生成attention map,对待检测图像的伪造区域进行定位。
- 提出逆交叉非包容Inverse Intersection Non- Containment(IINC)度量标准,用于评估attention map与GT的一致性,与现有的度量(IoU等)相比更加稳定准确。
Method
模型整体结构如下图所示,重点在于attention模块的设计。
Attention-based Layer
为保证注意力机制的模块化,本文以网络backbone提取的feature map(FFF)为注意力模块的输入,通过注意力模块生成attention map(MattM_{att}Matt?),并将attention map与输入feature map的sigmoid点乘获得注意力模块的输出(F′F'F′),并以此输出为特征进行最终的伪造分类。如下式所示:
Matt=Φ(F)(1)M_{att} = \Phi(F) \tag{1} Matt?=Φ(F)(1)
F′=F⊙Matt(2)F' = F \odot M_{att} \tag{2} F′=F⊙Matt?(2)
为此,本文提出两中attention map生成机制,分别为Manipulation Appearance Model(MAM)和Direct Regression。
Manipulation Appearance Model
本文假设任何伪造特征图都可以表示为一组特征图原型的线性组合:
Matt=M?+A?α(3)M_{att} = \overline{M} + A \cdot \alpha \tag{3} Matt?=M+A?α(3)
其中M?\overline{M}M和AAA分别为预定义的伪造平均特征图和偏移量。
因此对于给定的训练图像,其attention map的生成就转化为预测对应的权重向量α\alphaα。这种方式的优点有两种:首先,这限制了attention map估计的解空间。其次,降低了注意力估计的复杂性,更利于泛化。
Direct Regression
在这种方式下,attention map的生成直接利用多层卷积网络来自动生成。实验表明,该方式简单却有效。
Loss Functions
模型的整体损失可表示为:
L=Lclassifier+λ?Lmap(4)L = L_{classifier} + \lambda * L_{map} \tag{4} L=Lclassifier?+λ?Lmap?(4)
对于attention map的学习,我们考虑三种不同的方法:监督、弱监督和无监督。分别对应式5-7:
Lmap=∥Matt?Mgt∥1(5)L_{map} = \|M_{att} - M_{gt}\|_1 \tag{5} Lmap?=∥Matt??Mgt?∥1?(5)
真实图像为全零,完全生成的伪造图像为全一。部分伪造的则通过伪造图像与其对应的原始图像像素作差,并转化为灰度图和归一化处理。
Lmap={∣Sigmoid(Matt)?0∣if real∣max(Sigmoid(Matt))?0.75∣if fake(6)L_{map}=\left\{\begin{matrix} \left | Sigmoid(M_{att})-0 \right| & \text{if real} \\ \left | max(Sigmoid(M_{att}))-0.75 \right| & \text{if fake} \end{matrix}\right. \tag{6} Lmap?={
∣Sigmoid(Matt?)?0∣∣max(Sigmoid(Matt?))?0.75∣?if realif fake?(6)
在弱监督模式下,对于假图像,无论整体或部分操作,我们希望整个attention map的最大值应该足够大,实验数据设置为为0.75。
λ=0(7)\lambda =0 \tag{7} λ=0(7)
所提出的注意模块还可以在不需要地图监督的情况下训练网络,仅在图像级分类监督下,attention map自动学习信息区域。
Experiment
Benefit of Attention map
其中“-map”表示伪造检测结果通过生成的attention map判断。结果表明,attention map在面部伪造检测任务中具有自身的价值。
Forgery Detection Results
Manipulation Localization Results
Inverse Intersection Non-Containment(IINC)
文中提出了一种新的评价attention map的指标,即IINC。其计算如下式所示:
{0ifMgt?=0andMatt?=01ifMgt?=0xorMatt?=0(2?∣I∣∣Matt∣?∣I∣∣Mgt∣)otherwise(8)\left\{\begin{matrix} 0 & if \ \ \overline{M_{gt}}=0 \ \ and \ \ \overline{M_{att}}=0 \\ 1 & if \ \ \overline{M_{gt}}=0 \ \ xor \ \ \overline{M_{att}}=0 \\ (2-\frac{\left| I \right|}{\left| M_{att} \right|}-\frac{\left| I \right|}{\left| M_{gt} \right|}) & \text{otherwise} \end{matrix}\right. \tag{8} ??????01(2?∣Matt?∣∣I∣??∣Mgt?∣∣I∣?)?if Mgt??=0 and Matt??=0if Mgt??=0 xor Matt??=0otherwise?(8)