预备知识
因果图
?作者采用珀尔的图形模型,其中有向边表示两个节点变量之间的因果关系。下图显示了所提出的CiiV\mathrm{CiiV}CiiV框架的因果图,其中RRR、CCC、XXX、YYY分别表示的是采样、扰动、图像和预测。X←C→YX \leftarrow C \rightarrow YX←C→Y表示的是有一个共同的扰动CCC去影响XXX和YYY的分布。X→YX \rightarrow YX→Y表示的是希望有一个稳健的预测模型能够学习因果关系。
因果干预
?因果干预的最终目标是通过移除所有虚假的相关性来识别X→YX \rightarrow YX→Y的因果效应,表示为P(Y∣do(X=x))P(Y|do(X=x))P(Y∣do(X=x))。它被定义为d?d-d?分离,通过观察扰动因素可以阻断虚假路径,给定C=cC=cC=c,路径X←C→YX \leftarrow C \rightarrow YX←C→Y被阻断。
工具变量
?有效的工具变量应满足以下两点:(1)它独立于扰动变量;(2)只能通过XXX影响YYY,因此工具变量可以帮助从R→X→YR \rightarrow X \rightarrow YR→X→Y中提取出X→YX \rightarrow YX→Y的因果效应。
论文方法
对抗攻击的因果观
?在因果关系中,XXX对YYY的总效应和因果效应可以分别定义为P(Y∣X)P(Y |X)P(Y∣X)、P(Y∣do(X=x))P(Y |do(X = x))P(Y∣do(X=x))。一般的对抗攻击可以表述为在攻击范围扰动D?D_{\epsilon}D??内最大化篡改预测的概率Y=yˉY=\bar{y}Y=yˉ?,具体表达式表示为max?δ∈D?P(Y=yˉ∣X=x+δ)∝∑iyˉilog?(efi(x+δ)∑jefi(x+δ))\max\limits_{\delta \in \mathcal{D}_{\epsilon}} P(Y=\bar{y}|X=x+\delta)\propto \sum\limits_{i} \bar{y}_i\log (\frac{e^{f_i(x+\delta)}}{\sum\limits_{j}e^{f_i(x+\delta)}})δ∈D??max?P(Y=yˉ?∣X=x+δ)∝i∑?yˉ?i?log(j∑?efi?(x+δ)efi?(x+δ)?)其中δ\deltaδ表示的是添加到干净图片xxx中的对抗扰动。fi(?)f_i(\cdot)fi?(?)和fj(?)f_j(\cdot)fj?(?)表示的是类别iii和jjj的深度学习模型的输出,yˉ\bar{y}yˉ?和y′(y′≠y)y^{\prime}(y^{\prime}\ne y)y′(y′??=y)为有目标攻击,yˉ=?y\bar{y}=-yyˉ?=?y为无目标攻击,D?\mathcal{D}_{\epsilon}D??中最流行的定义是半径?\epsilon?内l2/l∞l_2/l_{\infty}l2?/l∞?范数下的封闭球。对抗扰动集合D?\mathcal{D}_{\epsilon}D??需要保留语义模式(即对抗扰动δ\deltaδ不能改变因果特征),所以P(Y∣do(X=x))P(Y|do(X=x))P(Y∣do(X=x))保持不变。P(Y∣X)P(Y |X)P(Y∣X)朝Y=yY = yY=y的优化对抗攻击方向优化实际上会使篡改混淆效应最大化。所有的攻击包括基于梯度的攻击、无梯度的攻击和物理的攻击,都可以看作是上图 (a)。通过最大化扰动X←C→YX \leftarrow C \rightarrow YX←C→Y,从而达到攻击的效果
对抗防御的因果观
?由于输入图像XXX中的未知和未观察到的扰动CCC,直接为P(Y∣do(X=x))P(Y |do(X = x))P(Y∣do(X=x))调整CCC是不切实际的。所有现存的对抗防御方法都可以被视为要么消除了C→XC \rightarrow XC→X之间的依赖性,要么破坏了C→YC \rightarrow YC→Y之间的相关性大致可以归纳为以下五类。
- 对抗训练:如上图(b)所示,对抗训练及其变体使用对抗样本X=x+δX = x + \deltaX=x+δ去训练模型使得模型更加具有更好的鲁棒性,能够抵御对抗样本的攻击。只要推理攻击方法与用于生成训练样本的攻击相似,就可以防止被篡改的对抗扰动δ\deltaδ改变原来的Y=yY=yY=y,从而阻断C→?YC \not \rightarrow YC??→Y。
- 数据增强:数据增强通过丰富数据分布从而增强模型的鲁棒性。Mixup\mathrm{Mixup}Mixup通过用不同(x,y)(x,y)(x,y)对的线性组合来增加训练样本来增强深度模型的对抗鲁棒性,迫使对分类的影响与扰动的大小成比例(即小的对抗扰动δ\deltaδ仅引起很少的误分类效应)。如上图(c)所示,它破坏了C→YC \rightarrow YC→Y之间的联系。但是,数据增强并不能列举出所有抵御对抗扰动因素的数据,因此像PGD\mathrm{PGD}PGD这样的强大攻击可以轻松击败Mixup\mathrm{Mixup}Mixup模型。
- 生成分类器:代替直接从样本XXX预测为标签YYY,防御者基于生成分类器试图找到哪个特定的类别y=iy = iy=i可以生成最有可能的输入样本xxx。VAE\mathrm{VAE}VAE为每个类别y=iy = iy=i生成样本xix_ixi?,然后基于最高联合概率p(xi,y)p(x_i,y)p(xi?,y)预测YYY。虽然生成的图像将破坏C→?XC \not \rightarrow XC??→X的因果特征,但是它们的计算开销随着类别的数量线性增加,像ImageNet这样的大规模数据集下对于这种方法是不切实际的。
- 降噪:如上图(e)所示,去噪方法采用预训练网络或内部网络结构,以防止对抗攻击影响最终预测。预训练网络去噪方法通常进行不可微变换来去除噪声C→?XC \not \rightarrow XC??→X。网络内去噪方法净化了特征图,去除了网络C→?YC \not \rightarrow YC??→Y内的虚假相关性,然而它们中的大多数必须与对抗训练相结合以实现可靠的鲁棒性。
- 认证防御:与因果干预最典型和相关的方法是随机平滑法。通过引入一个更大的高斯噪声来实现了对l2l_2l2?范数对抗扰动的可证明的鲁棒性。
工具变量估计
?为了说明工具变量的使用,作者设计了两个因果图,如下图所示,其中每个节点都是一维变量,扰动因子CCC从正态分布N(0,1)N(0,1)N(0,1)中采样,RRR是工具变量,所有因果联系都可以用表示为w?w_{*}w??的线性权重建模。模型预测的总体效果可以表述为P(Y∣X)∝wxyx+wcycP(Y|X) \propto w_{xy}x+w_{cy}cP(Y∣X)∝wxy?x+wcy?c因为xxx依赖于未知的扰动因子如x=wcxc+hx=w_{cx}c+hx=wcx?c+h,其中hhh是xxx的原因。作者不能简单地通过观察(X,Y)(X,Y)(X,Y)对来直接估计因果效应P(Y∣do(X=x))∝wxyxP(Y|do(X=x))\propto w_{xy}xP(Y∣do(X=x))∝wxy?x。如果CCC是可以观察到的,因果干预可以使用后门调整进行指导:P(y∣do(x))=∑cP(y∣x,c)P(c)P(y|do(x))=\sum_{c}P(y|x,c)P(c)P(y∣do(x))=∑c?P(y∣x,c)P(c)。因此,因果效应是根据观察到的总效应来估计:P(Y∣do(X=x))∝wxyx+wcy∑cc?p(c)=wxyxP(Y|do(X=x))\propto w_{xy}x+w_{cy}\sum\limits_{c}c\cdot p(c)=w_{xy}xP(Y∣do(X=x))∝wxy?x+wcy?c∑?c?p(c)=wxy?x其中∑cc?p(c)=0\sum_c c \cdot p(c)=0∑c?c?p(c)=0,并且ccc从高斯分布N(0,1)\mathcal{N}(0,1)N(0,1)中进行采样。
?如果CCC难以察觉的,如下图(b)所示,工具变量RRR被引入,其中XXX被CCC和RRR操作为x=wcxc+wrxr+hx=w_{cx}c+w_{rx}r+hx=wcx?c+wrx?r+hwrxwxyw_{rx}w_{xy}wrx?wxy?通过访问(r,x,y)(r,x,y)(r,x,y)三元组可以联合估计为wryw_{ry}wry?。P(Y∣do(X=x))P(Y|do(X=x))P(Y∣do(X=x))是在不知道CCC的情况下获得的,如下所示:P(Y∣do(X=x))∝wrx?1wryx=wxyxP(Y|do(X=x))\propto w^{-1}_{rx}w_{ry}x=w_{xy}xP(Y∣do(X=x))∝wrx?1?wry?x=wxy?x其中wrx?1w^{-1}_{rx}wrx?1?是根据(r,x)(r,x)(r,x)估算出来的。在工具变量估计的帮助下,无论线性模型中是否有CCC的知识,因果干预都可以同等地进行。
论文方法CiiV\mathrm{CiiV}CiiV
?CiiV\mathrm{CiiV}CiiV框架由两部分组成,分别是因果效应估计和最小化渐近方差的一致损失。作者使用函数grx(?)g_{rx}(\cdot)grx?(?)和gry(?)g_{ry}(\cdot)gry?(?)来表示广义的wrxw_{rx}wrx?和wryw_{ry}wry?。