Adversarial Visual Robustness by Causal Intervention_综合

预备知识

因果图

?作者采用珀尔的图形模型，其中有向边表示两个节点变量之间的因果关系。下图显示了所提出的 $CiiV\mathrm{CiiV}$ 框架的因果图，其中 $R$ 、 $C$ 、 $X$ 、 $Y$ 分别表示的是采样、扰动、图像和预测。 $\leftarrow C \rightarrow Y$ 表示的是有一个共同的扰动 $C$ 去影响 $X$ 和 $Y$ 的分布。 $\rightarrow Y$ 表示的是希望有一个稳健的预测模型能够学习因果关系。
在这里插入图片描述

因果干预

?因果干预的最终目标是通过移除所有虚假的相关性来识别 $\rightarrow Y$ 的因果效应，表示为 $P (Y ∣ d o (X = x))$ 。它被定义为 $d ?$ 分离，通过观察扰动因素可以阻断虚假路径，给定 $C = c$ ，路径 $\leftarrow C \rightarrow Y$ 被阻断。

工具变量

?有效的工具变量应满足以下两点：（1）它独立于扰动变量；（2）只能通过 $X$ 影响 $Y$ ，因此工具变量可以帮助从 $\rightarrow X \rightarrow Y$ 中提取出 $\rightarrow Y$ 的因果效应。

论文方法

对抗攻击的因果观

在这里插入图片描述
?在因果关系中， $X$ 对 $Y$ 的总效应和因果效应可以分别定义为 $P (Y ∣ X)$ 、 $P (Y ∣ d o (X = x))$ 。一般的对抗攻击可以表述为在攻击范围扰动 $D?D_{\epsilon}$ 内最大化篡改预测的概率 $Y=yˉY=\bar{y}$ ，具体表达式表示为 $max?δ∈D?P(Y=yˉ∣X=x+δ)∝∑iyˉilog?(efi(x+δ)∑jefi(x+δ))\max\limits_{\delta \in \mathcal{D}_{\epsilon}} P(Y=\bar{y}|X=x+\delta)\propto \sum\limits_{i} \bar{y}_i\log (\frac{e^{f_i(x+\delta)}}{\sum\limits_{j}e^{f_i(x+\delta)}})$ 其中 $δ\delta$ 表示的是添加到干净图片 $x$ 中的对抗扰动。 $fi(?)f_i(\cdot)$ 和 $fj(?)f_j(\cdot)$ 表示的是类别 $i$ 和 $j$ 的深度学习模型的输出， $yˉ\bar{y}$ 和 $y′(y′≠y)y^{\prime}(y^{\prime}\ne y)$ 为有目标攻击， $yˉ=?y\bar{y}=-y$ 为无目标攻击， $D?\mathcal{D}_{\epsilon}$ 中最流行的定义是半径 $?\epsilon$ 内 $l2/l∞l_2/l_{\infty}$ 范数下的封闭球。对抗扰动集合 $D?\mathcal{D}_{\epsilon}$ 需要保留语义模式（即对抗扰动 $δ\delta$ 不能改变因果特征），所以 $P (Y ∣ d o (X = x))$ 保持不变。 $P (Y ∣ X)$ 朝 $Y = y$ 的优化对抗攻击方向优化实际上会使篡改混淆效应最大化。所有的攻击包括基于梯度的攻击、无梯度的攻击和物理的攻击，都可以看作是上图 (a)。通过最大化扰动 $\leftarrow C \rightarrow Y$ ，从而达到攻击的效果

对抗防御的因果观

?由于输入图像 $X$ 中的未知和未观察到的扰动 $C$ ，直接为 $P (Y ∣ d o (X = x))$ 调整 $C$ 是不切实际的。所有现存的对抗防御方法都可以被视为要么消除了 $\rightarrow X$ 之间的依赖性，要么破坏了 $\rightarrow Y$ 之间的相关性大致可以归纳为以下五类。

对抗训练：如上图（b）所示，对抗训练及其变体使用对抗样本 $\delta$ 去训练模型使得模型更加具有更好的鲁棒性，能够抵御对抗样本的攻击。只要推理攻击方法与用于生成训练样本的攻击相似，就可以防止被篡改的对抗扰动 $δ\delta$ 改变原来的 $Y = y$ ，从而阻断 $\not \rightarrow Y$ 。
数据增强：数据增强通过丰富数据分布从而增强模型的鲁棒性。 $Mixup\mathrm{Mixup}$ 通过用不同 $(x, y)$ 对的线性组合来增加训练样本来增强深度模型的对抗鲁棒性，迫使对分类的影响与扰动的大小成比例（即小的对抗扰动 $δ\delta$ 仅引起很少的误分类效应）。如上图（c）所示，它破坏了 $\rightarrow Y$ 之间的联系。但是，数据增强并不能列举出所有抵御对抗扰动因素的数据，因此像 $PGD\mathrm{PGD}$ 这样的强大攻击可以轻松击败 $Mixup\mathrm{Mixup}$ 模型。
生成分类器：代替直接从样本 $X$ 预测为标签 $Y$ ，防御者基于生成分类器试图找到哪个特定的类别 $y = i$ 可以生成最有可能的输入样本 $x$ 。 $VAE\mathrm{VAE}$ 为每个类别 $y = i$ 生成样本 $x_i$ ，然后基于最高联合概率 $p(x_i,y)$ 预测 $Y$ 。虽然生成的图像将破坏 $\not \rightarrow X$ 的因果特征，但是它们的计算开销随着类别的数量线性增加，像ImageNet这样的大规模数据集下对于这种方法是不切实际的。
降噪：如上图（e）所示，去噪方法采用预训练网络或内部网络结构，以防止对抗攻击影响最终预测。预训练网络去噪方法通常进行不可微变换来去除噪声 $\not \rightarrow X$ 。网络内去噪方法净化了特征图，去除了网络 $\not \rightarrow Y$ 内的虚假相关性，然而它们中的大多数必须与对抗训练相结合以实现可靠的鲁棒性。
认证防御：与因果干预最典型和相关的方法是随机平滑法。通过引入一个更大的高斯噪声来实现了对 $l_2$ 范数对抗扰动的可证明的鲁棒性。

工具变量估计

?为了说明工具变量的使用，作者设计了两个因果图，如下图所示，其中每个节点都是一维变量，扰动因子 $C$ 从正态分布 $N (0, 1)$ 中采样， $R$ 是工具变量，所有因果联系都可以用表示为 $w_{*}$ 的线性权重建模。模型预测的总体效果可以表述为 $\propto w_{xy}x+w_{cy}c$ 因为 $x$ 依赖于未知的扰动因子如 $x=w_{cx}c+h$ ，其中 $h$ 是 $x$ 的原因。作者不能简单地通过观察 $(X, Y)$ 对来直接估计因果效应 $P(Y∣do(X=x))∝wxyxP(Y|do(X=x))\propto w_{xy}x$ 。如果 $C$ 是可以观察到的，因果干预可以使用后门调整进行指导： $P(y∣do(x))=∑cP(y∣x,c)P(c)P(y|do(x))=\sum_{c}P(y|x,c)P(c)$ 。因此，因果效应是根据观察到的总效应来估计： $P(Y∣do(X=x))∝wxyx+wcy∑cc?p(c)=wxyxP(Y|do(X=x))\propto w_{xy}x+w_{cy}\sum\limits_{c}c\cdot p(c)=w_{xy}x$ 其中 $∑cc?p(c)=0\sum_c c \cdot p(c)=0$ ，并且 $c$ 从高斯分布 $N(0,1)\mathcal{N}(0,1)$ 中进行采样。
?如果 $C$ 难以察觉的，如下图（b）所示，工具变量 $R$ 被引入，其中 $X$ 被 $C$ 和 $R$ 操作为 $x=w_{cx}c+w_{rx}r+h$ $w_{rx}w_{xy}$ 通过访问 $(r, x, y)$ 三元组可以联合估计为 $w_{ry}$ 。 $P (Y ∣ d o (X = x))$ 是在不知道 $C$ 的情况下获得的，如下所示： $P(Y∣do(X=x))∝wrx?1wryx=wxyxP(Y|do(X=x))\propto w^{-1}_{rx}w_{ry}x=w_{xy}x$ 其中 $wrx?1w^{-1}_{rx}$ 是根据 $(r, x)$ 估算出来的。在工具变量估计的帮助下，无论线性模型中是否有 $C$ 的知识，因果干预都可以同等地进行。
在这里插入图片描述

论文方法 $CiiV\mathrm{CiiV}$

? $CiiV\mathrm{CiiV}$ 框架由两部分组成，分别是因果效应估计和最小化渐近方差的一致损失。作者使用函数 $grx(?)g_{rx}(\cdot)$ 和 $gry(?)g_{ry}(\cdot)$ 来表示广义的 $w_{rx}$ 和 $w_{ry}$ 。

Adversarial Visual Robustness by Causal Intervention