摘要
这篇文章研究的场景是针对只对目标模型有API接口,但是接触不到模型内部信息的黑盒攻击,并且对于API的每次查询都是很昂贵的。之前对于黑盒的对抗攻击包括以下两种:1)使用白盒攻击的手段来转换,寻找对抗样本。2)使用基于优化optimization的攻击。作者提出了hybrid attack,可以同时结合这两种策略。
Introduction
以往的黑盒攻击主要包括两种:一种是transfer attack,就是攻击者先在本地模型上使用白盒攻击来产生对抗样本,然后再将这种对抗样本迁移transfer到目标模型上。虽然这种transfer attack只需要对目标模型执行一次查询query就行,但是不能保证白盒攻击产生的样本可以迁移到目标模型上。这种transfer loss迁移损失会很大,尤其是对于有目标攻击来说,这种损失会更大。另一种是optimization loss优化损失,这种方法是将攻击看作是一个黑盒的优化问题,但是需要对目标模型执行很多次查询。这种方式可以保证攻击效果,但是查询的次数过多。
相关工作
(1)优化攻击
基于优化的攻击指的是,通过定义一个目标函数,并且迭代性的往输入中添加扰动从而对于目标函数进行优化。优化攻击分为两种,一种是通过对目标模型不断的执行查询从而估计目标函数的梯度,另一种是不需要对目标函数的梯度进行估计。这两种优化攻击都是需要通过对目标模型进行查询从而获得整个的预测分数,但是还有一些情况下只能通过查询得到输入对应的标签预测值。下面就对这三种基于优化的黑盒攻击做相应的介绍:
1)基于梯度的优化攻击
基于梯度的黑盒攻击需要对于目标模型的梯度进行估计,在得到目标模型的梯度信息后,再使用这些梯度信息来执行标准的白盒攻击。有几种基于梯度的优化攻击及其对比如下:
首先是ZOO这种攻击方法,它首先会通过使用有限差分方法来对于目标模型的梯度值进行估计,然后再用这个估计的梯度来执行CW白盒攻击。这种方法需要执行成百上千次的迭代,并且在每次CW迭代的时候都需要执行2D次的查询,这里的D指的就是维度。而对于更大的图片数据集,这种查询甚至会更多(在ImageNet上可能需要超过2M次的查询)
之后,又有很多的研究者寻找更多的可以有效减少查询次数的方法。有人提出通过对于特征进行分组或者是通过使用PCA主成分分析来估计梯度,从而降低查询次数。之后又有人提出AutoZOOM攻击,通过使用两点的基于随机向量的方法来将每次执行CW迭代的查询次数从2D降到了2,并且没有损失很多的精度。NES攻击方法则使用了一个自然进化策略(natural evolution strategy)从而对于梯度进行估计,并且在之后使用PGD白盒攻击方法。
之后的Bandits attack攻击方法将时间和数据依赖信息加入到NES攻击中。之后的SignHunter使用分治法来估计梯度,查询次数进一步减少。
在本文的研究中,是采用了AutoZOOM和NES作为黑盒攻击的SOA代表进行研究。
2)不基于梯度的攻击(gradient-free)
也有很多的研究者寻找基于搜索(search-based)的黑盒攻击,不采用基于梯度的方法而是使用启发式方法,这种方法也被称作为gradient-free的攻击方法。使用启发式的黑盒攻击方法,在查询效率方面比不上基于梯度的黑盒攻击方法。之后又有人提出一个本地的邻居搜索策略,每一次迭代都可以找到一个最重要的像素点。但是因为这些方法的查询效率都比不上基于梯度的方法,所以本文实验中不会对这部分的攻击方法进行讨论。
下面是几种gradient-free的黑盒攻击方法。首先是Sim-BA方法通过在预先已经定义好的正交向量的基础上添加或者是拿掉一些随机向量从而产生对抗样本。NAttack是已经得到一个对抗样本的概率分布,然后不断的搜索从而得到相应的对抗样本。these attacks became available after we started our experiments, so are not included in our experiments.(这句话没有理解清楚,不知道是什么意思。)但是,本文提出的hybrid attack方法可能会提高这些黑盒攻击方法的效果,因为本文提出的hybrid attack方法就是通过产生一个优化攻击的初始点,然后再执行优化攻击。
3)受限的黑盒攻击(Restricted Black-box Attack)
前面介绍的两种优化攻击方法都是基于可以获得黑盒模型的完整预测分数。但是在很多情况下,我们只能得到前面的几个分数最高的置信度分数或者甚至可能只能得到一个输出标签值。在这种情况下,攻击者只能逐渐地将自己的类别值往目标的标签值上去靠。Brendel就提出了一种只是基于标签的方法,首先从一个目标类别开始,然后执行random walk随机游走,从而游走到想要的预测结果。但是这种随机游走往往需要很多次的查询。之后很多人也在尝试一些方法来减少查询次数。
在本文的研究中,是假定攻击者可以获得完整的预测分数结果。但是作者认为自己的方法hybrid attack也是会提高这种类型的黑盒攻击的效果。因为作者认为自己的方法只是为后面的黑盒攻击产生一个比较好的初始点,方法是独立于后面的黑盒攻击的,所以不管后面的黑盒攻击方法是怎样的,都应该是有效的。
(2)迁移攻击(transfer attack)
攻击者一般都会在本地模型上通过训练找到一个对抗样本,并且将其迁移transfer到目标模型上。大部分工作都假定攻击者可以获得类似于目标模型的数据的训练数据,或者是可以得到有相似数据分布的预训练模型。一些工作是直接得到预训练的本地模型从而不需要对目标模型做查询,而另一些工作是需要对目标模型进行查询得到数据的查询结果,然后再训练本地模型,这也被叫做是替代模型。虽然迁移攻击所使用的查询次数会比较少,但是它的攻击成功率不高。另一种迁移攻击的思路是通过不断提升本地模型的白盒攻击从而提高迁移率(transferability)。本文不会使用这些方法。
contribution
以往的工作是分别对这两种攻击方法进行分别的研究,但是没有人将这两种攻击结合起来,研究这两种攻击的联系。作者通过寻找这两个攻击的联系,发现可以将迁移transfer的候选框作为optimization attack的初始点。对于MNIST和CIFAR10数据集而言,hybrid attack可以减少超过75%的查询;对于ImageNet而言,hybrid attack可以获得100%的攻击成功率。
Hybrid Attack
(1)Threat Model
作者假设攻击者可以得到目标模型的预训练模型。这个预训练模型是很容易可以得到的,只需要获得相似的训练数据以及对目标模型的架构architecture有所了解就行。在迁移transfer attack中,大家普遍认为的假设就是攻击者是可以得到目标模型的预训练模型的(这个可以理解,就是要先对预训练模型做白盒攻击,然后再将对抗样本迁移到目标模型上。)也有一部分替代训练的工作是假定攻击者只能获得少量的训练数据,但是这种就只适用于很小的数据集。
假设
(1)作者假定,攻击者可以获得跟目标模型任务相同的本地预训练模型(这个也是迁移攻击的基本假设)。只要知道目标模型的训练数据(替换攻击),或者是知道目标模型的模型结构就可以获得跟目标模型类似的本地模型预训练模型。(但是这个假设会不会太强了,这还符合黑盒攻击的要求吗??都已经知道目标模型的结构还算黑盒攻击?)
(2)比起原始的seed种子,本地的对抗样本可以更好的作为优化攻击的初始点,并且可以产生比较好的效果。之前有研究表明,对于相同的分类任务而言,不同的模型会有相似的决策边界。因此,作者假定,虽然本地模型产生的候选的对抗样本不能完全的迁移到目标模型上,但是这部分初始的对抗样本可以更接近最终的目标区域,所以可以获得更好的效果。
(3)在优化攻击中学习到的标签可以反过来被用来微调本地模型。作者假设,通过优化攻击得到的查询结果可以可以包含更丰富的目标决策边界的信息。而在优化攻击中得到的带标签的输入又可以被用来对于本地模型进行微调,从而提高本地模型的迁移率(transferability)。
(4)本地模型中获得的梯度信息同时可以很好的校正目标模型中估计得到的梯度结果。(因为本文用的优化攻击方法是基于梯度的黑盒优化攻击,需要对目标模型中的梯度信息进行估计,所以这里提到,本地模型产生的梯度信息可以帮助估计目标模型的梯度。)
对于上面的第四个假设,作者自己也表示还没有找到佐证的证据来证明。但是之前有研究者研究发现,本地模型和目标模型的梯度是相互正交的。作者也做了MNIST和CIFAR10的实验,通过对这两个目标模型的本地模型实施白盒攻击,并且对于得到的对抗样本图片以及相关的梯度进行保存,发现本地模型和目标模型的梯度确实是相互正交的(这里的正交指的是,两个的梯度之间的cos值基本为1,也就是角度接近90的意思?)但是直接将本地模型的梯度和目标模型的梯度做一个combination是不行的,因为这个梯度对于很小的变动都是很敏感的。之前有很多学者尝试将本地模型得到的梯度应用于目标模型中来辅助目标模型,但是也没有取得十分明显的效果。所以本文不会再深入研究这部分内容。
Hybrid Attack
本文的hybrid attack攻击是结合了transfer attack迁移攻击和优化攻击来对对抗样本进行搜索。首先引入本文攻击的威胁模型,并且介绍一下本文的假设,同时介绍一下本文的hybrid attack的整个过程。
(1)威胁模型
在黑盒攻击中,攻击者没有目标模型的权限,并且对于目标模型的参数也一无所知,但是可以使用目标模型的API来进行查询,得到预测的置信度分数。
(2)攻击方法(Attack Method)
本文的方法是基于前面三个假设。是将transfer attack和优化攻击结合起来:首先在本地模型中得到一个比较好的初始对抗样本图片来用于后面的优化攻击,并且将后面优化攻击部分得到的带标签的输入继续用来对于本地模型进行微调从而提高本地模型的transferability迁移性。
攻击的输入是一系列的seed图片x,也就是可以被目标模型正确分类的原始干净图片,以及一系列的本地模型F。攻击者的目标,也即攻击的输出是找到一系列的成功的对抗样本。
整个的hybrid attack的攻击过程如下:
首先对于输入的R也就是seed种子,对每一个seed分别执行transfer attack,首先通过优先选择策略对于R中的seed进行选择,选择成本低,查询少的seed,然后将这个seed输入到本地模型F中执行白盒攻击从而得到相应的对抗样本初始图片x‘,然后基于x‘和干净的初始输入seed执行后面的优化攻击,得到x作为最后的对抗样本图片输出,并且将干净的x和对抗样本x保存到Q中,用于后面对本地模型F进行微调,使得其更加接近于目标模型。
(4)实验细节
1)数据集和模型
作者在三个图片分类数据集上,使用了一系列的SOA模型进行了试验评估:
1)MNIST:作者使用了MNIST的预训练模型,这些预训练模型包括卷积层和全连接层。作者使用MNIST A模型作为目标模型,B-D作为本地预训练模型。作者特地选用了一个比较鲁棒的MNIST模型作为攻击对象。
2)CIFAR10:作者使用了一个CIFAR10鲁棒模型以及一般的CIFAR模型。同时将两个CIFAR10模型(DenseNet和ResNet)作为鲁棒的本地模型。
3)ImageNet:将DenseNet作为目标攻击模型,将ResNet-50,VGG-16和VGG-19作为本地模型。
2)攻击配置(Attack configuration)
对于hybrid attack而言,因为同时有本地模型和目标模型,所以会有两种设计思路:一种是将白盒攻击应用于本地模型;另一种是将优化攻击应用于目标模型。
1)本地模型的配置
不同的模型对于相同的目标模型会有不同的迁移率(transfer rate)。所以通过将不同的模型结合(emsemble)到一起可以避免最后获得很低的transfer rate。通过实验发现,对于MNIST和CIFAR 10而言,对于本地模型的合并可以获得很高的迁移率(transfer rate)。作者通过对多个模型同时进行攻击,并且计算每一个模型的损失函数值的和作为整体的攻击损失。在得到整体的攻击损失之后,会将不同模型的攻击损失联合成一个联合损失,之后通过使用PGD白盒攻击方法(需要做100次迭代)来作用于联合损失。作者之所以使用PGD攻击是因为PGD攻击得到的对抗样本可以获得比FGSM更高的迁移率。通过实验发现,对于单个模型(就是不做整合)进行攻击只能获得在CIFAR10上53%的成功率以及在MNIST上35%的成功率;但是在结合了多个本地模型之后,攻击成功率提升到了63%和60%。而就平均查询成本而言,通过整合多个模型,可以在MNIST上节省53%的查询,在CIFAR19上节省45%的查询。
2)优化攻击(Optimization Attack)
这篇论文中使用了两种SOA基于梯度的攻击:NES,一个基于natural evolution strategy的攻击,AutoZOOM,一个基于自编码的优化攻击。无论是采用的哪种攻击,都是在一个给定的seed种子的基础上,不断的尝试查询,直到找到一个成功的对抗样本,或者是达到最大的查询次数才会终止查询。对于MNIST和CIFAR10模型而言,作者设定了每一个seed的最大查询次数为4000.AutoZOOM将最大的查询次数设置为2000.同时将ImageNet的最大查询次数设置成10000.
3)攻击目标
攻击目标包括两个方面,一个是使得对抗样本被误分类,一个是限制扰动的大小。
- 对于MNIST和CIFAR10数据集而言,作者随机的选择1000张图片(10个类别,每个类别100张图片)。ImageNet是对于1000个类别分别选择100张图片。
作者尝试了常规的MNIST模型,CIFAR10模型和ImageNet模型。作者在实验的时候,选择了跟原始干净图片的正确标签最不像,也就是距离最远的类别作为目标标签值。这里是通过对目标模型进行查询,得到查询的结果,找到所有预测分数中分数最低的作为目标标签值。 - 攻击距离度量
作者使用了L∞L_∞L∞?作为扰动距离(perturbation distance),这是在黑盒攻击中被广泛使用的一个度量指标。这里的L∞L_∞L∞?攻击好像指的是,在限制对抗扰动的大小的时候用的范数(因为在实际的对抗攻击中需要限制添加扰动的大小,不能太大,太大就会太明显了,但是为了使得攻击比较实际,需要限制扰动大小),L∞L_∞L∞?表示用的就是L∞L_∞L∞?范数。这个范数是为了计算原始干净图片和添加扰动后的图片之间的距离。因为AutoZOOM是一个L2攻击,所以通过切割原始seed图片到L∞L_∞L∞?空间从而使得它也可以使用相同的指标。
本地模型的候选结果
在所有的case下,以candidate作为初始的对抗样本图片而不是将原始的seed作为初始对抗图片可以明显的降低后面优化攻击的查询成本。这里的查询次数统计的是,在优化攻击的过程中寻找每个对抗样本的过程中的查询总次数。整体的成本可以节省81%左右。
作者分析了一下使用hybrid attack可以大大降低查询次数的原因:迁移攻击transfer attack产生的候选样本可以迁移到后面的优化攻击,其他的候选样本就算不能很好的迁移到后面,也可以作为很好的初始样本图片。
攻击鲁棒模型
通过仔细分析table 3的结果,可以发现,在对一般的模型进行hybrid attack实验的时候可以明显在提高攻击成功率的同时减少查询次数。但是对于鲁棒的模型,查询次数只降低了4%左右。作者分析了一下原因,是因为如果本地模型是一般的模型,而不是鲁棒的模型,它产生的对抗样本图片在鲁棒的目标模型上不会有那么好的迁移性。之前有学者研究发现,鲁棒模型学习到的是图片的关键特征,但是一般的模型学习到的可能只是一些噪声特征。所以一般模型学习到的特征很难迁移到鲁棒模型。
为了验证作者的这个推断,作者将一般的模型和鲁棒的模型都作为本地模型进行实验,发现可以有效的提高迁移率。(虽然如此,但是在实际的攻击过程中,很难找到又跟目标模型相似,又鲁棒的模型作为本地预训练模型吧??所以虽然可以解释实验效果不好的原因,但是并不算很好的解决方案。)
基于上面的实验,作者确定了,攻击者在实施hybrid attack的时候需要对本地模型进行很好的选择,因为会影响最后的结果。但是很多时候,攻击者也不知道目标模型是鲁棒的还是不鲁棒的,所以很难决定本地用鲁棒模型还是非鲁棒模型,所以作者想找一个比较通用的本地模型的选择方法:
作者通过实验,把实验结果记录在了Figure 1图表中。可以看到,实验中的几种ensemble本地模型的方法不能实现在一般模型和鲁棒模型上都获得很好的效果。在鲁棒模型上表现好的本地模型在一般模型上表现就比较差,而在一般模型上表现好的在鲁棒模型上表现差。作者分析了一下,认为当本地模型同时有鲁棒模型和一般模型的时候,本地模型会倾向于学习一般模型,因为更好学。
本地模型微调
为了证明一个假设,那就是从优化攻击中学到的标签label是可以被用来对本地模型进行微调的,作者在添加了这种微调之后,来对比它的迁移率。
在后面的黑盒优化攻击的过程中,会产生两个不同类型的输入标签对。在基于梯度的黑盒优化攻击中,通过添加随机噪声在现有的图片中可以用来估计目标模型的梯度;另一种方法是将图片添加扰动,从而往的梯度方向前进。通常使用后者,因为带扰动的图片可以朝着决策边界移动。
通过将后面的基于梯度的优化攻击产生的添加扰动的图片以及标签对拿出来放到前面的迁移攻击的训练集中做训练。对于MNIST模型来说,作者会在实验了50个seed之后来更新本地模型;对于CIFAR 10模型来说,每100个seed就会做一次本地模型更新。ImageNet模型太大,所以不会做这种更新。
作者对比了MNIST和CIFAR 10在添加微调前后的结果,发现MNIST有所提高但是CIFAR 10降低了很多(这是为什么呢??)
通过使用hybrid attack并且做本地模型的微调,得到的结果记录在table 6中。通过分析这个实验的结果可以发现,结论和上面不加hybrid attack差不多,也是MNIST提高了但是CIFAR 10没有提高。作者自己也表示,自己也不知道为什么CIFAR 10在添加了本地模型微调之后依旧还是没有得到提高。作者猜测可能是因为CIFAR 10模型在训练的时候比MNIST训练起来更复杂,在本地模型训练的时候,可能并没有充分训练就直接return返回了。之前也有学者研究发现,像MNIST模型是可以将非自然的图片学的很好的,但是像CIFAR 10这类模型就只能将自然图片学的比较好,但是在对本地模型进行微调的时候是添加的那些已经有扰动的图片,所以学习的效率会缩减很多。(那这里,只能对MNIST有比较好的微调效果,但是对复杂一点的就不行,这不能说明方法的有效性吧)
攻击的全过程
(1)Batch Attack
在一个更加真实的攻击场景中,每次对于model模型的查询query都会给攻击者带来成本和风险,所以攻击者的目标是尽可能的在有限次数的查询下找到尽可能多的对抗样本。曾经有学者做过研究,发现做对抗攻击的防御的人是可以基于之前的查询来判定当前的查询是不是有目的性的。所以如果攻击者做很多次查询的话,是会在很大程度上增大被发现的风险。作者把这部分的攻击场景称作为batch attack。为了在这种资源有限的配置下有效的实现对抗攻击,攻击者需要优先处理“easy to attack”也就是容易被攻击的seed种子。
batch attack的攻击分为两个步骤:在第一个阶段,需要充分利用本地模型的信息来找到可能被迁移transfer的seed种子;在第二个阶段,需要充分利用目标模型的信息来选择一些候选candidate来适用于后面的优化攻击。虽然这样会使得攻击不具备普遍性,但是可以简化本文的分析。一些更加advanced attack会尝试在每一个seed都尝试不同的transfer,但是这样的话就很难决定什么时候切换到优化攻击。本文不讨论这部分的研究。
(2)第一个阶段:Transfer Attack
第一个阶段是需要直接找到迁移transfer,它可以在不了解目标模型target model的基础上做执行。前面的transfer attack部分可以在对模型做query查询之前来对于所有的seed种子的probability概率值进行排序,从而可以找到一个最好的transfer。作者是假定攻击者可以获得本地的预训练模型,然后可以获得迁移攻击的候选,并且可以对于所有的seed做优先选择和处理。
在transfer attack的过程中,作者是基于本地模型的PGD-step的数目来执行优选处理策略来预测每一张图片的迁移概率。作者同时也试了其他几种metric准则,例如本地模型攻击损失和本地预测分数gap(最高类别的预测置信度和第二类别的预测置信度之间的差)。但是在优先处理的表现上,作者发现使用这两个准则没有比使用PGD-step获得更好。基于此,作者最后还是使用了PGD-step准则。
1)基于PGD step的优先处理
作者发现,如果本地模型在某一个seed下可以很容易的找到对抗样本,那么这个seed在目标模型target model中就会有比较大的脆弱区域。一个评价这种seed的寻找对抗样本的难易程度的方法是在寻找一个成功的对抗样本的过程中所使用的PGD step,基于PGD迭代过程中所使用的步数,作者会优先选择只需要比较少的PGD step的seed。具体来说,作者首先按照图片可以成功攻击的模型数目来对于所有的图片进行排序,然后在每个group中优先处理那些PGD step步数最少的图片。并且作者认为,可以成功攻击更多的模型的对抗样本可以更容易迁移transfer到未知的目标模型中。所以其实在对图片进行排序的时候其实是需要做攻击模型数目和PGD step之间的一个trade off。在实验过程中发现,PGD step这个准则比攻击的模型数目要更能评价一个图片。
作者的优先处理策略是对于图片进行排序,只有在获得直接的transfer后,每个seed才会执行一次查询。可以发现,在第一个阶段的迁移攻击过程中,是为了根据PGD step,攻击模型数目这些metric准则来对于对抗样本图片进行排序,并且这种排序是跟后面的黑盒优化攻击无关的。在实验过程中,首先进行5次运行,然后对于这5次运行结果求一个平均。通过使用本文作者提出的对对抗样本图片的排序的思想,作者发现通过使用这种方法,只需要做平均20.4次的查询,但是如果是直接进行随机的排序那就需要耗费100.8次查询。
(3)第二个阶段:优化攻击
在第一个阶段的transfer attack迁移攻击是不需要耗费很多查询的,但是攻击的成功率会很低。因此,不能只使用transfer attack这一种攻击方案,后面还需要加一个优化攻击。而优化攻击的作用就是找到前面的transfer attack漏掉的对抗样本。
1)选择低成本seed的优先选择策略
为了充分利用偏差variance,作者需要一种可以提前获得seed的成本cost的方法。作者考虑到了两种不同的策略来评估攻击的成本,然后作者就提出了EstimatedAttackCost函数从而对攻击成本进行评估。首先,在第一个阶段的时候,已经发现,低成本low-cost的seed更趋向于可以在本地attack中有更少的GD步数。但是第一个阶段的这种对于seed的评估存在一个问题,那就是这部分对于成本的评估都是基于本地模型,但是不能对目标模型的攻击进行有效的评估。基于这个问题,作者之后提出了第二个优先处理策略,就是通过使用从单个查询得到的信息,来应用到目标模型target model中,并且在这个阶段进行查询,从而对于每一个seed都产生一个目标模型预测分数,通过利用这个目标模型预测分数,作者之后对于第一个阶段没有排好序的seed继续进行优先处理。具体来说,作者发现低成本的seed会有更加低的损失函数值,而且这种损失函数值是基于目标模型算出来的。这部分是基于这样一个假设,那就是有着更低的损失函数值的输入对抗样本图片是可以获得更好的攻击目标的。这种假设跟优化攻击中的假设是一样的。
拿有目标攻击作为一个例子,作者在获得优化攻击的初始点后,就会使用AutoZOOM来做类似于损失函数的事情,也就是对损失值loss进行计算。而作者在获得了z‘作为初始seed种子之后,那么后面的优化攻击就是对于z’进行计算而不是对于z进行计算。
作者首先对比了两种获得low-cost seed的优先处理策略,一个是基于PGD的步数,一个是基于目标模型的损失值。分别使用这两种方法来选择低成本的seed。本文使用的两个基于优化的黑盒攻击方法AutoZOOM和NES都是从原始的seed开始做的,所以作者就通过在这两个攻击的前面加入transfer attack迁移攻击,从而对比加之前和加之后的查询次数。通过试验结果发现,使用基于目标模型的loss损失值来选择low-cost低成本的seed比使用基于PGD步数的方法要好很多。下面是在鲁棒的CIFAR10模型上做的无目标攻击AutoZOOM方法的结果。可以发现,不管是在一般的模型还是在鲁棒的模型上,使用目标模型的loss损失值来选择low-cost的seed的方法的效果都是最好的。
2)整体的攻击对比
1.基于baseline对比loss和随机选择两种策略
作者在这部分实践了两种方法:一个是在两个阶段(一个是transfer attack阶段,一个是target loss阶段)分别都采用了各自阶段最好的选择策略,一个是基于PGD的迭代步数,一个是基于目标模型的损失值进行选择。一个是只使用target loss进行选择。并且对比了随机选择(random)也就是随便选择seed的策略。
作者在鲁棒的CIFAR10模型和ImageNet模型上分别做了实验,并且都采用AutoZOOM对其进行攻击。实验发现,相比较其他模型而言,鲁棒的CIFAR10模型在hybrid attack方法下是表现最差的。
上图中的target loss指的是使用目标模型的损失函数值,random指的是随机选择seed,retroactive optimal是一个上限值,因为retroactive optimal是假定攻击者对于每一个seed都有一个很强的先验知识,这个假设是很强的,基本达不到,放在这里是方便看两种方法的效果。
2.本文方法和Baseline的对比
通过在MNIST,CIFAR10,ImageNet这几个的基础模型以及鲁棒模型上分别应用本文的hybrid attack方法并且对比它们的baseline方法,发现本文的hybrid attack方法可以提高攻击成功率,同时可以减少查询次数。
作者在这部分对比了在baseline攻击的基础上使用目标模型的loss损失函数值,以及两阶段的策略(也就是hybrid attack方法)。如果是直接基于baseline攻击方法做的话,就是相当于刚开始还是基于原始的未被污染的图片做攻击,这样的话,像ImageNet这些模型就可能会对原始的干净图片做过拟合,充分学习了原始的干净图片,这并不是我们想要的,所以这部分干净图片的loss损失值对于之后选择低成本的图片没有太大帮助。所以作者又做了hybrid attack攻击的方法,目的就是为了使得刚开始有一个初始的添加了部分扰动的图片,这样的话计算得到的loss损失值就可以更好的做后面的选择。