人工智能的梦魇：对抗攻击-安全KER

前言

对于人工智能系统而言，对抗样本的存在是其面临最大的威胁之一，因为对抗样本仅需要针对模型生成特定扰动即可，而相比之下，数据投毒等攻击手段还需要攻击者可以控制训练集等，对攻击者的假设更强，在实际中对抗攻击是更容易出现的。本文试图对CV领域的对抗攻击技术做一个全面的介绍，首先会介绍重要的背景知识，包括距离度量、攻击者假设(攻击者知识、能力等)、对抗样本存在的本质原因以及对抗样本迁移性相关背景，之后会介绍一些典型的对抗攻击技术并给出实际攻击效果。

攻击

根据攻击的目标可以分为定向攻击和非定向攻击，根据攻击频率可以分为单步攻击和迭代攻击，根据攻击攻击者的知识，将攻击分为白盒、灰盒、黑盒。

在黑盒模型中，攻击者仅能与模型进行交互，得到样本的预测结果，然后使用成对的数据集(样本，预测结果)等训练替代分类器，在替代分类器上进行对抗攻击，由于对抗样本的可迁移性，由此生成的对抗样本可以对目标模型实现攻击。对抗样本在不同模型间的迁移能力或者说泛化能力是对抗扰动与模型的

在灰盒模型中，攻击者除了可以与模型交互外，还知道模型的结构或者攻击者知识的部分，此时攻击者可以利用已知的结构信息构造更精确的替代分类器，然后进行攻击，显而易见，其攻击性能优于黑盒模型。

在白盒模型中，攻击者知道模型的全部信息，所以其攻击效果是最强的。

典型对抗攻击算法

L-BFGS

[1]首先发现某些人类难以察觉的扰动会引起模型对图片的错误分类，并提出一种称为L-BFGS的方法，通过最小化Lp范数找到这种扰动，公式为：

但是该问题不易求解，所以使用最小化混合损失，即用下式来替代求解

并通过线性搜索找到最优解

作者实验中给出的的生成的对抗样本如下

FGSM

[2]通过在原样本的L_infty范数限制下生产对抗样本，这是一种典型的一步攻击算法，通过沿着对抗损失函数的梯度方向(符号方向)执行一步更新，以增加最陡峭方向上的损失，其公式如下

这本身是一种非定向攻击，通过降低

的梯度就可以实现定向攻击，此时的梯度更新可以表示为：

作者在论文中给出的就是最为人熟知的对抗样本了

后面介绍的*-FGSM都属于对FGSM的改进。

I-FGSM

[3]通过一个迭代优化器优化多次提高FGSM的性能，它以较小的步长执行FGSM，并将更新后的对抗样本裁减到有效范围内，通过这种方式迭代T次即可

在第n次迭代得到的对抗样本如下：

MI-FGSM

[4]将动量项添加到攻击的迭代过程中,这有利于加快收敛速度、使更新方向更加平稳,并在迭代期间能够从较差的局部最大值中逃脱,从而达到更好的攻击效果.以如下方式迭代更新对抗样本：

其中的梯度通过下式进行更新

DI-FGSM

[23]采用了多种输入模式来提高对抗样本的可传递性，名字中的D代表了随机的变换。其迭代方式类似于I-FGSM，其第n次迭代得到的对抗样本为：

上式中的T为随机转换函数，定义如下

此外，我们知道，动量和多样化的输入是缓解过拟合现象的两种完全不同的方式，所以可以将其结合起来，在这里可以用下式替换MI-FGSM中的梯度更新公式，就可以实现攻击

JSMA

[6]提出了基于雅克比的显著性图方法，利用雅克比矩阵，计算从输入到输出的显著图，因此只修改一小部分的输入特征就能达到改变输出结构的目的.

它利用较小的L0扰动生成对抗样本，首先在softmax层之前计算logit层输出的l(x)的雅克比矩阵：

这可以表示输入x的各个分量如何影响不同类别的logit层输出。根据上式计算对抗性显著图S()以选择需要扰动的像素，从而在logit层的输出得到所需的变化

选择扰动具有最大S()的像素，从而增加目标类别的logit层输出或者减少其他类别的logit层输出，实现对抗攻击的目的。如下所示，是LeNet的784维输入的显著映射，784=28*28，仅需选择那些较大的绝对值进行扰动就可以实现对抗效果，因为较大的绝对值对应于对输入有较大影响的特征。

针对全黑的图，该算法生成的目标类别为0到9的对抗样本如下所示

C&W

[5]是一种基于优化的攻击方式，同时兼顾高攻击准确率和低对抗扰动的两个方面，达到真正意义上对抗样本的效果，即在模型分类出错的情况下，人眼不可查觉（相比之前FGSM等方法攻击生成的图片非常模糊，人眼可以察觉到）。它可以生成L0,L2,L_infty范数限制下的对抗样本CW0,CW2，CW_infty,其不使用如下所示，也就是之前流行的优化目标函数：

而是使用该优化目标函数作为替代：

式子中的D是距离度量，f是自定义的对抗损失，只有当模型的预测为攻击目标时才满足f<=0，另外上式中的扰动表示如下

这是为了确保生成的对抗样本是有效的图像

对MNIST数据集应用L_infty范数，进行定向攻击，结果如下

PGD

[11]从鲁棒性优化的角度研究了神经网络的对抗鲁棒性，使用了一种natural saddle point (min-max) 公式来定义对对抗攻击的安全性。这个公式将攻击和防御放到了同一个理论框架中，使得我们对攻击和防御的性能有了良好的量化.作者对此鞍点公式相对应的优化场景进行了仔细的实验研究，提出了PGD这个一阶方法（利用局部一阶信息）来解决这个问题。鞍点问题如下所示

这个鞍点问题并不是那么容易解决。该问题涉及到出处理一个非凸的外部最小化问题和一个非凹的内部最大化问题。作者正是使用PGD解决最大化问题，其用下式生成对抗样本

PGD是非常强的first-order攻击，能防御PGD的网络，就可以防御其他任何first-order攻击，所以在防御时很多工作都会用PGD进行对抗训练。针对MNIST训练集做的实验表明，PGD明显优于在PGD之前提出的对抗攻击方案：

Deepfool

[7]通过寻求当前的点在高维空间中离所有非真实类的决策边界中最近的一个，来作为攻击后的类，不过需要注意的是，这是一种贪心算法，并不能保证收敛到最优扰动，其通过下式迭代计算扰动

该方法只需将问题变为计算从x到所有类之间的决策边界所形成的凸多面体P表面的距离，就可以用于攻击多分类器。

下表是在不同分类器上做的比较，表中的引用文献4，18分别是本文中的[2],[1]

从表中可以看到，Deepfool的扰动是最小的

ATN

[24]以自监督的方式训练前馈神经网络以生成对抗样本，其优化目标为：

上式中的g就是我们需要的网络，输入原图像，输出对抗样本，即

在该研究汇中，将Ly,t定义为

上式中的r(y,t)表示为

下图是对MNIST数据集0~9类分别对另外9个目标类的定向攻击，生成的对抗样本