迈向首个在MNIST上具有对抗鲁棒性的神经网络模型

Lukas Schott,Jonas Rauber,Matthias Bethge,Wieland Brendel

摘要

尽管付出了很多努力,深度神经网络仍然极易受到微小输入扰动的影响。即使是计算机视觉中最常见的玩具数据集之一 MNIST,目前也不存在任何神经网络模型能够使其对抗性扰动在人类看来是较大且有语义意义的。我们表明,被广泛认可且迄今为止最成功的 Madry 等人的防御方法存在以下问题:(1) 过度拟合 L∞L_{\infty}L 度量对 L2L_{2}L2L0L_{0}L0 扰动高度敏感),(2) 一个基于二值化的简单防御方法表现几乎同样好,(3) 其对抗性扰动对人类来说几乎没有意义。这些结果表明,就对抗鲁棒性而言,MNIST 远未得到解决。我们提出了一种新方法,利用学习到的类别条件数据分布进行分析与合成。我们花费了大量精力,通过以下方式对我们的模型进行了最大程度有效的对抗攻击实证评估:(a) 针对几种不同的 LpL_{p}Lp 范数应用基于决策、基于评分、基于梯度和基于迁移的攻击,(b) 设计一种利用我们防御模型结构的新攻击,以及 © 设计一种新颖的基于决策的攻击,旨在最小化扰动的像素数量 (L0)(L_{0})(L0)。结果表明,这种方法在 MNIST 上针对 L0L_{0}L0L2L_{2}L2L∞L_{\infty}L 扰动实现了最先进的鲁棒性,并且我们证明了大多数对抗样本都强烈地朝着原始类别和对抗类别之间的感知边界被扰动。

1 引言

深度神经网络(DNN)在许多复杂的感知任务中取得了巨大成功,有时甚至达到或超过了人类的表现。这是否意味着训练过的 DNN 从感知输入中提取的表征也与人类相似?一种探究方法是测试 DNN 在它们训练数据的独立同分布域之外的行为。在计算机视觉中,一个特别引人注目的案例是最小对抗性扰动 [Szegedy 等人, 2013],这些扰动对人类来说(几乎)不可察觉,但却可以将 DNN 的类别预测切换到基本上任何期望的目标类别。

对抗脆弱性最重要的方面是其普遍性:对于几乎任何被分类为某个类别的给定样本,都存在大量邻近的样本(就输入空间中的 LpL_{p}Lp 度量而言)被分类为不同类别。换句话说,模型的决策边界靠近任何给定的输入样本。就我们目前所知,这对人类来说并非如此。

正是这个关键特征使得对抗脆弱性对于许多已部署的机器学习系统来说令人担忧。例如,训练用于检测社交网络中非工作安全(NSFW)图像的机器学习算法,可能仅仅通过添加几乎不可察觉的图案就能被绕过。类似地,针对基于摄像头的算法(例如部署在自动驾驶汽车中的算法)的真实世界对抗性攻击也是可能的 [Evtimov 等人, 2017]。这种担忧是导致旨在提高机器学习算法鲁棒性的研究激增的主要原因之一。

寻找成功防御的一个关键问题是难以可靠地评估模型的鲁棒性。例如,许多论文评估是否存在到原始样本距离小于某个预定义阈值的对抗样本。这通常使用一个或多个对抗性攻击来测试。对一组测试样本取期望值可以得到攻击成功率。问题在于对抗性攻击并非最优,即使存在比阈值更小的对抗样本,也可能找不到。因此,低的攻击成功率可能意味着模型是鲁棒的,也可能意味着攻击太弱。研究已反复证明 [Athalye 等人, 2018, Athalye 和 Carlini, 2018, Brendel 和 Bethge, 2017],文献中提出的几乎所有防御方法都没有提高模型鲁棒性,而是阻止了现有攻击正确找到最小对抗样本,最常见的原因是大多数现有攻击所依赖的反向传播梯度被掩蔽或混淆。少数可验证的防御方法只能保证对相对较小扰动的鲁棒性 [Hein 和 Andriushchenko, 2017, Raghunathan 等人, 2018]。

目前唯一被认为有效的防御 [Athalye 等人, 2018] 是一种特定类型的对抗训练 [Madry 等人, 2018]。在 MNIST 上,根据我们目前所知,该方法对于 L∞L_{\infty}L 范数限制在 ϵ=0.3\epsilon = 0.3ϵ=0.3 的对抗性扰动,能够达到 88.79%88.79\%88.79% 的准确率 [Zheng 等人, 2018]。换句话说,如果我们允许攻击者将给定样本的每个像素亮度最多扰动 0.3(亮度范围从 0 到 1),那么对抗性攻击只会将网络的准确率降低大约 10%10\%10%(从 98.8%98.8\%98.8% 降至88.79%88.79\%88.79%)。这是一个巨大的成功,但尚不清楚这个结果在多大程度上是由于网络学习了更因果的特征来对 MNIST 数字进行分类。事实上,MNIST 中的单个像素几乎是二值的,即它们通常是全黑或全白,中间值很少。因此,针对 L∞L_{\infty}L 扰动的鲁棒性的一个良好基线是这样一个模型:它通过将每个输入像素投影到 0 或 1 来隐式地二值化其输入。结果,对于大多数(但不是全部)输入像素,分类器对小于 0.5 的扰动变得不敏感。我们在结果部分展示,Madry 等人所展示的 L∞L_{\infty}L 鲁棒性的大部分可以简单地通过这种方式实现。

理想情况下,鲁棒分类器不应该从一幅图像到下一幅图像改变其决策,如果它们的感知距离很小的话。L∞L_{\infty}L 是感知距离的差劲度量,所有其他 LpL_{p}Lp 度量也是如此。尽管如此,一个在(未知的)感知距离方面成功的防御,也应该对LpL_{p}Lp 度量具有鲁棒性。Madry 等人 [2018] 展示了一些在 L2L_{2}L2 距离下的最小对抗样本的定性结果,表明它们开始对人类有意义。我们通过定量和定性两方面证明——使用基于非梯度的边界攻击 [Brendel 等人, 2018]——我们可以找到 Madry 等人的最小 L2L_{2}L2 对抗性扰动,该扰动比声称的小三倍以上,并且对人类来说意义明显更小。

综上所述,即使是 MNIST 也不能被认为在对抗鲁棒性方面已经解决。所谓"解决",我们指的是一个准确率达到至少 (99%)(参见准确率与鲁棒性的权衡 [Gilmer 等人, 2018])且其对抗样本对人类具有语义意义的模型。当最小对抗样本开始看起来像是根据人类判断可能属于任一类别的样本时,它们就具有了语义意义。因此,尽管 MNIST 被许多人认为是"太简单"的玩具示例,但在 MNIST 上找到对抗性鲁棒的模型仍然是一个开放性问题。

我们在这项工作中遵循的想法受到了人类大脑皮层不同视觉区域之间大量反馈连接的启发。目前尚不清楚反馈连接的确切功能角色是什么,但其中一个角色可能是一种"纠错"或自一致性检查。更具体地说,反馈连接可能允许网络检查从图像推断出的语义概念是否对给定输入确实有意义。例如,对于一幅被推断网络错误地认为是公交车的轻微修改的猫图像,生成性反馈连接应该能够注意到图像中实际上并不存在公交车特征,因此这种推断极不可能。从信息论的角度沿着这条思路,人们会得出众所周知的贝叶斯分类器概念。虽然贝叶斯分类器被认为判别性能较低,但我们在此介绍一种基于变分自编码器 [Kingma 和 Welling, 2013] 的微调变体,它结合了鲁棒性与高准确率。

总之,本文的贡献如下:

  • 我们证明,简单的量化能在 MNIST 上产生与当前最先进技术 [Madry 等人, 2018] 相差不远的 L∞L_{\infty}L 鲁棒性。
  • 我们表明,量化以及 Madry 等人 [2018] 的防御方法仍然极易受到微小的对抗性扰动的影响,这些扰动对人类没有语义意义,我们得出结论:MNIST 不应被视为已解决。
  • 我们引入了一种基于分析与合成思想的新防御方法。
  • 我们开发了一种针对我们防御定制的强攻击,并与几种基于梯度、基于评分、基于决策和基于迁移的攻击一起,对我们提出的防御方法进行了测试。虽然使用对抗性攻击进行评估不能保证鲁棒性,但结果表明,我们的防御在 L0L_{0}L0L2L_{2}L2L∞L_{\infty}L 度量上达到了最先进的鲁棒性。此外,许多对抗样本确实对人类具有语义意义。

我们已经尽我们所知对所提出的防御进行了评估,但我们意识到评估对抗鲁棒性的(目前不可避免的)局限性。我们将发布模型架构和训练权重,以此作为友好邀请,供其他研究人员独立评估我们的模型。

2 相关工作

已经提出了许多针对 MNIST 分类器对抗攻击的防御方法。它们大致可以分为四类:

  • 对抗训练:训练数据用对抗样本进行增强,以使模型对它们更具鲁棒性 [Madry 等人, 2018, Szegedy 等人, 2013, Tramer 等人, 2017]。
  • 流形投影:输入样本被投影到学习到的数据流形上 [Samangouei 等人, 2018, Ilyas 等人, 2017, Shen 等人, 2017, Song 等人, 2018]。
  • 随机性:某些输入或隐藏激活被洗牌或随机化 [Prakash 等人, 2018, Dhillon 等人, 2018, Xie 等人, 2018]。
  • 预处理:对输入或隐藏激活进行量化、投影到不同的表示中或以其他方式进行预处理 [Buckman 等人, 2018, Guo 等人, 2018, Kabilan 等人, 2018]。

大量研究表明,文献中迄今为止提出的几乎所有防御方法都没有比标准神经网络实质性地提高鲁棒性 [Carlini 和 Wagner, 2017, Brendel 等人, 2018, Brendel 和 Bethge, 2017]。根据最近的一项研究 [Athalye 等人, 2018],唯一值得注意的例外是 [Madry 等人, 2018] 的防御方法,该防御基于对抗训练,使用通过随机起始点的迭代投影梯度下降找到的对抗样本。然而,正如我们在结果部分看到的,这种防御过度拟合了其训练所依据的距离度量 (L∞)(L_{\infty})(L),并且可以很容易地生成对人类几乎无语义意义的小型对抗性扰动。

Wang 等人 [2017] 应用了分析与合成的思想,通过每个类别的生成器来检测分布外样本。然而,他们仅基于重建损失进行分类,并未考虑对抗样本。本文提出的针对对抗样本鲁棒性的解决方案与最近提出的几种防御方法有松散的联系,这些方法利用 GAN 或概率方法将输入或隐藏激活投影到(学习到的)"自然"输入流形上。这尤其包括 DefenseGAN [Samangouei 等人, 2018]、对抗性扰动消除 GAN [Shen 等人, 2017] 和鲁棒流形防御 [Ilyas 等人, 2017],所有这些方法都将图像投影到由生成器网络 (G) 定义的流形上。然后,生成图像由判别器以通常方式进行分类。PixelDefend [Song 等人, 2018] 使用了类似的思路,他们使用自回归概率方法来学习数据流形。其他在每个数字模型中优化潜在分布 p(z∣x)p(z|x)p(zx),以找到样本 xxx 在每个模型下的似然。

在这里插入图片描述

图 1:模型架构概述。简而言之:(I) 对于每个图像,我们使用输入图像 xxx 条件下潜在空间中的梯度下降来计算每个类别下对数似然的变分下界(ELBO),以获得一个似然(KL散度)高且外观相似(重建项)的图像。(II) 类别条件 ELBO 的类相关标量加权形成最终的类别预测。

其他类似方向的想法包括在 [Gu 和 Rigazio, 2014] 和 [Liao 等人, 2017] 中使用去噪自编码器,MagNets [Meng 和 Chen, 2017](其将对抗样本重新形成以使其位于数据流形上,除非它们距离太远,在这种情况下它们会被检测并作为对抗样本拒绝)。所有这些提出的防御方法均未发现有效,参见 [Athalye 等人, 2018]。

很容易理解为什么将对抗样本投影到学习到的数据流形上不太可能实质性地提高鲁棒性。首先,许多对抗样本,尤其是在 ImageNet 上,在人类看来并不会被认为是位于数据流形之外。事实上,它们看起来像是完美的自然图像。其次,投影图像之上的分类器对对抗样本的脆弱性与之前一样。因此,对于任何存在自然噪声量的数据集,几乎总是存在某种噪声模式,分类器对其是脆弱的,并且可以通过恰当的输入来诱发。

我们在此遵循一种不同的方法,通过对每个类别内的输入分布进行建模(而不是为完整数据建模单个分布),并根据新样本在哪个类别下具有最高似然来对其进行分类。这种方法通常被称为贝叶斯分类器,它摆脱了任何额外的、脆弱的分类器。

3 模型描述

直观地说,我们希望学习输入的因果模型。这意味着我们想要学习猫具有什么特征或形状,然后利用这些知识对新样本做出正确的推断。换句话说,我们希望学习猫的生成模型,然后比较给定的新对象是否接近我们能够生成的任何猫。

这种直觉可以形式化如下。设 (x,y)(\mathbf{x},y)(x,y) 为一个输入-标签数据,其中 x∈RN\mathbf{x}\in \mathbb{R}^{N}xRN。我们现在学习生成分布 p(x∣y)p(\mathbf{x}|y)p(xy),而不是像前馈网络通常所做的那样学习从输入到标签的后验分布 p(y∣x)p(y|x)p(yx)。然后我们使用贝叶斯公式对新输入进行分类,

p(y∣x)=p(x∣y)p(y)p(x)∝p(x∣y)p(y).(1)p(y|\mathbf{x}) = \frac{p(\mathbf{x}|y)p(y)}{p(\mathbf{x})}\propto p(\mathbf{x}|y)p(y). \quad (1)p(yx)=p(x)p(xy)p(y)p(xy)p(y).(1)

标签分布 p(y)p(y)p(y) 可以从训练数据中估计。为了学习类别条件样本分布 p(x∣y)p(\mathbf{x}|y)p(xy),我们使用变分自编码器。

变分自编码器(VAE)[Kingma 和 Welling, 2013] 通过以下方式估计对数似然 log⁡p(x)\log p(\mathbf{x})logp(x):学习一个概率生成模型 pθ(x∣z)p_{\theta}(\mathbf{x}|\mathbf{z})pθ(xz),其中包含隐变量 z∼p(z)\mathbf{z} \sim p(\mathbf{z})zp(z)和模型参数 θ\thetaθ,并结合一个带有参数 (\phi) 的变分后验 qϕ(z∣x)q_{\phi}(\mathbf{z}|\mathbf{x})qϕ(zx)

log⁡pθ(x)=log⁡∫dzpθ(x∣z)p(z),(2)\log p_{\theta}(\mathbf{x}) = \log \int \mathrm{d}\mathbf{z} p_{\theta}(\mathbf{x}|\mathbf{z})p(\mathbf{z}), \quad (2)logpθ(x)=logdzpθ(xz)p(z),(2)

其中 p(z)p(\mathbf{z})p(z) 是隐变量的简单单位正态分布。基于重要性采样的思想并使用 Jensen 不等式,我们得出

=log⁡∫dzqϕ(z∣x)qϕ(z∣x)pθ(x∣z)p(z),(3)=log⁡Ez∼qϕ(z∣x)[pθ(x∣z)p(z)qϕ(z∣x)],(4)≥Ez∼qϕ(z∣x)[log⁡pθ(x∣z)p(z)qϕ(z∣x)],(5)=Ez∼qϕ(z∣x)[log⁡pθ(x∣z)+log⁡p(z)qϕ(z∣x)],(6)=Ez∼qϕ(z∣x)[log⁡pθ(x∣z)]−DKL[qϕ(z∣x)]∣p(z)∣.(7)\begin{array}{rl} & {= \log \int \mathrm{d}\mathbf{z}\frac{q_{\phi}(\mathbf{z}|\mathbf{x})}{q_{\phi}(\mathbf{z}|\mathbf{x})} p_{\theta}(\mathbf{x}|\mathbf{z})p(\mathbf{z}),\quad (3)}\\ & {= \log \mathbb{E}_{\mathbf{z}\sim q_{\phi}(\mathbf{z}|\mathbf{x})}\left[\frac{p_{\theta}(\mathbf{x}|\mathbf{z})p(\mathbf{z})}{q_{\phi}(\mathbf{z}|\mathbf{x})}\right], \quad (4)}\\ & {\geq \mathbb{E}_{\mathbf{z}\sim q_{\phi}(\mathbf{z}|\mathbf{x})}\left[\log \frac{p_{\theta}(\mathbf{x}|\mathbf{z})p(\mathbf{z})}{q_{\phi}(\mathbf{z}|\mathbf{x})}\right],\quad (5)}\\ & {= \mathbb{E}_{\mathbf{z}\sim q_{\phi}(\mathbf{z}|\mathbf{x})}\left[\log p_{\theta}(\mathbf{x}|\mathbf{z}) + \log \frac{p(\mathbf{z})}{q_{\phi}(\mathbf{z}|\mathbf{x})}\right],\quad (6)}\\ & {= \mathbb{E}_{\mathbf{z}\sim q_{\phi}(\mathbf{z}|\mathbf{x})}\left[\log p_{\theta}(\mathbf{x}|\mathbf{z})\right] - \mathcal{D}_{KL}\left[q_{\phi}(\mathbf{z}|\mathbf{x})\right]\left|p(\mathbf{z})\right|.\quad (7)} \end{array}=logdzqϕ(zx)qϕ(zx)pθ(xz)p(z),(3)=logEzqϕ(zx)[qϕ(zx)pθ(xz)p(z)],(4)Ezqϕ(zx)[logqϕ(zx)pθ(xz)p(z)],(5)=Ezqϕ(zx)[logpθ(xz)+logqϕ(zx)p(z)],(6)=Ezqϕ(zx)[logpθ(xz)]DKL[qϕ(zx)]p(z).(7)

右边的第一项基本上是重建误差,而右边的第二项是变分后验与真实后验之间的不匹配。右边的项就是所谓的对数似然的证据下界(ELBO)[Kingma 和 Welling, 2013]。我们将条件分布 pθ(x∣z)p_{\theta}(\mathbf{x}|\mathbf{z})pθ(xz)qϕ(z∣x)q_{\phi}(\mathbf{z}|\mathbf{x})qϕ(zx) 实现为正态分布,其均值和对角标准差被参数化为深度神经网络。

我们的分析与合成模型(ABS)如图 1 所示。它结合了几个要素,以同时实现高准确率和对对抗性扰动的鲁棒性:

  • 类别条件变分自编码器:对于每个类别 yyy,我们在样本分布 p(x∣y)p(\mathbf{x}|y)p(xy) 上训练一个变分自编码器 VAEy\mathrm{VAE}_yVAEy。这允许我们估计给定样本 x\mathbf{x}x 在每个类别 yyy 下的对数似然下界 ℓy(x)\ell_y(\mathbf{x})y(x)

  • 基于优化的推断:变分推断 qϕ(z∣x)q_{\phi}(\mathbf{z}|\mathbf{x})qϕ(zx) 本身是一个易受对抗性扰动影响的神经网络。因此,我们仅在训练期间使用变分推断,而在评估期间对 pθ(x∣z)p_{\theta}(\mathbf{x}|\mathbf{z})pθ(xz) 执行"精确"推断。这种"精确"推断是通过潜在空间中的梯度下降程序(使用固定的后验宽度)实现的,以找到最优的 zyz_yzy,使得对数似然的下界在每个类别上最大化:
    ℓy(x)=max⁡zℓy(x,z)(8)\ell_{y}(\mathbf{x}) = \max_{z}\ell_{y}(\mathbf{x},z) \quad (8)y(x)=maxzy(x,z)(8)
    为了避免局部最小值,我们首先在每个变分自编码器的潜在空间中评估 10410^{4}104 个随机采样点(从正态分布中抽取)的 ELBO,然后从中为每个类别挑选一个最佳点,作为使用 Adam 优化器 [Kingma 和 Ba, 2014] 进行 20 步更新梯度下降的起点。

  • 分类:最后,为了执行实际的分类,我们将 softmax 函数应用于每个类别 yyy 下对数似然的估计下界向量ℓy(x)\ell_{y}(\mathbf{x})y(x)。这产生最终分布 pϕ(y∣x)p_{\phi}(y|\mathbf{x})pϕ(yx)。对于平衡的类别,这对应于贝叶斯规则;对于不平衡的类别,必须通过先验概率调整对数似然向量。

  • 二值化(仅限二元 ABS):干净 MNIST 图像的像素强度几乎是二值的。我们利用这一特性,将每个输入像素 iii 的亮度值 bib_ibi 投影到 0(如果 bi≤0.5b_i \leq 0.5bi0.5)或 1(如果 bi>0.5b_i > 0.5bi>0.5)。这可以被认为是在可能输入值的可行集上进行非常有限的投影。注意,我们仅在测试时执行此预处理。训练二元 ABS 模型与训练 ABS 模型相同,并且不使用二值化。

  • 判别性微调(仅限二元 ABS):贝叶斯分类器的一个普遍问题是其判别性能。虽然我们的 ABS 模型开箱即可达到 99% 的准确率,但我们带输入二值化的二元 ABS 模型的准确率将略低于我们 99% 的目标。为了提高贝叶斯分类器的准确率,我们在将 softmax 函数应用于加权下界 ℓy(x)⋅γy\ell_y(\mathbf{x}) \cdot \gamma_yy(x)γy 之前,将对数似然的估计下界 ℓy(x)\ell_y(\mathbf{x})y(x) 乘以一个类别相关的标量 γy\gamma_yγy。这些类别相关的标量是通过判别方式学习的。这产生了最终的判别分布 pϕ,γ(y∣x)p_{\phi,\gamma}(y|\mathbf{x})pϕ,γ(yx)。注意,对于所有类别 yyyγy∈[0.96,1.03]\gamma_y \in [0.96, 1.03]γy[0.96,1.03],因此判别性微调的量相当小。

超参数和训练细节 我们调整了类别条件 VAE 的潜在空间维度 LLL(最终得到 L=8L = 8L=8),在训练开始时为 KL 散度项设置了较高的权重(该权重在 50 个周期内从因子 10 逐渐降低到 1),并通过在后验分布 pϕ,γ(y∣x)p_{\phi ,\gamma}(y|x)pϕ,γ(yx) 上对训练准确率进行线性搜索来估计下界的加权γ\gammaγ

4 对抗性攻击

可靠地评估模型的对抗鲁棒性是困难的,因为仅针对弱攻击进行评估很容易高估鲁棒性 [Uesato 等人, 2018]。不幸的是,确定攻击的强度通常是不可能的,并且取决于模型。依赖梯度的攻击可能在某些模型上很强,但在具有混淆梯度的其他模型上可能很弱甚至失败 [Athalye 等人, 2018]。由于每次攻击都提供了鲁棒性的上界,应用许多不同的攻击并为每个样本选择最佳攻击只能收紧我们的界,从而得到更好的鲁棒性估计。因此,我们使用大量依赖模型不同假设的对抗性攻击。对于所有这些攻击,我们使用 Foolbox v1.3 [Rauber 等人, 2017] 中的实现,这些实现旨在找到最小的对抗性扰动。此外,我们还创建了一种定制攻击,专门利用我们模型的结构以达到最大效果。尽管如此,我们不能排除可能存在针对我们模型的更有效攻击,我们将发布模型架构和训练权重,以此作为友好邀请,供其他研究人员使用其他攻击评估我们的模型。

潜在下降攻击 这种攻击旨在利用我们 ABS 模型的特殊结构。首先,它执行 ABS 模型的标准评估,以找到对于所有类别 yyy 和给定输入 xxx 的最可能的类别条件后验 p(z∣x,y)=N(μy(x),σI)p(\mathbf{z}|\mathbf{x},y) = \mathcal{N}(\mu_y(\mathbf{x}),\sigma \mathbf{I})p(zx,y)=N(μy(x),σI)。然后,它选择具有最高 ELBO 的对抗类别 y~\tilde{y}y~(即与真实标签不同的任何类别),并向后验 p(x∣z,y~)p(\mathbf{x}|\mathbf{z},\tilde{y})p(xz,y~) 的最大似然估计器迈出一步,我们将其记为 x~y~\tilde{\mathbf{x}}_{\tilde{y}}x~y~

xt↦(1−ϵ)xt+ϵx~y~.(9)\mathbf{x}_t\mapsto (1 - \epsilon)\mathbf{x}_t + \epsilon \tilde{\mathbf{x}}_{\tilde{y}}. \quad (9)xt(1ϵ)xt+ϵx~y~.(9)

在我们的实验中,我们选择 ϵ=10−2\epsilon = 10^{- 2}ϵ=102,并迭代此过程直到找到对抗样本。最后,我们在对抗样本和原始输入之间执行二分搜索,以尽可能减少对抗性扰动。

基于决策的攻击 我们使用几种基于决策的攻击,因为它们不依赖于梯度信息,因此对梯度掩蔽或梯度缺失不敏感。特别是,我们应用了边界攻击 [Brendel 等人, 2018],这是一种最近发布的基于决策的攻击,在最小化 L2L_{2}L2 范数方面与基于梯度的攻击不相上下,以及点态攻击 [Rauber 和 Brendel, 2018],一种新颖的基于决策的攻击,它贪婪地最小化 L0L_{0}L0 范数。作为基线,我们还应用两种简单的噪声攻击:高斯噪声攻击和椒盐噪声攻击。

基于迁移的攻击 迁移攻击是另一种不依赖于目标模型梯度的攻击形式。我们使用一个简单的 CNN(参见第 5 节)作为替代模型,并通过以下方式迁移对抗样本:给定输入样本 x\mathbf{x}x,我们首先使用几种不同的基于梯度的攻击(L2(L_{2}(L2L∞L_{\infty}L 基本迭代法(BIM)、快速梯度符号法(FGSM)和 (L2(L_{2}(L2 快速梯度法)在 CNN 上计算对抗性扰动 δ\deltaδ,然后执行线性搜索以找到最小的 ϵ\epsilonϵ,使得 x+ϵδ\mathbf{x} + \epsilon \deltax+ϵδ(裁剪到有效范围 [0, 1])仍然是目标网络的对抗样本。

基于梯度的攻击 我们应用了赢得 NIPS 2017 对抗性攻击挑战的动量迭代法(MIM)[Dong 等人, 2017]、基本迭代法(BIM)[Kurakin 等人, 2016](也称为投影梯度下降(PGD))——包括 L2L_{2}L2L∞L_{\infty}L 范数——以及快速梯度符号法(FGSM)[Goodfellow 等人, 2014] 及其 L2L_{2}L2 变体,快速梯度法(FGM)。除了针对我们可以使用自动微分计算梯度的模型(CNN、二元 CNN、Madry 等人)运行这些攻击外,我们还通过使用数值梯度估计对所有这些模型运行这些攻击(参见基于评分的攻击)。对于具有输入二值化的模型(二元 CNN、二元 ABS),我们使用直通估计器 [Bengio 等人, 2013] 获得梯度。

基于评分的攻击 除了运行列在基于梯度的攻击下的攻击(使用通过自动微分获得的梯度,仅适用于 CNN、二元 CNN、Madry 等人),我们还使用数值估计的梯度对所有模型运行所有这些攻击。我们使用简单的坐标有限差分法(NES 估计 [Ilyas 等人, 2018] 表现相当或更差),并使用梯度估计器的步长的不同值重复攻击。

后处理(仅限二元模型) 对于两个二元模型(二元 CNN 和二元 ABS),我们通过将所有像素值设置为干净图像的对应值或二值化阈值(在我们的例子中为 0.5)来后处理上述攻击找到的所有对抗样本。我们以这样的方式进行,使得二值化后的对抗样本不发生变化。这种后处理进一步减小了对抗性扰动的大小

5 实验

我们在这里将我们的分析与合成 MNIST 模型(ABS)以及两个消融模型——测试时使用输入二值化的 ABS(二元 ABS)和训练与测试时都使用输入二值化的 CNN(二元 CNN)——与其他三个模型进行比较:最先进的 (L_{\infty}) 防御 [Madry 等人, 2018]1、一个最近邻分类器和一个基线 CNN。基线 CNN 有四个卷积层,分别具有 20、70、256 和 10 个特征图,核大小为 5、4、3 和 5,并使用 ELU 激活函数 [Clevert 等人, 2015]。

我们对所有适用模型运行第 4 节列出的所有攻击。如第 4 节所述,我们运行所有基于梯度的攻击的两个版本:使用模型的真实梯度(CNN、二元 CNN 和 Madry 等人)和使用数值估计的梯度(所有模型)。对于 ABS 模型(ABS 和二元 ABS),我们无法使用自动微分计算梯度,因为 logit 分配基于潜在空间中的中间且不可微的优化。相反,在这些模型上,我们使用专门为此架构设计的潜在下降攻击。基于决策和基于迁移的攻击不依赖于梯度,并对所有模型运行。

对于每个模型和 LpL_{p}Lp 范数,我们展示最小对抗性扰动大小的完整分布(图 2),并报告两个指标:对抗性距离的中位数(表 1,左侧值)和模型在有界对抗性扰动下的准确率(表 1,右侧值)。扰动大小的中位数(表 1,左侧值)对异常值具有鲁棒性,并且很好地总结了大部分分布。它代表了特定模型达到 (50%) 准确率所需的扰动大小,并且不需要选择阈值。已经被错误分类的干净样本被计为扰动大小等于 0 的对抗样本,失败的攻击计为∞\infty。另一方面,模型在有界对抗性扰动下的准确率需要一个特定于度量的阈值,这可能使结果产生偏差。我们报告它(表 1,右侧值)是因为它在文献中常用,并使用 ϵL2=1.5\epsilon_{L_2} = 1.5ϵL2=1.5ϵL∞=0.3\epsilon_{L_{\infty}} = 0.3ϵL=0.3ϵL0=12\epsilon_{L_0} = 12ϵL0=12 作为阈值。

6 结果

我们的结果如表 1 和图 2 所示。除了最近邻分类器之外,所有模型在干净测试样本上的准确率都接近 99%99\%99%。我们报告了三个不同范数的结果:L2L_{2}L2L∞L_{\infty}LL0L_{0}L0

对于 L2L_{2}L2,我们的 ABS 模型在两个指标上都以较大优势优于所有其他模型。

对于L∞L_{\infty}L,我们的二元 ABS 模型在扰动大小中位数方面(即,将准确率降至 50%50\%50% 所需的扰动大小)是最鲁棒的模型。在最大 L∞L_{\infty}L 范数为 0.3 的扰动下的准确率方面,Madry 等人似乎更鲁棒。然而,查看图 2 中的分布,我们可以看到这是特定阈值的人工产物(Madry 等人的模型是针对 0.3 优化的)。稍大的阈值(例如 0.35)将使 Madry 等人的准确率降低幅度远大于二元 ABS 模型的准确率降低幅度。

对于 L0L_{0}L0,我们的两个 ABS 模型(ABS 和二元 ABS)都比所有其他模型鲁棒得多,其中二元 ABS 模型比标准 ABS 模型好得多。

在这里插入图片描述
表 1:不同模型、对抗性攻击和距离度量的结果。每个条目显示所有样本的对抗性距离中位数(左侧值,黑色)以及模型在阈值 ϵL2=1.5\epsilon_{L_2} = 1.5ϵL2=1.5ϵL∞=0.3\epsilon_{L_\infty} = 0.3ϵL=0.3ϵL0=12\epsilon_{L_0} = 12ϵL0=12 限制下的对抗性扰动准确率(右侧值,灰色)。“w/GE”表示使用数值梯度估计的攻击。

然而,ABS 模型在不同样本间表现出极大的方差(图 2)。有趣的是,Madry 等人的模型对 L0L_0L0 对抗样本的鲁棒性最差,甚至比基线 CNN 还差。

查看个体攻击的结果(表 1),我们注意到使用大量攻击很重要,因为不同的攻击在不同的模型上表现良好。例如,如果没有边界攻击,Madry 等人和 ABS 模型对 L2L_2L2对抗样本的鲁棒性看起来会比实际更强(Madry 等人 [2018] 的图 6b 报告的中位数 L2L_2L2 扰动大小大于 5,而边界攻击达到的是 1.4)。此外,我们发现针对某一度量所有攻击的组合(所有 L2/L∞/L0L_2 / L_\infty / L_0L2/L/L0 攻击)通常比任何个体攻击更好,这表明不同的攻击在不同的样本上是最优的。

在图 3 中,我们展示了六个不同模型的对抗样本。对于每个样本,我们展示了任何攻击找到的最佳 L2L_2L2 对抗样本。基线 CNN 和二元 CNN 的对抗样本是典型的、几乎不可察觉的扰动。最近邻模型几乎是由设计使然,暴露了(一些)在两个数字之间插值的对抗样本。Madry 等人的模型需要明显可见的扰动,但其语义大多对人类来说不清楚。最后,为 ABS 模型生成的对抗性扰动对人类来说具有语义意义并且位于原始类别和对抗类别之间的感知边界附近。

在这里插入图片描述图 2:每个模型和距离度量的最小对抗样本分布。在 (b) 中我们可以看到,0.3 处的阈值对 Madry 等人有利:稍大的阈值(例如 0.35)将使 Madry 等人的准确率降低幅度远大于二元 ABS 模型的准确率降低幅度。

在这里插入图片描述图 3:六个不同模型的对抗样本。对于每个样本(从 10 个类别中随机选择),我们展示了任何攻击找到的最佳 \(L_{2}\) 对抗样本。CNN 和 Binary CNN 具有几乎不可察觉的扰动。Nearest neighbour 具有一些具有语义意义的扰动。Madry et al. 需要明显可见的扰动,但其语义大多不清楚。ABS 模型具有明显可见且通常具有语义意义的对抗样本。

7 讨论与结论

在本文中,我们证明尽管经过多年的努力,我们作为一个社区未能创建出从人类感知角度来看在 MNIST 上可被认为是鲁棒的神经网络。具体来说,我们表明即使是今天最好的防御也过度拟合了 L∞L_{\infty}L 度量,并且它容易受到小的对抗性扰动的影响,这些扰动对人类来说几乎没有语义意义。我们提出了一种基于分析与合成的新方法,旨在通过实际的图像特征来解释其推断。我们进行了广泛的分析,以表明该模型中的最小对抗性扰动在所有测试的 LpL_{p}Lp 范数下都很大,并且对人类具有语义意义。

我们承认,可靠地评估模型的对抗鲁棒性并不容易,文献中提出的大多数防御后来都被证明是无效的。特别是,ABS 模型的结构阻止了梯度的计算,这可能会给模型带来不公平的优势。我们非常重视使用大量强大的攻击对对抗鲁棒性进行广泛评估,包括一种专门设计为对 ABS 模型特别有效的攻击(潜在下降攻击),并且我们将发布模型架构和训练权重,以此作为友好邀请,供其他研究人员评估我们的模型。

为每个类别使用一个变分自编码器的 ABS 模型的天真实现既无法有效地扩展到更多类别,也无法扩展到更复杂的数据集。然而,MNIST 上的结果表明,我们首次拥有了一个结合了准确率和鲁棒性的模型。分析与合成思想的变体与更高效的架构(例如,通过共享编码器和解码器的权重)相结合,可能扩展到其他数据集。

总之,我们证明了从对抗鲁棒性的角度来看,MNIST 仍未得到解决,并且表明我们基于分析与合成的新方法在减少对抗性攻击的脆弱性以及使机器感知与人类感知保持一致方面具有巨大潜力。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐