【论文阅读】-《Decision-based Black-box Attack Against Vision Transformers via Patch-wise Adversarial Remo》

∞984

458人浏览 · 2026-03-22 20:16:13

∞984 · 2026-03-22 20:16:13 发布

基于分块对抗移除的决策式黑盒攻击 against 视觉Transformer

在这里插入图片描述

摘要

视觉Transformer（ViT）相比卷积神经网络（CNN）展现了更优的性能和更强的对抗鲁棒性。一方面，ViT关注于各个图像块之间的全局交互，降低了对图像局部噪声的敏感性。另一方面，现有基于决策的攻击忽视了图像区域间噪声敏感性的差异，这进一步损害了噪声压缩的效率，尤其是针对ViT。因此，当目标模型只能被查询时，验证ViT的黑盒对抗鲁棒性仍然是一个具有挑战性的问题。在本文中，我们从图像区域间噪声敏感性差异的角度，理论分析了现有基于决策的攻击的局限性，并提出了一种针对ViT的新型基于决策的黑盒攻击方法，称为分块对抗移除（PAR）。PAR通过从粗到细的搜索过程将图像划分为多个块，并分别对每个块上的噪声进行压缩。PAR记录每个块的噪声幅度和噪声敏感性，并选择查询值最高的块进行噪声压缩。此外，PAR可以作为其他基于决策攻击的噪声初始化方法，在不增加额外计算量的情况下，提高其在ViT和CNN上的噪声压缩效率。在三个数据集上的大量实验表明，PAR在相同查询次数下实现了更低的噪声幅度。

在这里插入图片描述

图1：边界攻击和我们提出的 PAR 方法在相同初始噪声下经过 100 次查询后的噪声。热力图可视化了每个块的噪声幅度。PAR 移除了低噪声敏感性块中的噪声，实现了比边界攻击显著更小的噪声。

1 引言

视觉Transformer（ViT）[1]不仅在广泛的计算机视觉任务中取得了显著的性能提升[2, 3, 4]，而且对由不同攻击方法生成的对抗样本表现出更强的鲁棒性[5, 6, 7, 8]。对抗样本是由攻击者通过向原始数据添加难以察觉的噪声来欺骗目标模型而生成的[9, 10, 11]。ViT使用非重叠图像块的特点降低了具有相同噪声幅度的对抗样本对整体结果的影响[5]。

根据攻击者可获取的信息量，对抗攻击可分为白盒攻击和黑盒攻击[12]。在攻击者只能获取目标模型输出的硬标签的黑盒场景下，对抗攻击可进一步分为基于迁移的方法[13, 14]和基于决策的方法[15]。基于迁移的方法使用替代模型生成对抗样本，并利用可迁移性将其迁移到目标模型[16, 17, 18]。与基于迁移的攻击相比，基于决策的攻击面临一个更实际的场景，即没有替代模型可用。基于决策的攻击唯一的信息来源是通过查询目标模型获得的硬标签。在图像分类任务中，基于决策的攻击[15, 19, 20]从具有较大噪声幅度的随机噪声开始，在图像输入空间中进行随机采样，并在确保误分类的前提下逐步压缩对抗噪声。现有的针对Transformer的对抗攻击仅限于白盒攻击[21, 5, 22, 23]和基于迁移的黑盒攻击[24, 25]。ViT对图像进行分块处理的特性降低了对抗噪声的影响，使得针对ViT的基于决策的黑盒攻击成为一个未解决的问题[5]。

使用基于决策的方法攻击ViT的挑战源于其噪声敏感性特性，这些特性源于ViT的结构特点。一方面，ViT比CNN学习更少的低级特征和更多可迁移的特征，导致攻击ViT需要更多的噪声[21]。换句话说，ViT的整体噪声敏感性较低。针对ViT的基于决策的攻击需要添加具有更大噪声幅度的随机噪声来找到初始的对抗样本。更大的初始噪声使得基于决策的攻击更难压缩，即在相同查询次数下找到最小的对抗噪声。另一方面，ViT将图像分割成多个非重叠的图像块，这降低了单个图像块上的噪声对最终分类结果的影响[5]。这导致ViT对图像不同区域的噪声敏感性存在显著差异，而现有的基于决策的方法很少考虑这一点。例如，边界攻击[15]的噪声压缩过程对所有像素一视同仁，不考虑其噪声敏感性，如图1所示，这严重阻碍了噪声压缩的效率。噪声敏感性的这两个特性使得现有的基于决策的攻击极难找到针对ViT的小噪声幅度对抗样本。噪声敏感性直接反映了ViT的黑盒对抗鲁棒性，这一领域尚未得到充分研究，也无法揭示提高噪声压缩效率的机制。因此，根据ViT的噪声敏感性特性设计针对ViT的基于决策的攻击是一个关键问题。

在本文中，我们验证了ViT的噪声敏感性在不同图像区域之间存在显著差异。本文从理论上分析了以边界攻击为代表的基于决策的攻击在压缩过程中的局限性。基于ViT的分块敏感性与噪声压缩成功率之间的关系，我们提出了一种新的基于决策的攻击方法——分块对抗移除（PAR）。PAR将对抗样本分割成多个块，并进行从粗到细的噪声移除。具体来说，PAR维护两个掩码，分别记录每个块的噪声敏感性和噪声幅度。在查询目标ViT之前，PAR根据这两个掩码定位查询值最高的块。随着搜索的进行，每个块的大小变小，同时ViT噪声敏感性的度量变得更加精确。PAR在少量查询次数下实现了显著的噪声压缩，并且可以作为其他基于决策攻击的初始化方法，而无需额外计算。
我们在三个数据集上验证了PAR的有效性：ImageNet-21k [26]、ILSVRC-2012 [27]和Tiny-Imagenet [28]。我们将PAR与7种最先进的基于决策的攻击方法进行了比较，针对18种不同的目标模型，包括8种CNN和10种ViT或混合模型。得益于强大的冗余噪声压缩能力，在使用PAR进行噪声初始化后，所有基于决策的攻击的噪声幅度都显著降低，且未增加查询次数。

2 相关工作

2.1 视觉Transformer的鲁棒性

ViT展现出更强的对抗鲁棒性[29]。不仅在白盒场景中欺骗ViT需要更大的噪声幅度[21]，而且现有的基于迁移的黑盒攻击也很难将对抗样本从CNN迁移到ViT[24]。现有研究主要集中在针对ViT的白盒攻击和基于迁移的黑盒攻击。然而，本文探讨的是在没有替代模型的情况下针对黑盒ViT的基于决策的攻击。

2.2 基于决策的攻击

基于决策的攻击不依赖于替代模型，但需要一个已经被误分类的初始对抗样本作为起点。边界攻击[15]从高斯噪声开始，沿两个方向同时搜索，即源方向和球面方向：

$x_{new}^{*} = x^{*} + \delta \cdot \frac{\eta}{\|\eta\|_{2}} +\epsilon \cdot \frac{x - x^{*}}{\|x - x^{*}\|_{2}},\quad \eta \sim \mathcal{N}(0,I) \quad (1)$

其中 $x^{*}$ 是已找到的噪声最小的对抗样本。 $η\eta$ 和 $x - x^{*})$ 分别指球面方向和源方向。 $δ\delta$ 和 $ϵ\epsilon$ 分别是球面方向和源方向的步长。有偏边界攻击[20]专注于输入空间的低频域，使对抗样本更“自然”。进化攻击[19]通过双线性插值降低采样空间的维度。进化攻击在涉及强先验知识的任务（如人脸识别）中表现更好。HopSkipJumpAttack [30]利用决策边界上的二元信息估计梯度方向。定制对抗边界（CAB）[31]使用当前噪声选择图像的敏感区域并定制采样分布。SurFree攻击[32]基于几何机制，为给定探索方向获得最大的失真减少。Sign-OPT攻击[33]使用零阶预言机计算攻击目标方向导数的符号。

边界攻击根据公式(1)维护两个搜索方向。源方向指向原始图像 $x$ ，步长较小，负责噪声压缩。球面方向是随机方向，步长较大，用于在当前对抗样本 $x^{*}$ 的邻域内扰动，并确保更新后的对抗样本仍然被目标模型误分类。从公式(1)可以看出，在当前对抗样本的一步更新中，球面方向 $η\eta$ 遵循与原始图像维度相同的标准高斯分布。源方向指向当前对抗噪声的相反方向。这两个搜索方向对图像中的任何区域或像素都没有偏好。换句话说，在均匀的初始随机对抗噪声下，边界攻击对所有像素进行基本相同幅度的噪声压缩。事实上，边界攻击没有区分图像中的不同像素，每个像素的噪声压缩与其初始噪声幅度成比例[31]。

在这里插入图片描述

图2：原始图像、初始随机噪声以及相应的分块噪声敏感性可视化。

3 提出的方法

3.1 符号说明

假设 $F$ 是待攻击的目标模型： $F:XN→YCF:X^{N}\to Y^{C}$ ，其中 $X$ 表示输入空间， $N$ 是维度（对于图像数据， $\times 高度 \times 通道数$ ）， $Y$ 表示具有 $C$ 个类别的分类空间。基于决策的攻击的目标可以表示为：

$\min_{x^{\prime}\in S_{Q}}\| x^{\prime} - x\|_{v}, \text{ s.t. } F(x^{\prime})\neq y \text{ 且 } |S_{Q}|\leq T, \quad (2)$

其中 $x$ 表示原始图像， $x′x^{\prime}$ 指对抗样本， $y$ 是 $x$ 的标签， $S_{Q}$ 是为查询目标模型而生成的所有对抗样本的集合， $T$ 是查询次数限制。 $v$ 指用于度量噪声幅度的范数，包括 $ℓ1\ell_{1}$ 、 $ℓ2\ell_{2}$ 和 $ℓ∞\ell_{\infty}$ 范数。本文计算 $ℓ2\ell_{2}$ 距离。在基于决策的攻击过程中，攻击者只能获取目标模型输出的硬标签 $F(x′)F(x^{\prime})$ 。

3.2 ViT的噪声敏感性

这里，我们根据在当前ViT对抗样本上噪声可被压缩的最大比率，来衡量图像中一个块的噪声敏感性 $S e n s$ ：

定义 1. 设 $x′x^{\prime}$ 是ViT模型 $F$ 在原始图像 $x$ 上的一个对抗样本，即 $F(x′)≠F(x)F(x^{\prime})\neq F(x)$ ，且 $z$ 是当前的对抗噪声 $x^{\prime} - x$ 。设 $z~\tilde{z}$ 是一个从 $z$ 压缩得到的新对抗噪声，压缩区域为一个宽度为 $w$ 、高度为 $h$ 、左上角坐标为 $(sr, sc)$ 的矩形块：

$\tilde{z} (sr,sc,h,w,\kappa)_{r,c} = \left\{ \begin{array}{ll}z_{r,c}\cdot \kappa , & if sr\leq r< sr + h and sc\leq c< sc + w,\\ z_{r,c}, & else, \end{array} \right. \quad (3)$

其中 $r$ 和 $c$ 分别指噪声 $z$ 中像素的行索引和列索引。 $κ∈[0,1]\kappa \in [0,1]$ 表示噪声压缩比率。将一个矩形块的噪声敏感性定义为当 $F$ 将 $\tilde{z}$ 误分类时的最小噪声压缩比率 $κmin\kappa_{min}$ ：

$\begin{array}{rlr}Sens(F,x,x^{\prime},sr,sc,h,w) = \kappa_{min}, \text{ s.t. } & F(x + \tilde{z} (sr,sc,h,w,\kappa_{min}))\neq F(x)\\ & \text{且 } \forall \kappa^{\prime}< \kappa_{min}, & F(x + \tilde{z} (sr,sc,h,w,\kappa^{\prime})) = F(x). \end{array} \quad (4)$

$S e n s$ 度量了对抗样本所需的最小噪声量。更小的 $S e n s$ 意味着可以在不改变误分类结果的情况下移除更多噪声，即在该块中添加噪声对分类结果影响较小。当 $h = w = 1$ 时， $S e n s$ 度量像素级的噪声敏感性。

我们使用在ILSVRC-2012 [27]上训练的、块大小为16的视觉Transformer vit-tiny-patch16 [34]作为目标模型。为了展示图2中分块噪声敏感性的差异，我们向原始图像添加初始高斯噪声，直到它们被误分类。获得初始噪声后，我们尝试减少每个块上的噪声，以评估目标模型上图像的分块噪声敏感性。由于原始图像大小为 $224 \times 224 \times 3$ ，因此有 $14 \times 14$ 个块。我们使用二分搜索来评估每个块上的 $S e n s$ ：

$\begin{array}{rl} & L = x^{init},R = x^{init},L_{row*16 + 1:(row + 1)*16,col*16 + 1:(col + 1)*16} = 0,\\ & BS(L,R) = \left\{ \begin{array}{ll}BS(L,(L + R) / 2), & if F((L + R) / 2)\neq y,\\ BS((L + R) / 2,R), & if F((L + R) / 2) = y, \end{array} \right. \end{array} \quad (5)$

其中 $\in [1,14]$ 分别指图像中一个块的行索引和列索引。图2中的热力图显示了所有 $14 \times 14$ 个块上的 $S e n s$ 。在热力图中，颜色越浅表示该块上的 $S e n s$ 越低。1表示该块上的任何微小噪声压缩都会导致目标模型输出正确标签。0表示即使该块上的所有噪声都被移除，对抗样本仍然保持误分类状态。考虑边界攻击的攻击过程，对抗样本的分块敏感性与单次查询中一个块内的压缩成功概率具有以下关系：

命题 1. 假设 $x′x^{\prime}$ 是由边界攻击针对ViT $F$ 从原始图像 $x$ 生成的初始对抗样本， $F(x)≠F(x′)F(x)\neq F(x^{\prime})$ 。对于任意 $r_{1},r_{2},h\leq 高度, 0< c_{1},c_{2},w\leq 宽度$ ，如果 $Sens(F,x,x′,r1,c1,h,w)<Sens(F,x,x′,r2,c2,h,w)Sens(F,x,x^{\prime},r_{1},c_{1},h,w)< Sens(F,x,x^{\prime},r_{2},c_{2},h,w)$ ，并且边界攻击一步添加的新噪声为 $z′z^{\prime}$ ，那么 $P(F(x′+z1′)≠F(x)∣F(x′+z′)=F(x))<P(F(x′+z2′)≠P(F(x^{\prime} + z_{1}^{\prime})\neq F(x)|F(x^{\prime} + z^{\prime}) = F(x))< P(F(x^{\prime} + z_{2}^{\prime})\neq$ $F(x)∣F(x′+z′)=F(x))F(x)|F(x^{\prime} + z^{\prime}) = F(x))$ ，其中对于 $t = 1, 2$

$z_{t,r,c}^{\prime} = \left\{ \begin{array}{ll}0, & if r_{t}\leq r< r_{t} + h and c_{t}\leq c< c_{t} + w,\\ z_{r,c}^{\prime}, & else, \end{array} \right. \quad (7)$

证明思路. 边界攻击生成的初始噪声 $x′x^{\prime}$ 中每个像素的期望是相等的，并且经过一步边界攻击后每个像素的噪声压缩比率是独立同分布的。任何块中至少有一个像素的噪声压缩比率超过 $κ\kappa$ 的可能性也是相同的。由于整个块上至少有一个像素的噪声压缩比率超过 $S e n s$ 的概率随该块整体的噪声敏感性单调增加，因此对高 $S e n s$ 块进行噪声移除更可能导致查询失败。 $□\square$

命题1的详细证明见补充材料A.2。命题1表明，在边界攻击的噪声压缩过程中，具有较高 $S e n s$ 的块比较低 $S e n s$ 的块更有可能导致查询失败。显然，ViT的噪声敏感性在图像的不同区域差异很大。在图2的右侧部分，我们比较了原始图像的分块敏感性(b)与由边界攻击一步导致的每个块上噪声压缩比率超过 $S e n s$ 的概率 $P(F(x′+zb′)≠F(x)∣F(x′+z′)=F(x))P(F(x^{\prime} + z_{b}^{\prime})\neq F(x)|F(x^{\prime} + z^{\prime}) = F(x))$ 。可以看出，这两个热力图在块上基本一致，这验证了命题1。从图2可以看出，从 $x^{init}$ 中完全移除许多块中的噪声并不会影响误分类。然而，边界攻击的均匀压缩通常会将此类冗余噪声保留到最后。整块冗余噪声的幅度相当可观，尤其是对于需要更大初始噪声的ViT而言。

3.3 分块对抗移除

根据命题1，边界攻击将 $x′x^{\prime}$ 的整体噪声一起压缩，其噪声压缩率取决于那些具有最高 $S e n s$ 的块。理想情况下，基于决策的攻击应首先压缩具有低 $S e n s$ 和高噪声幅度的区域。这样，既能保证查询的成功率，又能保证单步噪声压缩的幅度，从而在有限查询次数下最大化噪声压缩效率。一方面，目标模型对初始噪声不同区域的噪声敏感性无法直接获得。另一方面，使用类似于图2的二分搜索对一个块进行搜索，并对所有块进行网格搜索会消耗大量查询。因此，我们提出了一种新的基于决策的攻击方法——分块对抗移除（PAR）。PAR将初始噪声划分为块，探测它们的噪声敏感性，并以分块的方式压缩噪声。

如图3所示，PAR通过维护两个掩码来引导探测过程，这两个掩码分别记录目标模型的噪声敏感性和每个掩码的噪声幅度。由于在黑盒攻击设置中无法获得ViT的详细信息，PAR不假设ViT的块大小，而是从较大的块大小开始，进行多轮从粗到细的搜索。

首先，PAR初始化噪声敏感性掩码 $M_{S}$ 和噪声幅度掩码 $M_{N}$ 。这两个掩码的形状为 $PS0×PS0PS_{0}\times PS_{0}$ ，其中 $PS_{0}$ 是一个超参数，表示PAR的初始块大小。我们使用 $x^{init}$ 中每个块的初始噪声幅度（以 $ℓ2\ell_{2}$ 度量）来初始化 $M_{N}$ ：

$M_{N}(row,col) = \sqrt{\sum_{i = row*PS_{0} + 1}^{(row +1)*PS_{0}} \sum_{j = col*PS_{0} + 1}^{(col +1)*PS_{0}} (x_{i,j}^{init} - x_{i,j})^{2}}, \quad (8)$

其中 row 和 col 表示 $M_{N}$ 的行索引和列索引，row, col $∈[1,PS0]\in [1,PS_{0}]$ 。噪声敏感性掩码是二值的。 $M_{S}$ 中的1表示对抗噪声中对应的块仍处于低噪声敏感性状态，可能尚未被查询或已成功进行噪声移除。 $M_{S}$ 中的0表示之前的噪声压缩过程失败。 $M_{S}$ 中每个元素的初始值都是1。在每次查询目标模型之前，我们使用逐元素乘积来获得查询值掩码 $M_{Q}$ ：

$M_{S} = J_{row,col},\quad M_{Q} = M_{N}\odot M_{S}, \quad (9)$

其中 $J$ 是一个全1单位矩阵。

如果一个块不包含噪声或之前的查询失败，则该块的查询值为零。我们按降序对 $M_{Q}$ 中的值进行排序，并移除 $M_{Q}$ 中最大值对应块上的噪声。我们将更新后的对抗样本 $x^{query}$ 输入目标模型以获得查询结果。如果 $x^{query}$ 仍然使目标模型误分类，则表明该块的噪声敏感性较低。在这种情况下，我们将 $x^{*}$ 设为 $x^{query}$ 并更新 $M_{N}$ 。否则，该块的噪声敏感性较高，并且噪声敏感性掩码 $M_{S}$ 中的对应元素被设为0。

如果 $M_{Q}$ 的总和为0，则当前块大小 $PS$ 下的所有块要么没有噪声，要么已经被查询过。在这种情况下，我们减小块大小并根据公式(8)和公式(9)重新初始化 $M_{N}$ 和 $M_{S}$ 。下一轮将对仍存在噪声的块进行更细粒度的查询。由于在前几轮中某些块上的噪声已被移除，因此PAR采用逐渐减小的块大小进行搜索，其查询效率远高于从一开始就使用非常小的块大小。

PAR的搜索过程有两个退出条件：要么达到最大查询次数 $T$ ，要么达到最小块大小 $PS_{min}$ 。设置 $PS_{min}$ 是为了保证单步噪声压缩的效率。当块大小过小时，即使后续查询成功，一步压缩的噪声幅度也不值得。算法1详细描述了PAR。

在这里插入图片描述

图3： PAR 的噪声压缩过程。基于初始对抗样本，PAR 分别记录当前对抗样本的噪声幅度和历史查询中的噪声敏感性。在定位到查询值最高的块（黄色圆圈）后，移除当前对抗样本对应块上的噪声并查询目标 ViT。如果误分类，PAR 更新噪声幅度掩码；否则，将噪声敏感性掩码上的对应块置零。

在这里插入图片描述

3.4 PAR作为噪声初始化方法

作为一种查询高效的基于决策的攻击，PAR也可以用作其他基于决策方法的噪声初始化方法。PAR移除了所有大于最小块大小 $PS_{min}$ 的可能噪声块，将剩余区域留给对ViT来说是噪声敏感的区域。通过这种方式，PAR极大地减少了后续噪声压缩的搜索空间。使用PAR初始化噪声后，基于决策的攻击可以将每次采样集中在噪声敏感性更高的区域。

表 1： Tiny-Imagenet 数据集上对抗扰动的中位数和平均 $ℓ2\ell_2$ 距离。
在这里插入图片描述

4 实验

4.1 实验设置

我们在三个图像分类数据集上进行实验：ImageNet-21k [26]、ILSVRC-2012 [27]和Tiny-Imagenet [28]。我们从ImageNet-21k和ILSVRC-2012的验证集中选取了10000张能够被所有目标模型正确分类的图像进行测试。对于包含200个图像类别的Tiny-Imagenet，我们选择了2000张图像，每个类别10张。比较了10种具有不同结构的视觉Transformer模型[34]：vit-s32, vit-b16, vit-b32, r50-132, r50-s32, vit-large-patch16-224, vit-tiny-patch16-224, vit-small-r26-s32-224, vit-tiny-patch16-224, vit-small-patch16-224。我们还纳入了8种CNN作为目标模型：resnet-18 [35], resnet-101, inception v3 [36], inception-resnet v2 [37], nasnet [38], densenet-161 [39], vgg19-bn [40], senet-154 [41]。计算使用了4张RTX 3090 GPU卡。

表 2： ImageNet-21k 数据集上对抗扰动的中位数和平均 $ℓ2\ell_2$ 距离。
在这里插入图片描述
我们在有限查询次数的黑盒设置下，将7种基于决策的攻击与我们的PAR进行了比较：边界攻击 (Boundary Attack) [15]，有偏边界攻击 (Biased Boundary Attack, BBA) [20]，进化攻击 (Evolutionary Attack, Evo) [19]，HSJA [30]，CAB [31]，Sign-OPT [33]和SurFree [32]。边界攻击、BBA、Evo和CAB的球面方向和源方向步长分别为 $δ0=0.1\delta_0 = 0.1$ , $ϵ0=0.003\epsilon_0 = 0.003$ 。对于BBA [20]，为了公平比较，我们使用了不结合每一步替代模型信息的版本。噪声幅度限制 $τ=[0,255]\tau = [0,255]$ 。对于ImageNet-21k和ILSVRC-2012，初始和最小块大小分别设置为56和7。对于Tiny-Imagenet，初始和最小块大小分别设置为16和2。所有数据集均在BSD 3-Clause许可证下使用。

对于评估标准，我们选择对抗扰动大小的中位数和平均值，如NIPS 2018对抗视觉挑战赛[28]中所应用的那样：

$median(\{\| x^{\prime} - x\|_{2}\mid x\in \mathbf{X}\}), avg = \frac{1}{n_{data}}\sum_{i = 1}^{n_{data}}(\{\| x_{i}^{\prime} - x_{i}\|_{2}\mid x\in \mathbf{X}\}), \quad (10)$

其中 $n_{data}$ 是数据集中的图像数量， $x$ 是数据集 $X\mathbf{X}$ 中的原始图像。 $x′x^{\prime}$ 是找到的离 $x$ 最近的对抗样本。较小的 $ℓ2\ell_2$ 距离表示更好的对抗样本。值得注意的是，为了更真实的黑盒攻击设置，对抗样本在输入目标模型之前会被取整。

在这里插入图片描述

图4：不同查询次数 $T$ 下对抗噪声的中位数 $ℓ2\ell_2$ 距离。

4.2 实验结果

为了验证PAR在ViT和CNN上相对于现有基于决策攻击的优势，我们在表2、表3和表1中分别报告了在ImageNet-21k、ILSVRC-2012和Tiny-Imagenet上的中位数和平均对抗扰动。三个表格的第一行代表具有不同结构的目标模型。我们比较了PAR和其他6种攻击在不同目标模型上生成噪声的平均值（Avg）和中位数（Mid）。我们还使用PAR作为其他基于决策攻击的噪声初始化方法。由PAR压缩后的噪声被交给其他基于决策的攻击进行进一步压缩。可以看出，当使用PAR初始化对抗噪声时，与仅使用原始基于决策的攻击相比，平均和中位数噪声幅度显著下降。这验证了PAR强大的噪声压缩能力。我们还将PAR与其他基于决策的攻击相结合，并在图4中比较了总查询次数为3000时的查询效率。每个子图下方的标注为目标模型。当使用PAR初始化噪声时，噪声幅度有显著下降。
表5比较了PAR在不同初始块大小和最块小大小下的噪声压缩效率和平均查询次数。压缩后的噪声被交给边界攻击进行进一步压缩，直到达到1000次查询。可以看出，当初始块大小较小时，平均查询次数会很大，导致查询效率低下，并且留给后续基于决策攻击的查询次数较少。更合理的策略是使用较大的初始块大小，并在较小的最小块大小处停止。

我们还将PAR扩展到目标攻击。我们随机选择一张目标类别的图像作为起点，并将对抗样本保持为目标类别。目标模型是vit-small-r26-s32。目标攻击结果如表4所示。PAR的目标噪声仍然明显小于其他方法。

图5比较了在ILSVRC-2012上，七种不同攻击针对vit-small-r26-s32-224生成的对抗噪声。第一行显示原始图像。每行的第二到第八张图像是每种攻击生成的噪声。PAR在满足退出条件时停止。所有其他攻击对每个对抗样本在目标模型上执行1000次查询。PAR的噪声主要集中在少数几个块上，而不是散布在整个图像上。当使用PAR进行噪声初始化时，其他基于决策的攻击的噪声幅度显著降低。

表4: ILSVRC-2012上的目标对抗扰动。
在这里插入图片描述

表5: 不同初始块大小和最小块大小下的噪声压缩比较。

在这里插入图片描述

图5: PAR、Boundary、PAR+Boundary、SurFree、PAR+SurFree、CAB和PAR+CAB在ImageNet数据集上生成的对抗噪声比较。标签和被误分类的类别标注在原始图像和对抗噪声下方。最右侧一列比较了以 $ℓ2\ell_2$ 范数度量的攻击噪声幅度。除PAR外，每种攻击均执行了1000次查询。

本文提出的PAR仅用于对抗性机器学习和ViT鲁棒性的研究，不针对任何实际系统。不存在潜在的负面影响。关于不同目标ViT和CNN结构的更多实验结果见补充材料A.3。

5 结论

在本文中，我们探讨了针对视觉Transformer的基于决策的对抗攻击。鉴于ViT各块之间噪声敏感性的巨大差异，我们提出了分块对抗移除方法，以实现查询高效的噪声压缩。PAR维护噪声幅度和噪声敏感性掩码，以分块的方式探测和压缩对抗噪声，并通过从粗到细的块大小搜索过程提高查询效率。在三个图像分类数据集上的实验验证了PAR在有限查询次数下提高查询效率的可行性和泛化能力。