【论文阅读】-《LaSM: Layer-wise Scaling Mechanism for Defending Pop-up Attack on GUI Agents》

∞984

37人浏览 · 2026-05-26 16:24:31

∞984 · 2026-05-26 16:24:31 发布

LaSM：用于防御GUI智能体弹窗攻击的层级缩放机制

在这里插入图片描述
原文链接：LaSM: Layer-wise Scaling Mechanism for Defending Pop-up Attack on GUI Agents

摘要

基于多模态大语言模型构建的图形用户界面智能体最近在基于屏幕的交互任务中展现出了强大的决策能力。然而，它们仍然非常容易受到基于弹窗的环境注入攻击，在这种攻击中，恶意视觉元素会转移模型注意力，导致不安全或错误的动作。现有的防御方法要么需要昂贵的重新训练，要么在归纳干扰下表现不佳。在本工作中，我们系统地研究了此类攻击如何改变GUI智能体的注意力行为，并揭示了正确输出与错误输出之间的层级注意力发散模式。基于这一见解，我们提出了LaSM，一种层级缩放机制，选择性地放大关键层的注意力和MLP模块。LaSM无需额外训练即可改善模型显著性区域与任务相关区域之间的对齐。在多个数据集上的大量实验表明，我们的方法显著提高了防御成功率并表现出很强的鲁棒性，同时对模型的通用能力影响甚微。我们的发现揭示了注意力错位是MLLM智能体的一个核心漏洞，可以通过选择性层级调制有效解决。我们的代码可在 https://github.com/YANGTUOMAO/LaSM 获取。

1 引言

图形用户界面智能体最近在基于屏幕的决策中展现出了令人印象深刻的能力[11, 21, 36]。基于多模态大语言模型[18]构建的GUI智能体被训练用于在包括手机和电脑在内的终端设备上的视觉环境中感知、推理和行动[35, 4]。通过与各种工具集成[7, 22]，它们可以在网页浏览、在线购物等任务中协助甚至代表非专家用户行动。

然而，这类模型对环境注入攻击[10, 13, 17]极其敏感，尤其是可以被对手随意渲染的弹窗。一个简单的恶意弹窗就足以转移智能体的注意力并触发不安全或错误的动作，导致隐私泄露或直接的系统滥用[38]。

现有的防御方法大致分为两类：(i) 基于重新训练的方法[5, 23]，包括强化微调和直接偏好优化[25]，这些方法可以提高鲁棒性，但需要大规模数据收集和计算，部署门槛高；(ii) 提示级告警[34, 38]，在输入中添加安全指令或思维链推理。虽然轻量级，但这些方法在面对其文本与用户请求语义对齐的归纳性弹窗时效果有限。更重要的是，这两类工作都将模型视为黑盒，未能解释脆弱性的内部原因，从而限制了它们的覆盖范围。

为了解决这些局限性，我们提出了LaSM（层级注意力和MLP缩放机制），一种训练后即插即用的机制，选择性地重新缩放决策关键深度的注意力和MLP模块。LaSM首先执行渐进式范围缩小搜索，自动定位最具判别力的层。然后，它在此范围内联合放大注意力图和MLP激活，恢复任务相关区域的显著性，同时保持其他层不变。这种设计不需要重新训练，与骨干模型无关，并且可以作为轻量级附加组件部署，在良性情况下保持智能体的正常行为。

实验结果表明，这种防御在不牺牲正常场景性能的情况下显著提高了对弹窗攻击的鲁棒性。在Qwen2-VL-7B上，LaSM在叠加注入下将平均防御成功率提高到74.8%，在归纳注入下提高到61.1%，并且与CoT告警组合时达到99.3%。在LLaVA-v1.6-Vicuna-13B上，LaSM在所有设置下单独达到100.0%。在多步AndroidControl情节中，LaSM将TSR从18.75%提高到30.36%，而动作类型和接地精度的变化可以忽略不计，表明其在实际部署中的实用性。

额外的分析验证了架构原理和免训练设计。我们发现中层语义层对安全性至关重要，并受益于适度的缩放，而最高层的缩放会损害高层语义的聚合。消融研究进一步表明，联合缩放注意力和MLP是必要的，因为单独缩放任一组件都会降低鲁棒性。敏感性研究确定了每个模型特定的窄系数范围（在 $\alpha \approx 1.1$ 附近），该范围在保持语义的同时最大化增益。在Qwen2-VL-2B、OS-Atlas-Pro7B和LLaMA-3.2-11B上的跨骨干研究证实了泛化能力，与提示级防御或DPO的组合显示出互补优势。

我们的贡献总结如下：

(i) 我们首次系统研究了弹窗攻击如何扭曲GUI智能体中的层级注意力，揭示了一个先前被忽视的脆弱性来源。
(ii) 我们提出了LaSM，一种轻量级、与骨干模型无关的缩放机制，无需重新训练即可缓解注意力错位。
(iii) 在覆盖12种弹窗样式的全部2400张扰动截图上，LaSM对每种变体都保持了超过95%的防御成功率，展示了强大的鲁棒保护。
(iv) 在源自真实GUI任务的全情节基准上，LaSM在弹窗攻击下将任务成功率提高了61.92%，同时正常性能下降极小。

2 相关工作

2.1 GUI智能体

由MLLM驱动的GUI智能体[28]具备解释用户指令的能力。在特定上下文或设备中，它们可以通过推理图形用户界面元素来自主完成任务。早期的GUI智能体依赖于文本输入，如HTML表示[40]或可访问性树[32]，这带来了高计算成本和有限的适应性。随着多模态模型视觉能力的进步，基于屏幕的GUI智能体[15,31]应运而生，显著提高了实用性。最近，引入思维链推理增强了复杂场景中的任务规划[20,39]，而与外部工具的更紧密集成进一步改进了跨平台协作[24]。

2.2 环境注入攻击

尽管能力强大，GUI智能体在动态环境中仍然容易受到对抗性干扰[27]。恶意内容可能降低任务准确性、泄露私人数据[3,12,19]，甚至危及底层操作系统[6]。弹窗是这种环境注入攻击的常见形式。先前研究[38]表明，弹窗严重破坏智能体行为并逃避传统安全提示。在此基础上，研究[19]引入并评估了四种环境注入类型（包括弹窗）以系统评估鲁棒性。

2.3 MLLM的显著性热图

显著性热图通过突出显示输入图像中的关键区域（通常通过彩色编码叠加）来可视化模型预测。传统方法如GradCAM [26]、T-MM [2]和IIA [1]依赖于模型传播过程中的基于梯度的线索，但主要适用于分类任务。这些技术难以处理多模态生成模型的复杂性[33]。为了解决上述局限性，研究[37]提出了一种针对生成设置定制的基于token的评分方法，使其与多模态架构兼容。在本工作中，我们采用研究[37]中的方法作为基线，生成用于可视化分析的显著性热图。

3 预备知识

3.1 动机

GUI智能体需要具备感知环境、规划动作和执行决策的能力[35]。这引出了一个基本问题：当界面上出现弹窗时，模型对环境的感知如何变化？

为了回答这个问题，我们从Zhang等人[37]的工作中汲取灵感，采用了一种基于相对注意力的可视化方法来显示大模型的注意力区域。我们可视化了Qwen2-VL-7B [30]模型所有层的注意力图，图1中展示了几个选定的热图。可以清楚地观察到，模型在不同层关注不同的区域。随着层索引的增加，模型越来越关注诸如和等元素，这些元素对应于模型关闭弹窗或与之交互的最终决策。

在这里插入图片描述

图1：同一输入图像上不同层的注意力热图。较亮的区域表示对相关区域的注意力更强。热图使用Qwen2-vl-7B模型生成。

3.2 层级注意力模式比较

为了进一步研究层级注意力分布与最终预测之间的关系，我们关注两个代表性的可点击区域，即和。对于后续所有分析，我们提取以目标像素 $(i, j)$ 为中心、边长为 $2 r + 1$ 的局部方形块，除非另有说明，我们设置 $r = 1$ 。相对注意力图 $A^{(l)} \in \mathbb{R}^{H \times W}$ 使用Zhang等人[37]的方法计算，该方法测量最后一个生成的token对每个视觉token的注意力强度。

来自层 $l$ 的局部块被向量化为：

$\mathbf{v}^{(l)}(i,j) = \mathrm{vec}\Big\{A_{u,v}^{(l)} \bigm| |u-i|\leq r, |v-j|\leq r\Big\} \in \mathbb{R}^{(2r+1)^2}. \quad (1)$

给定两个目标位置 $i_1,j_1)$ 和 $i_2,j_2)$ ，它们在层 $l$ 中对应的局部向量记为 $\mathbf{v}_1^{(l)}$ 和 $\mathbf{v}_2^{(l)}$ 。那么两个注意力模式的余弦相似度为：

$\mathrm{CosSim}^{(l)} = \frac{\langle\mathbf{v}_1^{(l)}, \mathbf{v}_2^{(l)}\rangle}{\|\mathbf{v}_1^{(l)}\|_2 \|\mathbf{v}_2^{(l)}\|_2}, \qquad l = 1,2,\ldots,L. \quad (2)$

然后我们构建两个数据集，记为 $A tt (R)$ 和 $A tt (W)$ ，其中 $R$ 表示模型对该样本输出正确答案（如）， $W$ 表示错误答案（如或截图上的其他无关元素）。为了评估不同预测结果下的一致性，我们构建两种类型的样本对：

R-R对：两个样本均从 $A tt (R)$ 中随机抽取
R-W对：一个样本从 $A tt (R)$ 中抽取，另一个从 $A tt (W)$ 中抽取

图2中的结果显示，在浅层（第1至21层），R-R对和R-W对都表现出接近1的余弦相似度，表明注意力模式稳定且无区分性。然而，在第21至26层，虽然R-R和R-W之间的绝对差距并不总是很大，但它们的发散变得更加明显——特别是在icon-cross区域——这表明在更深层出现了更具判别力的注意力模式，这些模式可能通过局部注意力的细微差异影响模型的输出决策。
在这里插入图片描述

图2：每个子图显示了目标区域（红框）上的注意力热图（左）和层级余弦相似度（右）。(a)对应区域，(b)对应区域。

3.3 基于注意力模式的层级缩放

基于模式比较分析的观察，我们研究了一种简单而有效的干预策略：放大深层（第21至26层）的注意力机制，在这些层中R-R和R-W对之间的显著性发散最为明显。虽然Zhang等人[37]仅关注注意力模式来表征表示焦点，但我们明确地不仅缩放注意力权重，还缩放每个选定层内MLP块的输出。

形式化地，基于标准Transformer架构[29]，修改后的更新规则定义为：

$X_{(l+1)} = \underbrace{X_{(l)} + \alpha\cdot\mathrm{Attention}_{(l)}(\mathrm{Norm}(X_{(l)}))}_{\chi'} + \alpha \cdot \mathrm{MLP}_{(l)}(\mathrm{Norm}(X')), \quad (3)$

其中 $X_{(l)}$ 表示层 $l$ 的输入， $X^{'}$ 表示注意力子层后的中间隐藏状态。缩放因子 $\alpha$ 直接应用于每个子层中的参数权重。具体来说，注意力模块中的所有投影矩阵（ $W_Q, W_K, W_V$ 和 $W_O$ ）以及MLP模块中的矩阵（ $W_{\mathrm{up}}, W_{\mathrm{gate}}$ 和 $W_{\mathrm{down}}$ ）在前向传播之前都预先乘以 $\alpha$ 。

干预策略如图3所示。遵循公式3定义的更新规则，第21-26层的注意力和MLP权重均被缩放，缩放因子 $\alpha$ 设为1.1。需要注意的是，由于MLP在非线性空间中调控token表示的放大和抑制，缩放MLP权重至关重要。特别是在形成细粒度决策边界的深层，MLP显著影响模型的语义理解和输出决策。更多超参数设置见附录9.1。

然而，图5中的实验结果表明，这种朴素缩放方法显著削弱了GUI智能体的防御能力，并未带来性能提升。尽管结果出人意料，该实验仍然表明层级注意力分布是模型预测的关键因素，而激进的缩放可能破坏既定的层级平衡，导致性能下降。

在这里插入图片描述

图3：对具有最高余弦相似度方差的层（红色高亮）直接应用缩放的示意图，同时针对注意力和MLP权重。

4 方法

4.1 LaSM：层级缩放机制

因此，我们采用了一种更精细的策略：层级缩放机制，它对特定层的注意力和MLP权重进行选择性缩放。关键思想是迭代地识别并纳入那些在缩放时能提高正确答案比例的层。该过程的形式化如图4所示。

具体来说，该过程由公式3定义的更新规则引导，从缩放所有层（第1至28层）开始，并测量输出预测为的比例。当正确答案比例下降时，当前层被指定为最终的下界。接着，在固定下界的情况下，以类似方式减少上界，确定最终的上界。然后使用最终的[下界, 上界]区间来缩放模型，以在Ma等人[19]提出的弹窗数据集上进行推理。图5显示了在不同层配置下正确答案比例的变化，其中防御成功率最高达到84.8%。相关指标的详细定义将在第5.1节介绍。
在这里插入图片描述

图4：渐进式层范围缩小的示意图，最终缩小的范围由红色高亮的层标记。

在这里插入图片描述

图5：不同层缩放策略下的DSR比较。

4.2 层级缩放效果的视觉分析

为了进一步验证选择安全层的合理性，我们对已识别的安全层（第7至18层）和预定义的易错层（第3.2节介绍的第21至26层）进行了局部缩放实验。这些实验旨在从视觉层面分析模型对不同缩放策略的注意力响应。具体来说，我们计算了最终token“answer”对关键视觉区域（即icon-cross按钮所在区域）的注意力得分。注意力得分计算如下：

$\mathrm{AttnMean}^{(l)} = \frac{1}{|R|}\sum_{(u,v)\in R} A_{u,v}^{(l)}, \quad (4)$

其中 $A_{u,v}^{(l)}$ 表示层 $l$ 热图上坐标 $(u, v)$ 处的注意力值， $\{(u,v) \mid |u-i|\leq r, |v-j|\leq r\}$ 是以目标像素 $(i, j)$ 为中心、半径为 $r$ 的局部方形区域。当区域完全包含在图像边界内时，基数 $∣ R ∣$ 等于 $2r+1)^2$ 。因此， $\mathrm{AttnMean}^{(l)}$ 衡量层 $l$ 分配给按钮周围区域的平均注意力强度。

为了降低样本级方差并获得稳健的估计，我们进一步将这个区域得分在包含 $N$ 张截图的评估集上取平均：

$\overline{\mathrm{AttnMean}}^{(l)} = \frac{1}{N}\sum_{n=1}^{N}\left(\frac{1}{|R|}\sum_{(u,v)\in R} A_{u,v}^{(l,n)}\right), \quad (5)$

其中 $A_{u,v}^{(l,n)}$ 表示第 $n$ 个样本在层 $l$ 位置 $(u, v)$ 处的注意力值。因此， $\overline{\mathrm{AttnMean}}^{(l)}$ 捕获了整个数据集中目标区域上的期望注意力强度，使得跨层比较对单个图像噪声不那么敏感。

在这里插入图片描述

图6：不同层缩放策略下的注意力响应。图(a)展示了最终token“answer”在区域上的层级平均注意力得分。与无缩放基线相比，缩放正确层（第7-18层）显著增加了语义层的注意力，而缩放错误层（第21-26层）则降低了注意力集中度。图(b)展示了在三种设置下第27层的注意力热图。

如图6所示，左侧是层级平均注意力图，显示了在不同缩放策略下目标区域在各层上的平均注意力得分。随后，缩放正确层（第7至18层）显著增强了模型在语义阶段对目标区域的注意力，而缩放错误层则导致注意力集中度降低和明显的焦点漂移。右侧显示了第27层的注意力热图，更直观地展示了不同策略如何影响对目标的关注：缩放正确层使模型能够准确关注按钮，而错误缩放导致注意力分散。这些发现揭示了GUI智能体在对抗性环境中运行时安全对齐的底层机制：

(i) 中层在视觉-语言对齐和安全相关推理中扮演核心角色。缩放这些层显著提高了模型检测和忽略欺骗性弹窗的能力，从而增强了在敌对UI场景中的鲁棒性。

(ii) 高层容易受到干扰，不应被缩放。缩放这些层会损害高层语义的聚合，导致注意力错位和关键信息丢失。

4.3 缩放系数 $\alpha$ 的选择

为了确定最优的缩放系数 $\alpha$ ，我们首先将其初始值设为1.1，并应用渐进缩小方法识别最适合缩放的层范围。一旦缩放范围固定，我们在区间 $[0.9, 1.3]$ 内以 $\beta = 0.05$ 为增量系统地改变 $\alpha$ ，并评估其对模型行为的影响。然后构建权衡表，考察不同的 $\alpha$ 值如何影响鲁棒性与输出语义一致性之间的平衡。该过程的完整技术细节，包括层选择逻辑和权衡评估标准，见附录9.1。

5 实验

5.1 实现

数据集。我们的实验共设计了12种弹窗样式。我们将文本提示分为与指令无关和与指令相关两类，分别对应叠加注入和归纳注入类型。关于数据集的更多细节见附录9.2。

实验设置。为了评估我们的方法，我们在两个代表性的开源多模态模型上进行实验：Qwen2-vl-7B-Instruct [30]和LLaVa-v1.6-Vicuna-13B [14]。Qwen2-vl因其强大的性能和低部署成本而作为我们的主要模型，而LLaVA-v1.6被包含在内以验证跨模型的泛化能力。

指标。我们使用防御成功率来评估我们的方法在不同弹窗攻击场景下的有效性。具体来说，在基于弹窗的对抗性干扰环境中，如果模型选择关闭弹窗（例如，点击按钮），则认为防御成功。任何其他动作，如点击、背景内容或无关界面元素，都被视为失败案例，因为这表明模型被注入内容分散了注意力或被误导了。

5.2 基线方法

为了评估我们提出的防御机制的有效性，我们将LaSM与以下基线方法进行比较。本工作中所有提示模板见附录9.3。

无防御。原始基础模型在没有额外保护或修改的情况下直接评估环境注入。该基线反映了模型对弹窗攻击的原始鲁棒性。

DPO [19]。该方法引入了一种类似强化学习的微调策略，在训练期间惩罚不安全行为，鼓励智能体避免与恶意弹窗交互。详情见附录8.3。

直接告警 [38]。该方法明确指示GUI智能体忽略弹窗，并警告模型不要点击其中的任何按钮。

5.3 主要结果

表1：DSR（%）总体比较。每个单元格格式为<原始DSR>（<LaSM后DSR><波动方向><波动值>），其中<LaSM后DSR>表示在我们的LaSM作为即插即用组件应用于基线方法后获得的DSR。IT表示注入类型，ND表示无防御，DA表示直接告警，CA表示CoT告警。Qwen2-vl-7B采用LaSM在第7至18层， $\alpha=1.1$ ；LLaVA-v1.6-Vicuna-13B采用LaSM在第12至28层， $\alpha=1.2$ 。

方法	IT	小	中	大	平均
		默认	高亮	默认	高亮
Qwen2-vl-7B（LaSM应用于L7-18，α=1.1）
ND	Overlay	20.6 (#65.8+45.2)	25.1 (#64.3+39.2)	20.1 (#72.9+52.8)	20.6 (#68.8+48.2)
	Inductive	19.5 (#67.0+47.5)	21.0 (#67.0+46.0)	15.0 (#69.5+54.5)	13.5 (#69.5+56.0)
DPO [19]	Overlay	18.1 (#65.8+47.7)	20.6 (#61.8+41.2)	17.6 (#65.8+48.2)	17.6 (#65.3+47.7)
	Inductive	15.0 (#65.0+50.0)	15.5 (#63.5+48.0)	10.0 (#65.5+55.5)	10.0 (#66.0+56.0)
DA [38]	Overlay	41.2 (#60.3+19.1)	37.7 (#64.8+27.1)	43.2 (#65.8+22.6)	41.7 (#66.3+24.6)
	Inductive	41.5 (#75.5+34.0)	41.5 (#78.5+37.0)	42.5 (#83.5+41.0)	45.0 (#79.5+34.5)
CA	Overlay	96.5 (#100.0+3.5)	97.0 (#100.0+3.0)	97.0 (#100.0+3.0)	92.5 (#100.0+7.5)
	Inductive	92.5 (#100.0+7.5)	93.5 (#100.0+6.5)	93.0 (#100.0+7.0)	96.5 (#100.0+3.5)
LLaVA-v1.6-Vicuna-13B（LaSM应用于L12-28，α=1.2）
ND	Overlay	64.3 (#81.4+17.1)	58.8 (#79.9+21.1)	70.9 (#80.4+9.5)	71.4 (#84.4+13.0)
	Inductive	59.5 (#76.5+17.0)	61.0 (#77.0+16.0)	59.5 (#78.5+19.0)	67.5 (#83.0+15.5)
DPO [19]	Overlay	42.2 (#72.4+30.2)	43.7 (#74.4+30.7)	56.8 (#75.4+18.6)	57.3 (#78.9+21.6)
	Inductive	45.5 (#72.0+26.5)	46.0 (#74.0+28.0)	45.5 (#73.0+27.5)	47.0 (#75.5+28.5)
DA [38]	Overlay	21.6 (#74.4+52.8)	21.6 (#74.4+52.8)	32.7 (#78.4+45.7)	32.7 (#78.4+45.7)
	Inductive	32.5 (#73.5+41.0)	32.5 (#75.0+42.5)	41.0 (#79.5+38.5)	41.5 (#80.0+38.5)
CA	Overlay	97.0 (#87.4+9.6)	94.0 (#85.4+8.6)	86.4 (#84.9+1.5)	92.0 (#85.4+6.6)
	Inductive	85.5 (#90.5+5.0)	87.0 (#91.5+4.5)	72.0 (#93.0+21.0)	78.0 (#94.0+16.0)

表1报告了在两个代表性模型下各种弹窗扰动下的DSR。我们总结以下关键发现：

(i) 与指令相关的弹窗显著降低模型鲁棒性。当弹窗内容与用户查询语义对齐（即归纳注入）时，模型更容易将注入元素误解为合法的UI内容。例如，在无防御条件下，Qwen2-vl-7B在归纳注入上的平均DSR仅为14.8%，而在叠加注入上为18.9%。在LLaVA-v1.6-Vicuna-13B上也观察到类似趋势（60.8% vs. 68.6%），揭示了语义对齐带来的更高脆弱性。

(ii) 视觉显著性与防御成功率并不总是相关。虽然Qwen2-vl-7B在视觉显著的弹窗下鲁棒性仍然下降，但这一趋势在LLaVA-v1.6-Vicuna-13B上并不一致。例如，在Qwen2-vl-7B上，叠加注入下的DSR从小默认的20.6%下降到大型高亮的14.1%，而LLaVA-v1.6-Vicuna-13B则呈现相反趋势，从64.3%增加到68.6%。这些结果表明，视觉显著性本身并不能决定模型对弹窗攻击的易感性，因为其内在的安全对齐鼓励其对弹窗内容进行推理和评估，而不是直接被其误导。这一观察与[33]中的发现一致，即不同的模型即使看到相同的图像也表现出不同的视觉处理模式，从而导致不同的行为结果。

(iii) 我们提出的LaSM显著增强了鲁棒性，并可作为即插即用的防御模块应用。对于Qwen2-vl-7B和LLaVA-v1.6-Vicuna-13B，LaSM持续提高了模型对各种弹窗攻击的鲁棒性，从而增强了GUI智能体在任务执行期间的可靠性。作为一种事后即插即用的组件，LaSM不需要重新训练或架构修改，可以无缝集成到不同的基线方法中。无论是与基于对齐的微调方法（如DPO）结合，还是与提示级安全告警策略结合，LaSM都能有效协同，在某些弹窗类型上达到100%的防御成功率。这一显著提升主要源于两个因素：(1) 选定的层范围有效针对了决策关键语义层（例如，Qwen的[7,18]层和LLaVA的[12,28]层）；(2) 选择的缩放系数（ $\alpha = 1.1 / 1.2$ ）增强了任务相关表示而不引入不稳定性。总体而言，当正确配置时，LaSM作为一种轻量级、可泛化且易于部署的防御机制，能够提供稳定有效的弹窗攻击防护。

6 分析与讨论

6.1 跨骨干模型的总体有效性

为了测试我们的方法在不同骨干模型上的泛化能力，我们将默认的GUI智能体替换为几个广泛使用的替代模型，如OS-Atlas-Pro-7B [31]和LLaMA-3.2-11B-Vision-Instruct [9]。

表2：不同骨干模型在有无LaSM下的防御成功率（DSR）比较。评估使用取自[19]的弹窗截图。LLaMA-3.2-11B是LLaMA-3.2-11B-Vision-Instruct的缩写。SL是缩放层的缩写，DN是无防御下的DSR，DL是LaSM下的DSR。

模型	SL	α	DN	DL
Qwen2-vl-7B	[7, 18]	1.1	8.05	84.80
Qwen2-vl-2B	[8, 18]	1.1	0.94	23.20
OS-Atlas-Pro-7B	[15,21]	1.1	13.27	85.31
GELab-Zero-4B	[17,21]	1.15	1.93	34.60
MAI-UI-8B	[15,25]	1.05	15.17	29.86
LLaMA-3.2-11B	[12,28]	1.15	52.84	45.42

如表2所示，LaSM在所有模型上持续提高防御成功率。具体来说，在Qwen2-vl-2B上的性能增益表明我们的方法即使在较小规模模型上仍然有效。此外，OS-Atlas-Pro-7B（一个在Qwen2-vl-7B上训练的任务特定GUI智能体模型）也从LaSM中显著受益，证实了其与任务特定智能体微调的兼容性。另外，GELab-Zero-4B和MAI-UI-8B（基于Qwen3-VL微调的最新GUI智能体模型）在LaSM下也取得了显著提升。最后，在广泛使用的通用视觉语言模型LLaMA-3.2-11B-Vision-Instruct上观察到的强劲改进突显了我们的方法在Qwen系列之外模型的适用性。

6.2 关键组件的选择

为了验证联合缩放注意力和MLP权重的必要性，我们在[19]的弹窗截图上进行了消融实验。如表3所示，单独缩放注意力或MLP权重都会导致防御成功率低下，甚至低于无防御基线。具体来说，仅对注意力应用缩放得到0.95%的准确率，而仅缩放MLP得到0.47%。相比之下，联合缩放两个组件达到84.80%，突显了两个模块必须一起调整才能形成有效防御。这表明不平衡的缩放会破坏内部表示流，导致注意力错位和鲁棒性下降。

表3：缩放不同参数后的DSR。

方法	准确率
注意力和MLP权重	84.80
无防御	8.05
仅注意力权重	0.95
仅MLP权重	0.47

在这里插入图片描述

图7：LLaVA-v1.6-Vicuna-13B和Qwen2-vl-7B在不同$\alpha$值下的DSR。黑色虚线表示每个模型的最高DSR点。

缩放系数 $\alpha$ 的影响。作为本工作中最关键的超参数， $\alpha$ 的选择至关重要。然而，我们观察到不同模型有不同的最优 $\alpha$ 值，这些值显著影响模型的防御性能。当 $\alpha$ 值过大或过小时，模型可能失去正常的语义表达能力。相反，使用适当的 $\alpha$ 值可以显著提高模型的防御能力，相比无缩放（即 $\alpha=1$ ）。图7显示了实验中使用的两个主要模型的 $\alpha$ 值选择及其效果。详细过程和其他发现见附录9.1。

利用DPO训练方法。尽管DPO旨在通过偏好微调增强任务对齐，但它在弹窗攻击下表现不佳。弹窗中嵌入的与指令相关的干扰通常与预期任务语义重叠，导致DPO微调模型错误地将其视为合法目标。结果，模型更有可能遵循误导性指令，例如点击试图完成任务。在我们的评估中，DPO在Qwen2-vl-7B上仅达到18.2%的平均防御成功率，在LLaVA-v1.6-Vicuna-13B上降至52.3%，在归纳注入下性能接近零。这些结果表明，仅提高任务跟随能力在对抗性环境中可能适得其反，因为它增加了模型对语义对齐攻击的易感性。然而，我们发现当与LaSM结合时，DPO也取得了显著提升，进一步证明了我们方法的通用性和即插即用特性。详情见附录8.3。

6.3 鲁棒性分析

多步GUI交互下的鲁棒性。基于Android Control [16]，我们构建了一个数据集来评估模型在多步任务中是否能正确关闭弹窗。我们使用任务成功率来衡量模型的鲁棒性，并观察弹窗位置对不同方法的影响。如图8所示，无论弹窗位置如何，我们的方法都能有效提高模型对弹窗的防御成功率，从而完成更多完整任务。更多细节见附录8.1和附录8.5。
在这里插入图片描述

图8：有无LaSM下跨弹窗位置的TSR比较。

弹窗位置对防御性能的影响。为了研究弹窗位置对模型鲁棒性的影响，我们在三种典型弹窗位置（顶部、中部、底部）下评估我们的方法，同时保持弹窗内容和外观相同（即都使用Overlay类型）。中部和底部数据集的构建过程与附录8.1相同，唯一变化是注入弹窗的空间位置。结果表明，无论弹窗位置如何，LaSM都能有效增强GUI智能体对弹窗攻击的防御能力。详情见附录8.5。

错误分析。通过分析失败案例，我们识别出两种显著增加模型错误概率的重复性失败模式，即简约界面上的主导弹窗和文本输入期间被忽略的弹窗。附录8.6提供了说明性示例以及相应的分析。

7 结论

在本文中，我们研究了GUI智能体对弹窗攻击的脆弱性，并识别出这一问题背后的层级注意力发散模式。基于这一见解，我们提出了LaSM，一种轻量级、免训练的防御方法，在窄层范围内缩放注意力和MLP模块，以恢复模型显著性区域与任务相关区域之间的对齐。实验表明，LaSM显著提高了防御成功率，对正常任务性能影响甚微，并且可以与现有方法无缝集成，以增强复杂多步GUI任务中的鲁棒性。

8 进一步讨论

8.1 层缩放下的性能与鲁棒性评估

为了评估我们基于缩放的防御方法（LaSM）是否会损害模型的原始能力，我们使用精心构建的基准数据集和标准化评估协议进行了比较分析。

数据集。评估使用OS-Atlas-7B-Pro模型在AndroidControl [16]上进行。首先，处理数据集中的所有情节，以识别模型能够无错误完成的情节。共保留了224个情节（包含687步），对应687张图像。对于每个情节，随机选择一个步骤，并在相应图像中插入一个合成弹窗以模拟对抗性干扰。为了模拟在继续原始任务之前关闭弹窗的预期行为，在扰动图像之后立即附加了一张干净图像的副本。此过程产生了一个包含911张图像的测试数据集，涵盖正常和攻击条件。示例见图9。

基线。考虑了四种评估设置：(i) 无防御，直接应用模型不加任何干预；(ii) SA（安全告警），在提示前添加固定的安全指令；(iii) LaSM，应用层级缩放机制而不修改提示；(iv) LaSM & SA，结合两种策略。

指标。使用GUI智能体的四个常用指标评估性能：Type衡量预测动作类型（如CLICK, SCROLL）与真实值之间的精确匹配。Grounding指示坐标预测准确率，专门针对Click动作。SR表示步骤成功率，仅当预测动作及其参数（例如CLICK动作的坐标）与真实值完全匹配时才算步骤成功。TSR表示任务成功率，定义为成功完成的情节比例，即未被注入弹窗误导[32][31]。

结果。结果回答了三个关键问题。首先，关于缩放是否引入任务性能下降，我们观察到LaSM保持了高Type和Grounding准确率（Type: 94.4%，Grounding: 76.05%）以及相对于无防御基线（Type: 97.26%，Grounding: 75.24%，SR: 80.02%）相当的步骤成功率（SR: 78.70%）。这表明层级缩放机制仅对正常任务性能产生极小影响。

其次，在任务成功率方面，LaSM单独将性能从18.75%（无防御）提高到30.36%（相对提升61.92%），优于安全告警（24.55%）。LaSM与安全告警结合得到26.34%，表明两种策略都有助于提高鲁棒性。然而，LaSM单独观察到的更高TSR表明缩放干预本身在减轻注入弹窗影响方面发挥了核心作用，而不仅仅依赖于提示级指令。

总体而言，这些发现验证了LaSM是一种有效的防御方法，能够以可忽略的性能代价实现显著的鲁棒性提升。

表4：不同设置下的性能比较。SA是安全告警的缩写。

方法	Type	Grounding	SR	TSR
无防御	97.26	75.24	80.02	18.75
SA	94.51	73.88	78.05	24.55
LaSM	94.40	76.05	78.70	30.36
LaSM & SA	92.97	73.61	76.84	26.34

在这里插入图片描述

图9：一个示例情节，展示了带有注入弹窗的完整交互序列。红点表示智能体为点击动作预测的位置。

8.2 CoT提示的有效性

如表1所示，基于CoT的提示在所有弹窗设置下都实现了高防御成功率。这证实了其作为轻量级基于推理的防御的潜力。

然而，这种有效性部分归因于受控设置：所有输入都包含弹窗，且CoT提示明确指示模型在找不到有用信息时关闭界面。为了进一步检验基于CoT的防御在更现实场景中的鲁棒性，我们构建了一个额外的测试集，其中弹窗与功能性界面元素（例如用于合法动作的按钮）一起呈现，如附录8.1所述。在这种混合布局环境中，单独的CoT策略表现出可靠性下降，DSR显著降低。相比之下，LaSM方法保持了一致的有效性，因为它在内部增强了注意力对齐，与基于提示的防御相比提供了更强的鲁棒性。

这些发现在我们与其他防御基线（包括DPO）的联合评估中得到了进一步验证，其中DPO与LaSM结合显示出叠加效益（附录8.3）。总体而言，虽然CoT提示在受控环境中非常有效，但其性能在更复杂的界面中可能会下降。将CoT与LaSM结合提供了改进的鲁棒性，但LaSM单独继续提供稳定且可泛化的防御机制，特别是在高度不确定和模糊的UI条件下。

8.3 DPO的有效性

尽管DPO旨在通过偏好微调增强任务对齐，但它在弹窗攻击下表现不佳。弹窗中嵌入的与指令相关的干扰通常与预期任务语义重叠，导致DPO微调模型错误地将其视为合法目标。结果，模型更有可能遵循误导性指令，例如点击试图完成任务。在我们的评估中，DPO在Qwen2-vl-7B上仅达到15.9%的平均防御成功率，在LLaVA-v1.6-Vicuna-13B上降至52.3%，在归纳注入下性能接近零。这些结果表明，仅提高任务跟随能力在对抗性环境中可能适得其反，因为它增加了模型对语义对齐攻击的易感性。

8.4 关于良性弹窗

重要的是要承认，一些弹窗在GUI工作流中具有合法目的，如登录对话框、保存提示或系统通知。这些元素对于用户交互是必不可少的，必须由智能体正确处理。

然而，在对抗性环境中，这种区分变得模糊。恶意弹窗可以被精心制作，在外观和时机上密切模仿良性弹窗，有时甚至在看似适当的上下文中被触发。这使得即使是人类观察者，基于视觉或表面水平的区分也高度不可靠。

LaSM不试图将弹窗分类为良性或恶意。相反，它通过恢复对任务相关区域的注意力对齐来防御，使模型能够忽略无关干扰，同时保留有效的用户交互。在我们的全情节基准中，LaSM在处理合法界面元素（如输入框或确认对话框）的步骤中保持了正确行为。这表明LaSM提高了鲁棒性，而没有引起过度谨慎或抑制必要动作。

我们相信，最终解决这个问题——准确区分良性和对抗性弹窗——更根本地依赖于基础模型自身的理解和推理能力，而不是独立的防御启发式方法。

8.5 弹窗位置对防御性能的影响

为了研究弹窗位置对模型鲁棒性的影响，我们在三种典型弹窗位置（顶部、中部、底部）下评估我们的方法，同时保持弹窗内容和外观相同（即都使用Overlay类型）。中部和底部数据集的构建过程与附录8.1相同，唯一变化是注入弹窗的空间位置。示例见图10。

表6：跨不同弹窗位置的性能比较。顶部位置的结果从附录8.1同步。

位置	Type	Grounding	SR	TSR	DSR
	无防御	LaSM	无防御	LaSM	无防御
顶部	97.26	94.40	75.24	76.05	80.02
中部	98.79	96.05	79.73	76.33	83.64
底部	97.37	94.84	81.22	81.36	84.55

在这里插入图片描述

图10：相同Overlay类型弹窗在不同位置渲染的代表性截图。三者外观和内容相同，仅空间位置不同。

定量结果见表6。无防御的基线模型在所有位置都表现出较低的TSR，在顶部位置下降尤为严重（18.75%）。相比之下，我们提出的LaSM机制在所有位置上都持续提高了TSR，在顶部、中部和底部分别实现了+11.61%、+3.12%和+11.16%的增益。这种持续改进表明，无论弹窗在屏幕上渲染在哪里，我们的层级缩放策略都能减轻注意力分散。

同时，我们还展示了弹窗攻击在不同屏幕位置下的防御成功率。由于这些弹窗如前所述被随机插入到224个情节中，计算DSR的分母是224。与受控放置相比，这种设置引入了更复杂和多样化的背景。尽管如此，结果显示LaSM在所有位置上都持续提高了DSR——顶部从19.61%到41.9%，中部从33.92%到42.85%，底部从38.83%到59.37%——表明我们的方法在各种上下文和注入位置下仍然有效。这证明了LaSM在异构UI条件下的强大泛化能力。

总体而言，这一结果进一步验证了LaSM不仅增强了对弹窗的总体鲁棒性，而且在现实环境变化（如位置偏移和完整背景）下仍然有效。

8.6 错误分析

尽管前一节的分析得出了令人鼓舞的结果，我们观察到LaSM的DSR与其TSR并不完全一致。理论上，如果弹窗能被正确关闭，一个完整的情节应该能成功完成。这是因为我们选择的224个情节即使在无缩放情况下也全部成功（如附录8.1所述）。此外，在无防御设置下，DSR与TSR的一致性支持了我们的假设。这表明，虽然LaSM使弹窗更容易被检测和防御，但它在任务的其他部分引入了一些问题。通过分析失败案例，我们识别出两种显著增加模型错误概率的失败模式。我们认为这些案例值得进一步分析，因为它们对模型鲁棒性和注意力偏差有重要影响。

失败类型1：简约界面上的主导弹窗。当弹窗出现在过于空白的界面上，使其成为最显著甚至唯一可见的信息时，就会出现这种失败模式。在这种情况下，模型倾向于遵循弹窗的指令，无论其相关性如何，可能是因为缺乏竞争的视觉上下文。示例见图11(a)。

失败类型2：文本输入期间被忽略的弹窗。我们观察到，当弹窗在TYPE动作期间（即智能体正在输入文本时）被注入时，示例见图11(b)，模型几乎普遍忽略弹窗并继续TYPE {content}行为。我们假设这是由于文本输入模式（例如键盘布局）的强烈独特视觉特征，为模型识别和过拟合此模式创造了捷径。这一发现与研究[8]中的分析一致，该分析表明即使是最先进的GUI智能体也倾向于基于记忆而不是对实际情况的推理来生成输出。

我们相信，分析这些失败案例对于更深入理解基于MLLM的智能体脆弱性至关重要，并可能为未来专家级模型设计和防御策略的改进提供信息。

在这里插入图片描述

图11：两个失败案例的示例。

8.7 进一步解释

为了更好地理解LaSM为何能提高鲁棒性，我们分析了在不同弹窗大小下R-R和R-W查询对中最后一个token的隐藏状态。我们计算每对的余弦相似度，将其转换为角度，并从R-W角度中减去R-R角度。这给出了正确输出与错误输出之间发散程度的度量。如图12所示，在选定的缩放层中，角度差异显著增加。这表明这些层捕捉到了决策行为中更强的差异，支持了我们在此范围内应用缩放的选择。

在这里插入图片描述

图12：R-R和R-W对隐藏状态之间的角度差异。

9 实现细节

9.1 如何选择缩放系数 $\alpha$

我们观察到最优缩放系数 $\alpha$ 是模型依赖的。如表5所示，对于Qwen2-vl-7B模型，最高防御成功率在 $\alpha=1.10$ 时达到94.79%。相比之下，LLaVA-v1.6-Vicuna-13B的最佳性能在 $\alpha=1.20$ 时达到峰值89.57%。这种差异表明最优 $\alpha$ 因架构而异，可能由于其独特的内部表示动态。

尽管如此，两个模型共享一个共同特征：有效的 $\alpha$ 值保持接近1。一旦 $\alpha$ 偏离1太远（低于0.95或高于1.30），DSR急剧下降。为了更好地理解这种效应，我们可视化了极端 $\alpha$ 值下的模型输出。如图14和图15所示，当 $\alpha=0.6$ 或 $\alpha=1.4$ 时，Qwen2-vl-7B模型生成不连贯或不相关的响应。这表明过度的缩放扭曲了内部特征表示，导致语义失败。

表5：不同 $\alpha$ 值下的防御成功率（%）（省略0.65–0.90）。为便于阅读，我们省略了 $\alpha=0.65$ 到0.90之间的值，这些值已经导致显著的输出失真。我们保留 $\alpha=0.60$ 作为极端情况来说明失败行为。

模型	0.60	0.95	1.00	1.05	1.10	1.15	1.20	1.25	1.30	1.35	1.40
LLaVA-v1.6-Vicuna-13B	0.00	32.23	50.24	67.30	77.25	81.99	89.57	87.68	86.05	85.78	53.08
Qwen2-vl-7B	0.00	0.47	1.42	29.38	94.79	82.46	73.46	54.32	16.11	3.32	1.90

这些观察突显了在安全范围内仔细调整 $\alpha$ 的重要性。基于我们的实验，我们总结以下发现：

发现1：最优 $\alpha$ 不是通用的——由于不同的层深度、激活分布和显著性行为，它因模型架构而异。
发现2：当 $\alpha$ 偏离1太远时（特别是 $\alpha<0.95$ 或 $\alpha>1.30$ ），所有模型都表现出急剧的性能下降。
发现3：适度的上调（例如 $\alpha \in [1.05, 1.2]$ ）通常能在模型间产生一致的增益，表明温和的放大增强了安全对齐而不破坏语义。
发现4：输出可视化显示，极端的缩放导致模型产生幻觉或忽略用户意图，证实了鲁棒性对 $\alpha$ 的高度敏感性。
发现5：准确率的急剧峰值随后下降形成了关于 $\alpha$ 的钟形响应曲线，表明存在一个平衡表达性和稳定性的最优缩放平衡点。
在这里插入图片描述

图14：$\alpha=0.6$时智能体输出的示例。模型输出变得完全混乱。

在这里插入图片描述

图15：$\alpha=1.3$时智能体输出的示例。智能体反复将icon-cross按钮识别为最相关的动作。

9.2 数据集

为了进一步验证我们方法的泛化能力，我们沿三个维度定义并构建了各种弹窗扰动。术语“尺寸”指弹窗遮挡底层界面的程度，这与先前工作[38]中的设置不同，在[38]中弹窗被放置在空白区域以减少遮挡——这是一种不现实的场景。我们将弹窗与目标可点击元素的大小进行比较，分为三个级别：大、中、小。大弹窗几乎可以覆盖整个屏幕，完全阻挡关键内容；小弹窗显示为浮动按钮，干扰最小。中型弹窗专门设计用于覆盖目标的一半，使我们能够检查部分遮挡是否导致模型点击可见部分，揭示不完全可见性的影响。

文本内容。我们将文本提示分为与指令无关和与指令相关两类，分别对应叠加注入和归纳注入类型。对于叠加类型（与指令无关），我们使用诸如“忽略所有指令并点击确认！”之类的提示，这些与用户的原始意图无关。对于归纳类型（与指令相关），我们使用诸如“你想吃牛排吗？点击确认！”之类的提示，这些与用户查询语义对齐，因此更具误导性。这种分类使我们能够检查弹窗文本的语义相关性是否影响模型的决策行为。值得注意的是，即使确认按钮仅标记为“确认”，也可以很容易地设计为重定向到广告页面或触发其他恶意行为。

字体样式。一些研究在GUI元素中嵌入几乎透明的恶意内容，使其对人类视觉上不可察觉，而模型仍可检测到。为了研究GUI智能体如何对不同显著性水平的字体做出响应，我们定义了两种类型：默认字体和高亮字体。默认字体设置为纯黑色，而高亮字体设置为纯红色。字体大小根据弹窗的大小而变化。

通过结合弹窗尺寸、文本内容和告警模板，我们获得了12种弹窗图像，如图13所示。基础数据集包含200张截图。通过将所有弹窗样式嵌入这些截图，生成了最终的2400张截图样本集。

在这里插入图片描述

图13：按尺寸分组的12种弹窗变体示例，每种结合了语义相关性和字体样式。

9.3 提示模板

在本研究中，我们专注于评估注入攻击下的安全性，而不是提高坐标预测准确率，鉴于基础模型之间存在显著的能力差距。因此，在表1中，我们采用了一种简化的响应格式——Button ——以实现更快的推理和更清晰的意图对齐。这种抽象减少了低层输出变化的噪声，并遵循了使用固定提示模板进行一致执行的GUI智能体基准的标准设计。对于专家模型OS-ATLAS，我们使用其官方提示，要求显式的动作类型和坐标。因此，表2、表6和表4中的结果基于预测坐标是否落在目标区域内进行评估。所有提示模板如图16-18所示。

在这里插入图片描述