GUI智能体是否足够专注?

在这里插入图片描述
原文链接:Are GUI Agents Focused Enough? Automated Distraction via Semantic-level UI Element Injection

语义级UI元素注入揭示视觉接地漏洞

摘要 现有的针对GUI智能体的红队测试研究存在重要局限性。对抗性扰动通常需要白盒访问,这对于商业系统是不可用的,而提示注入则日益被更强的安全对齐所缓解。为了在更实际的威胁模型下研究鲁棒性,我们提出了语义级UI元素注入,这是一种红队测试设置,通过将安全对齐且无害的UI元素叠加到截图上,来误导智能体的视觉接地。我们的方法使用模块化的编辑器-叠加器-受害者流水线和一个迭代搜索过程,该过程采样多个候选编辑,保留最佳累积叠加,并根据之前的失败调整未来的提示策略。在五个受害者模型上,我们的优化攻击在最强的受害者上将攻击成功率比随机注入提高了4.4倍。此外,在一个源模型上优化的元素能有效地迁移到其他目标模型,表明存在与模型无关的漏洞。在首次成功攻击之后,受害者在后续独立试验中仍有超过15%的概率点击攻击者控制的元素,而随机注入低于1%,表明注入的元素起到了持久吸引子的作用,而非简单的视觉杂乱。

关键词:GUI智能体 · 注入攻击 · 对抗鲁棒性

1 引言

近年来,图形用户界面(GUI)智能体已从传统的流水线系统[26, 33, 64]快速演进为端到端模型[31, 32, 39, 43, 48, 52]。尽管它们在移动、桌面和多语言UI环境中的能力不断增强,但将注意力准确聚焦到任务相关的UI元素上仍然是一个关键瓶颈[10, 29, 46, 55],这促使了面向安全性的鲁棒性评估。

随着视觉语言模型(VLM)日益成为现代GUI智能体的认知引擎,评估其鲁棒性变得至关重要。然而,当前的攻击范式在应用于这些系统时面临两个局限性。传统的对抗性扰动是非语义的,并且依赖于
在这里插入图片描述

图1:语义级UI元素注入框架。编辑器(绿色)接收截图、步骤指令和真实边界框,并通过迭代黑盒搜索提出注入什么元素以及注入到哪里。叠加器(蓝色)使用Qwen3-VL-Embedding嵌入提案,从FAISS索引的跨平台池中检索最近的图标,应用空间和语义非平凡性约束,并将图标合成到截图上。受害者(红色)处理对抗性截图并预测点击位置;点击落在真实框外构成L1成功(未命中),点击落在注入图标上构成L2成功(命中注入元素)。

白盒梯度访问[49, 58, 62],这使得它们不适用于黑盒商业系统。提示和环境注入本质上是恶意的[13, 14, 18, 66],并且随着安全对齐[36-38]的成熟,它们越来越被安全护栏[27, 48, 63]拦截。

为了揭示GUI智能体中更深层的漏洞,我们提出了语义级UI元素注入,这是第一个通过策略性地将离散的、语义合理的且安全对齐的UI元素叠加到截图上,来破坏视觉接地的红队测试范式。与基于梯度的扰动不同,我们注入的图标是来自跨平台数据集的真实GUI元素,在感知上与真正的界面组件无法区分。与恶意注入不同,每个图标在内容上都是无害的,并且设计上能够通过安全过滤器,然而这种攻击系统地利用了当精心选择的诱饵占据相邻屏幕区域时产生的视觉-语义模糊性。该流水线(图1)将攻击解耦为三个可组合的模块:一个编辑器,负责提出注入什么元素以及注入到哪里;一个叠加器,通过基于嵌入的检索获取并合成图标;以及一个受害者,评估生成的截图。

2 整体设计

为了解决UI元素注入缺乏可扩展端到端系统的问题,我们引入了一个集成的、分布式的语义级GUI干扰框架。我们的系统旨在为这种新颖的攻击范式建立一个可复现且高度可适应的基础。通过严格将算法相关组件与复杂的执行逻辑解耦,该框架使未来的研究能够无缝复用该流水线进行漏洞发现、鲁棒性评估和对抗性数据生成。

如图1所示,执行流水线包含三个可组合的模块:(1)编辑器,生成结构化的编辑规范;(2)叠加器,通过嵌入检索将文本规范映射到具体的视觉元素,并以精确的空间控制将其叠加到截图上;(3)受害者,评估编辑后的截图,以确定环境侧的修改是否成功改变了智能体的预测动作。

2.1 编辑器

给定一个截图 S S S、步骤指令 I I I和真实目标边界框 b ∗ ∈ [ 0 , 1 ] 4 b^{*} \in [0,1]^{4} b[0,1]4,我们通过语义级UI元素叠加构建对抗性截图。如果受害者智能体 f v f_{v} fv在对抗性截图 S a d v S_{\mathrm{adv}} Sadv上对指令 I I I的接地出错,即预测点击 p ^ = f v ( S a d v , I ) ∉ b ∗ \hat{p} = f_{v}(S_{\mathrm{adv}},I) \notin b^{*} p^=fv(Sadv,I)/b,则攻击成功。为了具体实现这一点,编辑器充当初始提案阶段,确定要注入什么元素以及将它们放在哪里。

作为面向用户的入口点(图1),编辑器处理三个输入: S S S I I I b ∗ b^{*} b。截图 S S S和指令 I I I提供了视觉和任务上下文,使视觉语言模型(我们使用Qwen3-VL-Plus [5])能够生成布局感知的提案,而不是上下文无关的修改。关键的是, b ∗ b^{*} b充当一个显式的空间约束,防止注入的元素遮挡真实目标,确保攻击作为一种语义干扰而非简单的物理遮挡。

编辑器输出一个标准化、最小化的提案,包含两个字段:语义元素描述(内容)和归一化边界框(位置)。我们采用这种“文本描述+位置”的范式,而不是端到端的对抗性图像生成,主要有两个原因。首先,经过GUI训练的VLM天然比通用图像生成器更理解界面约定,从而确保视觉上一致的干扰项。其次,全图像合成可能会在离散的GUI结构中引入不可控的伪影。基于局部描述的边界框保证了显式、可复现的修改,这些修改可以与我们基于检索的实现阶段无缝集成。

总之,依赖于预训练、先验丰富且计算高效的VLM来生成描述性文本,被证明比端到端图像生成更适合此场景,这一点也得到近期GUI世界模型进展的有力支持[24, 34, 65]。

在这里插入图片描述

图2:构建的UI元素池概览。我们通过以下方式表征其跨领域多样性:(1)跨桌面、移动和多语言数据集的源分布(左上);(2)长尾边界框面积直方图(右上);(3)展示视觉异质性的图集概览(底部)。这种结构多样性对于基于检索的鲁棒UI元素注入至关重要。

2.2 叠加器与受害者

叠加器将编辑器的结构化提案转化为具体的语义级扰动。以原始截图和提议的编辑为输入,它将每个文本描述接地到预构建图标池 P \mathcal{P} P中的特定视觉图标,将其调整到目标边界框大小,并无缝叠加生成复合截图 S a d v S_{\mathrm{adv}} Sadv。为了高效执行,该模块集成了三个组件:用于检索的多模态嵌入模型、用于最近邻向量搜索的FAISS [17]索引,以及用于快速图像字节检索的LMDB数据库。

我们使用Qwen3-VL-Embedding [30]将文本描述和元素图像映射到一个共享的多模态空间。关键的是,作为Qwen3-VL家族的一部分,它与编辑器共享GUI相关的语义先验,确保文本提案与检索到的图像裁剪之间具有高度的兼容性。为了支持开放世界、跨平台注入,我们构建了一个大规模的图标池 P \mathcal{P} P,聚合了移动端(AMEX [8], AndroidWorld [41], UIBert [4], RicoSCA [16])、网页端(SeeClick [15])和桌面端GUI(OS-Atlas [47]),并辅以多语言数据(CAGUI [60])。这些原始数据经过严格的过滤和去重流水线——包括尺寸/宽高比检查、alpha覆盖率和拉普拉斯方差过滤、SHA-256和感知哈希(d/pHash),以及基于配额的蓄水池采样。得到的多样化、长尾元素池 P \mathcal{P} P(图2)被离线嵌入并在FAISS中建立索引。

在在线执行期间,叠加器嵌入编辑器的文本,通过余弦相似度查询FAISS索引,并直接从LMDB获取原始图像字节。这种向量搜索和图像存储的解耦规避了管理与数百万个小图像文件相关的严重I/O瓶颈。为了确保攻击构成真正的语义干扰而非简单的物理遮挡或精确复制,我们对每个注入的元素 ( e , b ^ ) (e,\hat{b}) (e,b^)强制执行两个非平凡性约束:

I o U ( b ^ , b ∗ ) < τ i o u , cos ⁡ ( ϕ ( e ) , ϕ ( e ∗ ) ) < τ c o s , ( 1 ) \mathrm{IoU}(\hat{b},b^{*}) < \tau_{\mathrm{iou}}, \qquad \cos(\phi(e), \phi(e^{*})) < \tau_{\mathrm{cos}}, \quad (1) IoU(b^,b)<τiou,cos(ϕ(e),ϕ(e))<τcos,(1)

其中 ϕ ( ⋅ ) \phi(\cdot) ϕ()表示Qwen3-VL-Embedding, e ∗ e^{*} e是真实元素裁剪。空间约束( τ i o u \tau_{\mathrm{iou}} τiou)防止直接遮挡目标 b ∗ b^{*} b,而语义约束( τ c o s \tau_{\mathrm{cos}} τcos)确保检索到的物理图像 e e e e ∗ e^{*} e在视觉上是不同的。违反任一阈值的编辑将被丢弃。这些约束严格定义了用于计算ASR的可行攻击空间。

最后,受害者 f v f_{v} fv处理复合截图 S a d v S_{\mathrm{adv}} Sadv以及原始指令 I I I。如果扰动误导智能体预测的动作 p ^ \hat{p} p^落在真实目标边界框 b ∗ b^{*} b之外,则认为攻击成功。

3 红队攻击

在本节中,我们进一步阐述编辑器侧的红队攻击算法,这在第2节中未详细讨论。完整算法如算法1所示。

3.1 迭代深度细化搜索

现有的针对LLM的自动化越狱方法[9, 35]已经证明,由反馈引导的迭代自我细化可以在固定的查询预算内显著提高黑盒攻击成功率。其核心见解是,虽然单次攻击尝试很少成功,但在已失败条件的基础上对一系列细化的提案进行结构化搜索,比独立采样有效得多。我们将这种理念应用于GUI干扰,并实例化为一个受TAP的贪心树搜索[35]启发的深度×Pass@N细化循环,同时使其适应元素注入的累积叠加特性。

形式化地,令 S S S表示原始截图, I I I为任务指令, b ∗ b^{*} b为真实元素边界框, E \mathcal{E} E为编辑器LLM, f v f_{v} fv为受害者智能体。在每个深度 d d d,编辑器并行提出 N N N个独立的编辑集 { R d , n } n = 1 N \{\mathcal{R}_{d,n}\}_{n=1}^{N} {Rd,n}n=1N(Pass@N)。每个提案 R d , n = { ( e k , b ^ k ) } \mathcal{R}_{d,n} = \{(e_k, \hat{b}_k)\} Rd,n={(ek,b^k)}是元素描述 e k e_k ek和位置 b ^ k \hat{b}_k b^k对的列表。为了确保真正的语义干扰,这些编辑通过应用公式(1)定义的非平凡性约束进行过滤,

在这里插入图片描述

得到有效的编辑集 R d , n ∗ \mathcal{R}_{d,n}^{*} Rd,n。过滤后的编辑被累积地应用到前一个基础图像上: S d , n ← O V E R L A Y ( S ( d − 1 ) , R d , n ∗ , P ) S_{d,n} \leftarrow \mathrm{OVERLAY}(S^{(d-1)}, \mathcal{R}_{d,n}^{*}, \mathcal{P}) Sd,nOVERLAY(S(d1),Rd,n,P),并查询受害者以获得预测的点击 p ^ d , n = f v ( S d , n , I ) \hat{p}_{d,n} = f_v(S_{d,n}, I) p^d,n=fv(Sd,n,I)

具体来说,我们的细化将单个最佳图像带到下一个深度: S ( d ) ← S d , n ∗ S^{(d)} \leftarrow S_{d, n^{*}} S(d)Sd,n,其中 n ∗ = arg ⁡ max ⁡ n Score ( d , n ) n^{*} = \arg\max_n \text{Score}(d, n) n=argmaxnScore(d,n)。这种贪心单路径选择使得编辑在深度之间是累积的;每个深度层在前一深度修改后的图像上添加干扰项。这种设计的动机源于元素注入的性质:早期成功的放置会保留在画布上并继续施加视觉压力,因此最佳策略是在最有希望的累积状态之上进行细化,而不是重新访问替代分支。当 p ^ d , n ∉ b ∗ ∧ R d , n ∗ ≠ ∅ \hat{p}_{d,n} \notin b^{*} \wedge \mathcal{R}_{d,n}^{*} \neq \emptyset p^d,n/bRd,n=(攻击成功)时,搜索提前终止。

用于选择 n ∗ n^{*} n的评分函数编码了五个信号的优先级字典顺序:

S C O R E ( d , n ) = ( s d , n , δ d , n , c ˉ d , n , ∣ R d , n ∗ ∣ , − n ) , ( 2 ) \mathrm{SCORE}(d, n) = \left(s_{d,n}, \delta_{d,n}, \bar{c}_{d,n}, |\mathcal{R}_{d,n}^{*}|, -n\right), \quad (2) SCORE(d,n)=(sd,n,δd,n,cˉd,n,Rd,n,n),(2)

其中 s d , n s_{d,n} sd,n是一个粗粒度成功累加器,定义为

s d , n = γ 1 1 [ c d , n ] + γ 2 1 [ p ^ d , n ∉ b ∗ ] + γ 3 1 [ ∣ R d , n ∗ ∣ > 0 ] − γ 4 1 [ ∣ R d , n ∗ ∣ = 0 ] , ( 3 ) s_{d,n} = \gamma_1 \mathbf{1}[c_{d,n}] + \gamma_2 \mathbf{1}[\hat{p}_{d,n} \notin b^{*}] + \gamma_3 \mathbf{1}[|\mathcal{R}_{d,n}^{*}| > 0] - \gamma_4 \mathbf{1}[|\mathcal{R}_{d,n}^{*}| = 0], \quad (3) sd,n=γ11[cd,n]+γ21[p^d,n/b]+γ31[Rd,n>0]γ41[Rd,n=0],(3)

缩放因子满足 γ 1 ≫ γ 2 ≫ γ 3 > γ 4 > 0 \gamma_1 \gg \gamma_2 \gg \gamma_3 > \gamma_4 > 0 γ1γ2γ3>γ4>0,确保L2成功(受害者点击注入的图标, c d , n c_{d,n} cd,n)严格支配L1成功( p ^ d , n ∉ b ∗ \hat{p}_{d,n} \notin b^{*} p^d,n/b),后者又支配部分进展(至少一个图标被接受, ∣ R d , n ∗ ∣ > 0 |\mathcal{R}_{d,n}^{*}| > 0 Rd,n>0,并对空提案施加小惩罚)。这里 c d , n ∈ { 0 , 1 } c_{d,n} \in \{0,1\} cd,n{0,1}是L2指示符(当受害者的点击 p ^ d , n \hat{p}_{d,n} p^d,n落在 R d , n ∗ \mathcal{R}_{d,n}^{*} Rd,n中任何注入图标的边界框内时为1)。 δ d , n \delta_{d,n} δd,n是归一化点击距离(更高的 δ \delta δ表示实现了更多的视觉混淆)。 c ˉ d , n \bar{c}_{d,n} cˉd,n是应用图标的平均余弦质量分数,在最佳点权重下计算;余弦值在 [ 0.30 , 0.57 ] [0.30, 0.57] [0.30,0.57]之间获得最高奖励,因为它表示语义相似但视觉上不相同的诱饵;低于0.20或高于0.60的值获得较低分数,后者也会被公式(1)中的非平凡性门控拒绝。 ∣ R d , n ∗ ∣ |\mathcal{R}_{d,n}^{*}| Rd,n计数成功放置的图标数量。元组按字典序比较,因此成功总是占主导地位,但 δ d , n \delta_{d,n} δd,n作为主要的局部进展信号:我们凭经验发现,达到 δ > 0.05 \delta > 0.05 δ>0.05的攻击在下一个深度有显著更高的成功机会。

3.2 上下文感知提示与目标自适应策略

开发过程中发现的一个关键挑战是,编辑器在无训练设置中运行,无法看到图标池 P \mathcal{P} P:它无法检查哪些图标实际上是可用的。因此,它必须输出在Qwen3-VL-Embedding空间下可能检索到视觉有效图标的元素描述,而没有任何关于给定描述是否会产生有用匹配的直接反馈。早期实验证实了这个问题:在大约20个试点样本中,朴素提示产生的图标描述平均检索余弦 c ˉ ≈ 0.22 \bar{c} \approx 0.22 cˉ0.22,意味着放置的图标在视觉上与目标无关,并且没有引起受害者可测量的混淆(超过95%的pass中 δ < 0.01 \delta < 0.01 δ<0.01)。这一观察促使了下面描述的上下文学习设计,其中多轮历史和基于规则的诊断被直接整合到提示中,以帮助编辑器迭代地校准其描述策略。

上下文感知提示。每次编辑器调用接收一个结构化提示,包含任务指令 I I I、真实边界框 b ∗ b^{*} b(以避免平凡放置)、当前截图 S ( d − 1 ) S^{(d-1)} S(d1),以及最多15次先前尝试的压缩历史 H \mathcal{H} H。每个历史条目记录提议的元素描述、检索到的余弦相似度、受害者点击坐标以及归一化点击距离 δ \delta δ,为编辑器提供了哪些描述检索到视觉相似图标以及哪些放置干扰了受害者的具体证据。添加一个多样性令牌tok n _n n以打破跨pass的固着:没有它,并行pass往往会收敛到相同的提案。从 b ∗ b^{*} b导出的空间提示进一步推动编辑器推理相邻或干扰性的放置区域。

目标自适应策略选择。即使有丰富的历史,我们观察到某些故障模式在结构上是不同的,需要质量上不同的策略。因此,我们引入了一个轻量级的MetaDiagnose模块,它检查 H \mathcal{H} H并产生一个分类诊断:Super-Stuck(在 ≥ 3 \geq 3 3次尝试中 max ⁡ t δ t < 0.005 \max_t \delta_t < 0.005 maxtδt<0.005,表示受害者被坐标锁定并忽略所有视觉干扰);Near-Miss 0.005 ≤ max ⁡ t δ t < 0.05 0.005 \leq \max_t \delta_t < 0.05 0.005maxtδt<0.05,受害者被部分

4 实验

我们在两个预算维度下评估攻击成功率(ASR)。ASR@D:在 D D D次深度迭代内的累积L1-ASR,每次迭代包含三个并行提案(pass@3)。在一个提案内,编辑器最多可以注入max_edits = 3 = 3 =3个图标,尽管每次尝试实际接受的非平凡图标数量各不相同。ASR@K:当总共最多放置了 K K K个非平凡注入图标时的累积L1-ASR。由于每次提案接受的数量是可变的,深度预算 D D D和图标预算 K K K并非一一对应;这两个指标捕捉了攻击效率的互补方面。

可视化示例请参考附录。

基线:随机注入。作为一个非自适应基线,我们实现了一个随机编辑器,完全绕过LLM引导的提案阶段:每次尝试均匀采样最多max_edits个边界框(归一化边长 ∈ [ 0.03 , 0.20 ] \in [0.03, 0.20] [0.03,0.20],拒绝采样以确保与真实元素零像素重叠),并从LMDB池中随机抽取图标索引,没有语义检查也没有迭代反馈。由于该基线作为平面、无记忆的采样循环运行,而不是策略编辑器的深度×pass@3层次结构,它不会产生自然的ASR@D分解。因此,我们将其性能报告为 K ∈ { 3 , 6 , 9 , 12 , 15 } K \in \{3,6,9,12,15\} K{3,6,9,12,15}时的ASR@K;为了与表1进行近似比较,这些值被用作 D = 1 , … , 5 D = 1,\ldots,5 D=1,,5的代理(标记为 ∼ \sim )。

4.1 主要结果

定向攻击大幅优于随机注入。表1展示了我们的两种攻击变体与随机注入基线在五个受害者模型上的ASR@D。UT-opt.:针对UI-TARS-1.5-7B优化的对抗性图标(缩写为UT-opt.)。GO-opt.:针对GUI-Owl-7B优化的对抗性图标(缩写为GO-opt.)。我们强调三个关键观察。

(1)策略优化相对于随机注入提供了一致且大幅的优势。在所有五个受害者和所有深度预算下,我们的方法实现了比随机注入高得多的ASR。对于最强的受害者,增益最为显著:对于UI-TARS-1.5-7B,UT-opt.在 D = 5 D=5 D=5时达到 32.99 % 32.99\% 32.99%,而随机注入约为 7.58 % 7.58\% 7.58%,相对提高了 4.4 × 4.4\times 4.4×。对于Qwen3-VL-8B,增益同样显著( 31.70 % 31.70\% 31.70%对比约 8.43 % 8.43\% 8.43%)。即使对于Qwen2.5-VL-7B(其合格池较小,仅占885个样本的约 11 % 11\% 11%,限制了直接比较),我们的方法接近饱和( > 86 % >86\% >86%),而随机注入在 82 % 82\% 82%附近趋于平缓。

(2)攻击在受害者模型之间近乎完美地迁移。UT-opt.(针对UI-TARS-1.5-7B优化)和GO-opt.(针对GUI-Owl-7B优化)在每个受害者上实现了几乎相同的ASR:在 D = 5 D=5 D=5时,对于UI-TARS-1.5-7B,两者的得分分别为 32.99 % 32.99\% 32.99% 34.43 % 34.43\% 34.43%;对于GUI-Owl-7B,分别为 51.65 % 51.65\% 51.65%

表1:在885样本划分上,不同深度预算 D D D(pass@3)下的L1-ASR。Eligible:受害者在干净截图上正确回答的样本比例。UT-opt.(UI-TARS-1.5-7B优化)/ GO-opt.(GUI-Owl-7B优化):我们的两种攻击变体。Rand. Inject.值( ∼ \sim ):在 K = 3 D K=3D K=3D时的ASR@K用作近似代理(见正文)。

受害者 攻击 Eligible ASR@深度预算 (%)
D=1
Qwen2.5-VL-7B-Instruct [40] Rand. Inject. 11.30% ~50.00
UT-opt. (Ours) 11.19% 58.59
GO-opt. (Ours) 11.19% 68.69
GUI-Owl-7B [54] Rand. Inject. 98.19% ~8.52
UT-opt. (Ours) 95.59% 23.88
GO-opt. (Ours) 100% 24.18
OpenCUA-7B [45] Rand. Inject. 89.94% ~8.79
UT-opt. (Ours) 89.60% 23.33
GO-opt. (Ours) 89.60% 23.08
UI-TARS-1.5-7B [39] Rand. Inject. 99.89% ~2.38
UT-opt. (Ours) 100% 12.99
GO-opt. (Ours) 99.97% 14.04
Qwen3-VL-8B-Instruct [5] Rand. Inject. 96.50% ~2.34
UT-opt. (Ours) 96.61% 13.33
GO-opt. (Ours) 96.61% 11.70

50.96 % 50.96\% 50.96%。这种近乎对称性表明,对抗性图标利用的是GUI布局中与模型无关的视觉-语义模糊性,而不是特定受害者架构的特性,使得攻击实际上是黑盒的。

(3)受害者模型聚类为两个鲁棒性层级。GUI-Owl-7B [54]和OpenCUA-7B [45]在任一优化攻击下, D = 5 D=5 D=5时的ASR维持在 50 − 52 % 50-52\% 5052%,其逐深度曲线在所有 D D D上几乎无法区分。UI-TARS-1.5-7B [39]和Qwen3-VL-8B [5]形成第二个聚类,ASR为 32 − 35 % 32-35\% 3235%,同样具有平行的曲线。这种聚类可能反映了训练差异:GUI-Owl和OpenCUA是在GUI特定数据上微调的,具有相对紧凑的视觉编码器[45, 54],其接地可能更多地依赖于对图标级扰动更敏感的局部纹理线索。UI-TARS-1.5-7B和Qwen3-VL-8B利用了显著更多样化的接地监督[5, 39],从而提供了更大的空间鲁棒性。即使如此,它们在 D = 5 D=5 D=5时仍有三分之一的概率被成功攻击,突显了威胁的实际严重性。

图标预算分析:L1/L2差距与语义定位的作用。图3补充了表1中两个在逐深度视角下不可见的发现。

早期饱和与L2/L1差距揭示了攻击成功的性质。策略攻击的L1-ASR曲线在前 K = 3 K=3 K=3个图标内急剧上升,之后基本趋于平缓,而随机注入在整个过程中缓慢且近乎线性地增长。更能说明问题的是,随机注入的L2-ASR在所有受害者和所有预算下基本上为零:它偶尔的L1成功源于受害者被其他预先存在的元素分散注意力,而不是被注入的图标本身。相比之下,策略攻击保持了可观的L2率(也见表3),证实了语义定位导致受害者专门将其点击重定向到攻击者选择的诱饵。因此,L1/L2差距是攻击是真正有目的的还是仅仅是偶然的内在标志。

图标预算轴在细粒度上证实了黑盒迁移性。在ASR@K视角下,UT-opt.和GO-opt.曲线在所有受害者的整个 K K K范围内,在L1和L2两个面板上都几乎重叠,差异始终低于一个百分点。这种细粒度的一致性再次证实了对抗性图标利用的是与模型无关的GUI模糊性。
在这里插入图片描述

图3:累积ASR vs. 总非平凡注入图标数$K$($N=885$)。L1(左,未命中):受害者的点击错过了真实元素。L2(右,命中注入):受害者点击注入的对抗性图标。线型:虚线=随机注入;实线=UT-opt.(UI-TARS-1.5-7B优化);虚线=GO-opt.(GUI-Owl-7B优化)。颜色表示受害者模型(图例)。

4.2 发现与分析

表2:首次L1成功攻击时的点击距离:均值(中位数)像素。受害者的预测点击与真实边界框中心之间的欧氏距离。UT-opt.=UI-TARS-1.5-7B优化;GO-opt.=GUI-Owl-7B优化。 † \dagger Qwen2.5-VL-7B:由于攻击前准确率低,仅有约100个合格样本。

攻击 UI-TARS-1.5-7B GUI-Owl-7B Qwen3-VL-8B Qwen2.5-VL-7B† OpenCUA-7B
随机注入 695.8 / 254.1 528.8 / 415.7 410.1 / 287.9 1090.3 / 905.3 604.4 / 442.8
UT-opt. (Ours) 431.5 / 210.5 470.2 / 324.5 434.4 / 283.8 774.0 / 441.5 446.0 / 256.4
GO-opt. (Ours) 359.0 / 211.0 441.6 / 267.6 394.4 / 233.8 905.6 / 504.4 427.3 / 267.9

表2报告了首次成功攻击的点击与真实边界框中心之间的欧氏距离。在所有受害者上,策略攻击产生的平均距离小于随机注入,中位数的减少尤为显著(例如,UI-TARS-1.5-7B:210.5 vs. 254.1像素;GUI-Owl-7B:267.6 vs. 415.7像素)。乍一看,较小的点击距离似乎表明混淆程度较低;然而,这些距离在绝对值上仍然很大(通常为200-500像素),并且应与L2证据一起解释:受害者的点击被持续拉向注入的图标,而策略编辑器将其放置在真实元素附近。随机注入缺乏任何空间推理,将图标放置在任意位置,偶尔产生非常大的位移误差,从而拉高了均值,但受害者并未被系统地吸引到它们(由接近零的L2率证实)。

表3:首次成功后的ASR:首次L1成功后的攻击一致性。Overall ASR: D = 5 D=5 D=5,pass@3时的累积L1-ASR。Post-1st L1/L2:在每样本首次L1成功之后的所有尝试中,受害者错过真实元素(L1)或点击注入图标(L2,命中注入)的比例。UT-opt.=UI-TARS-1.5-7B优化;GO-opt.=GUI-Owl-7B优化。

攻击 受害者 总体ASR (%) 首次后L1 (%) 首次后L2 (%)
随机注入 UI-TARS-1.5-7B [39] 7.58 57.94 0.75
随机注入 GUI-Owl-7B [54] 23.36 35.42 0.45
UT-opt. UI-TARS-1.5-7B [39] 32.99 58.20 22.73
GO-opt. UI-TARS-1.5-7B [39] 34.43 89.95 2.77
UT-opt. GUI-Owl-7B [54] 51.65 81.75 2.04
GO-opt. GUI-Owl-7B [54] 50.96 52.14 15.95

首次成功后分析:对抗性图标作为持久吸引子。为了探究我们的攻击是通过放置一个持久的、语义上误导的图标成功,还是仅仅在深度×pass@3搜索预算内偶然成功,我们以完整模式运行评估:在给定样本上首次L1成功后,攻击循环继续进行直到穷尽,并记录所有后续尝试的L1和L2率。表3报告了这些首次成功后的统计数据。

定向攻击在首次成功后保持高L1和升高的L2。对于UI-TARS-1.5-7B上的UT-opt.,首次成功后的L1率为 58.20 % 58.20\% 58.20%,意味着在超过一半的后续尝试中,注入的对抗性图标继续将受害者的点击推离真实目标。更关键的是,这些首次后尝试中有 22.73 % 22.73\% 22.73%是L2命中:受害者的点击正好落在注入的图标上。GO-opt.在GUI-Owl-7B上的相应数字为 52.14 % 52.14\% 52.14%(L1)和 15.95 % 15.95\% 15.95%(L2)。这些数字量化了一个关键特性:一旦识别并放置了一个语义上可混淆的图标,它就会作为一个持久吸引子,在独立的pass和深度中反复吸引受害者的注意力。这种可解释、可重复的机制正是区分定向对抗性图标与偶然杂乱的标志。

随机注入缺乏这种持久性:首次成功后L2降至接近零。相比之下,随机基线在UI-TARS-1.5-7B和GUI-Owl-7B上的首次成功后的L1率分别为 57.94 % 57.94\% 57.94% 35.42 % 35.42\% 35.42%,与定向的L1率大致相当,但首次成功后的L2率分别为 0.75 % 0.75\% 0.75% 0.45 % 0.45\% 0.45%,比定向对应物低近四十倍。这种分离是极具信息量的。随机注入的非平凡首次后L1率表明,一旦受害者被屏幕上的某个元素在一次尝试中混淆,随后随机放置的图标会继续产生一个总体上分散注意力的视觉环境。然而,由于这些图标没有在语义上锚定到受害者的指令,受害者并不会专门点击它们。换句话说,随机注入探测的是受害者的随机故障模式,没有任何机制将这些故障导向攻击者选择的图标。因此,接近零的L2暴露了根本差异:我们的攻击是因果性的,其中注入的图标是失败的直接原因,而随机注入是相关性的,受害者可能失败但不是因为图标。

交叉优化揭示了目标特异性不对称性。交叉优化的行中出现了一个有启发性的不对称性:在UI-TARS-1.5-7B上评估的GO-opt.达到了 89.95 % 89.95\% 89.95%的首次后L1,但L2仅为 2.77 % 2.77\% 2.77%,而在GUI-Owl-7B上的UT-opt.显示出同样的模式(L1= 81.75 % 81.75\% 81.75%,L2= 2.04 % 2.04\% 2.04%)。相应的同一受害者对达到了显著更高的L2(分别为 22.73 % 22.73\% 22.73% 15.95 % 15.95\% 15.95%)。这表明,交叉优化的图标对于迁移受害者来说总体上具有迷惑性,但源模型被引导走向的特定图标可能不是吸引迁移受害者点击的那个。因此,针对特定受害者的优化不仅提高了攻击是否成功,还提高了它将受害者重定向到哪个元素,展示了一定程度的定向控制,这在随机注入和交叉优化迁移中都不存在。

5 结论

我们提出了语义级UI元素注入,一种新颖的红队测试范式,通过叠加安全对齐、语义合理的UI图标来破坏GUI智能体的接地。与像素级扰动或恶意提示注入不同,所提出的攻击内容无害但高度有效,在较弱的受害者上达到高达 88 % 88\% 88%的ASR@ D = 5 D=5 D=5,在更强的模型(如UI-TARS-1.5-7B)上达到三分之一的成功率。实验揭示,对抗性图标起到持久吸引子的作用:策略攻击在首次成功后将L2率维持在 15 % 15\% 15%以上,而随机注入骤降至 1 % 1\% 1%以下,证实成功是因果性的而非偶然性的。UT-opt.和GO-opt.之间近乎完美的黑盒迁移性进一步表明,所暴露的漏洞是与模型无关的,植根于共享的GUI视觉-语义模糊性。除了算法贡献之外,我们开发了一个模块化的、分布式的红队测试基础设施,以促进可复现的漏洞发现和对抗鲁棒性研究。我们希望这些发现能够激励接地感知防御策略的开发,例如跨模态一致性审计和注意力区域验证。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐