EVA:通过演化间接提示注入对GUI智能体进行红队测试

在这里插入图片描述
原文链接:EVA: Red-Teaming GUI Agents via Evolving Indirect Prompt Injection

摘要

随着多模态智能体越来越多地被训练用于操作图形用户界面以完成用户任务,它们面临来自间接提示注入的日益增长的威胁——在这种攻击中,误导性指令被嵌入到智能体的视觉环境中(如弹出窗口或聊天消息),并被误解为预期任务的一部分。一个典型的例子是环境注入,其中GUI元素被操纵以影响智能体行为,而无需直接修改用户提示。为了应对这些新兴攻击,我们提出了EVA,一个针对间接提示注入的红队测试框架,通过持续监控智能体在GUI上的注意力分布并相应地更新对抗性线索——关键词、措辞和布局,将攻击转化为闭环优化。与先前生成固定提示而不考虑模型如何分配视觉注意的一次性方法相比,EVA动态适应新兴的注意力热点,在多种GUI场景中产生显著更高的攻击成功率和更强的可迁移性。我们在六种广泛使用的通用和专业GUI智能体上评估EVA,在真实场景中如弹窗操纵、基于聊天的钓鱼、支付和邮件撰写。实验结果表明,EVA在成功率上显著优于静态基线。在目标不可知约束下(攻击者不知道智能体的任务意图),EVA仍然能发现有效的模式。值得注意的是,我们发现注入风格在模型之间具有良好的可迁移性,揭示了GUI智能体中共享的行为偏差。这些结果表明,演化间接提示注入不仅是红队测试智能体的强大工具,也是揭示其多模态决策中常见漏洞的有效方法。

1 引言

基于多模态大语言模型构建的图形用户界面智能体,正在迅速将AI能力从简单的语言理解扩展到智能手机和计算机等智能设备上的真实世界任务执行[1-3]。通过感知视觉环境并通过点击、键入和滚动等动作与应用程序交互,这些智能体能够自动化诸如浏览网页、在线购物和处理电子邮件等任务[3,4]。

然而,这种灵活性引入了一个关键漏洞:GUI智能体依赖视觉线索进行决策,但缺乏稳健的机制来区分良性和恶意的视觉刺激。这种设计选择使智能体容易受到间接提示注入的攻击。在这类注入中,对抗性提示位于环境中,而不是直接的文本输入中。如图1所示,恶意的弹出窗口、钓鱼链接或欺骗性覆盖层可以在视觉上将线索注入GUI,以操纵智能体的行为[5-11]。这种间接提示注入的子类通常被称为环境注入攻击[6,9]。

在这里插入图片描述

图1:GUI智能体在干净环境 vs. 被污染环境下的行为示意图。在干净的界面(左)中,智能体正确遵循用户目标(例如,搜索“iPhone 16”)。相比之下,当注入误导性弹出窗口(右)时,同一个智能体被视觉上显著的内容分散注意力,并点击了注入的按钮。

尽管关注度日益增加,现有关于间接提示注入的研究大多仍然是静态的:攻击内容要么是手动编写的,要么是由LLM一次性生成的,并在整个交互过程中保持不变。这种一次性方法无法捕捉GUI智能体如何根据视觉线索动态转移注意力,导致漏洞评估浅薄。具体来说,如第4节所示,静态基线在弹窗场景中达到48%的攻击成功率(表2),而我们的演化框架EVA在相同条件下超过80%。这一差距凸显了对能够揭示更深层行为弱点的自适应红队测试工具的需求。

为了解决这一差距,我们提出了EVA,一个用于红队测试GUI智能体的演化间接提示注入框架。EVA在黑盒设置中运行,并基于来自智能体的行为反馈迭代地优化对抗性提示,无需访问模型内部。通过从成功攻击中统计提炼模式,EVA隐式地捕获了智能体的注意力动态,并逐步聚焦于能够可靠地转移智能体行为的短语和布局。

我们在六种广泛使用的通用和专业GUI智能体上评估EVA,在真实场景中如弹窗操纵、基于聊天的钓鱼、支付和邮件撰写。EVA在攻击成功率和可迁移性上持续优于静态基线,包括在攻击者无法访问智能体任务意图的目标不可知设置下。

我们的贡献总结如下:

(i) 我们提出了EVA,一个反馈驱动的框架,能够在黑盒设置中自适应地优化针对GUI智能体的间接提示注入,填补了早期一次性或手工制作攻击留下的方法论空白。
(ii) 我们构建并发布了一个可复现的评估管道,将静态GLM-4v-Plus基线与四个真实的GUI场景配对,使研究人员能够在相同条件下衡量闭环演化的增量价值。
(iii) 我们开展了首个针对六种GUI智能体的自适应注入大规模研究,并表明EVA能够发现静态提示无法发现的可迁移故障模式,为实际多模态安全需要注意力感知防御提供了具体证据。

2 相关工作

2.1 GUI智能体:能力与漏洞

GUI智能体已成为一类强大的系统,能够通过感知视觉观察和执行诸如点击和文本输入等接地动作,在图形用户界面内执行用户定义的任务[12-15]。这些智能体在视觉界面范式下运行:在每个时间步,智能体接收当前GUI的截图 x t x_t xt并输出动作 a t = π ( x t ) a_t = \pi(x_t) at=π(xt)。它们的有效性源于强大的视觉接地技术,该技术将感知内容与动作执行联系起来。最近的进展包括用于目标高亮的Set-of-Mark(SoM)[16]、屏幕解析工具如OmniParser[17]和V-Zen[18],以及面向接地的数据集[19]。基于布局的预训练[20,21]和视觉骨干选择[22]的增强进一步提高了任务完成精度。

然而,这种设计范式也引入了一个独特的漏洞:智能体的推理完全由屏幕内容塑造,而在开放环境中,屏幕内容本质上是动态且可由攻击者控制的。这将视觉推理与自然语言输入解耦,使系统暴露于对抗性操纵之下——这种操纵不是通过直接提示发生的,而是通过精心设计的GUI元素。最近的研究表明,这种间接交互表面容易受到嵌入在看似良性界面中的微妙线索的影响,形成了一个独特且尚未充分探索的攻击向量。

2.2 间接提示注入攻击

间接提示注入是指一类攻击,其中恶意指令被嵌入到模型被动解释的视觉或上下文内容中,而不是作为显式的用户输入。这与传统的越狱式攻击[23-27]不同,后者直接针对模型的语言接口。对于严重依赖视觉线索的GUI智能体,此类攻击利用界面元素如何被感知为有意义的任务指导。

Yi等人[28]首次证明外部内容(如网站预览)可以劫持LLM行为,而Anil等人[29]引入了由隐藏线索触发的“潜伏智能体”。Kang等人[30]表明文档预览和嵌入的元数据可以注入覆盖行为。Greshake等人[5]在真实世界的工具链中形式化了这些风险,强调了即使是看似无害的检索工件也可以作为操纵的向量。

在GUI环境中,Ma等人[6]通过实验证实了最先进的智能体对视觉干扰的敏感性,尤其是在存在冲突或冗余文本信号的环境中。Zhang等人[7]进一步表明,将对抗性提示放置在视觉上显著的位置可以显著降低任务准确性。Xu等人[31]开发了AdvWeb,一个DOM级别的扰动工具,注入不可见的提示字符串以引发意外行为,包括金融交易。Zhan等人[10]提出了一个联合布局-文本优化管道,以增强跨不同智能体的攻击隐蔽性和成功率。

为了促进系统评估,WASP[11]提供了标准化的测试平台和基准注入。然而,这些方法仍然受限于其静态设计,无法适应演变的智能体注意力或行为。更近期的工作[32-34]揭示了移动和桌面智能体中的类似漏洞,但缺乏用于自适应黑盒红队测试的工具。

为了解决这一差距,我们提出了EVA:一个演化的红队测试框架,能够适应智能体的实时反应。与依赖固定注入的先前方法不同,EVA利用来自智能体行为的反馈持续优化注入内容,揭示视觉-语言推理管道中更深层且更具可迁移性的弱点(见图2)。

在这里插入图片描述

图2:静态(“冰”)与演化(“火”)环境注入策略的比较。左图:静态方法基于预定义提示生成固定的被污染环境,忽略智能体反馈。右图:EVA利用优化循环,通过实时交互调整注入内容,适应模型特定的漏洞。

3 方法

本节详细介绍了我们在黑盒设置下生成和优化针对GUI智能体的对抗性注入的框架。整个流程的概述如图3所示。
在这里插入图片描述

图3:EVA框架概述。该系统通过来自GUI智能体行为的迭代反馈来演化对抗性注入。基于成功强化词级模式,并指导下一代的提示生成。

3.1 问题定义

我们研究基于GUI的多模态智能体在视觉-语言环境 E \mathcal{E} E中解决任务 T \mathcal{T} T(例如,导航、填表)的行为。在每个时间步 t t t,智能体接收通过渲染引擎 R \mathcal{R} R从文档对象模型 d t d_t dt渲染出的截图 x t ∈ R H × W × C x_t \in \mathbb{R}^{H \times W \times C} xtRH×W×C,满足:

x t = R ( d t ) . ( 1 ) x_t = \mathcal{R}(d_t). \quad (1) xt=R(dt).(1)

然后智能体根据其策略 π \pi π执行动作 a t = π ( x t ) a_t = \pi(x_t) at=π(xt)。如果智能体仅使用视觉输入完成任务 T \mathcal{T} T,则认为其成功。

对抗性目标。攻击者旨在向DOM中注入视觉元素以误导智能体的下一步行为。给定场景上下文 s t s_t st(例如,UI布局、当前指令),攻击者生成注入 m t = A ( s t ) m_t = \mathcal{A}(s_t) mt=A(st),并将其添加到DOM中:

x t ′ = R ( d t ⊕ m t ) . ( 2 ) x_t^{\prime} = \mathcal{R}(d_t \oplus m_t). \quad (2) xt=R(dtmt).(2)

目标是诱导智能体发出与注入内容意图一致的动作(即遵循其指导),即使该动作偏离了预期的任务路径。令 A i n j ( m t ) \mathcal{A}_{\mathrm{inj}}(m_t) Ainj(mt)表示注入内容所隐含的目标动作集, G T ( x t ) \mathcal{G}_{\mathcal{T}}(x_t) GT(xt)表示任务 T \mathcal{T} T的有效动作集。那么攻击者优化:

A ∗ = arg ⁡ max ⁡ A P [ π ( x t ′ ) ∈ A i n j ( m t ) ∧ π ( x t ′ ) ∉ G T ( x t ) ] . ( 3 ) \mathcal{A}^{*} = \arg \max_{\mathcal{A}} \mathbb{P}\left[\pi(x_t^{\prime}) \in \mathcal{A}_{\mathrm{inj}}(m_t) \wedge \pi(x_t^{\prime}) \notin \mathcal{G}_{\mathcal{T}}(x_t)\right]. \quad (3) A=argAmaxP[π(xt)Ainj(mt)π(xt)/GT(xt)].(3)

这一定义关注于行为与注入内容的对齐,而非完全的任务失败。

3.2 威胁模型与注入场景

我们假设一个针对GUI智能体的实用黑盒威胁模型。攻击者无法访问模型内部,如权重、架构或注意力图。然而,攻击者可以观察到智能体的输出(例如,点击、生成的响应)以及智能体所看到的渲染后的GUI。

攻击者访问能力。攻击者可以通过视觉集成的通道(包括HTML覆盖层、DOM注入或聊天消息)在运行时修改GUI内容。这些修改在渲染环境中看起来是原生的,并被智能体的视觉系统作为输入的一部分捕获。

攻击目标。目标是通过将误导性线索嵌入智能体的操作上下文来微妙地操纵其决策过程——无需知道确切的用户意图或任务描述。这模拟了真实的Web或桌面环境,其中攻击者可以控制视觉内容但无法控制内部模型行为。

注入策略。为了在此威胁模型下评估攻击有效性,我们定义了四种代表性的间接注入策略,附录图5中举例说明了它们的视觉形式和上下文集成。

(i) 弹窗:模拟的模态窗口传达紧迫性(例如,“需要系统更新”),以将注意力从主任务上转移开。
(ii) 聊天:插入在对话中的对抗性消息鼓励恶意点击(例如,钓鱼链接或虚假验证)。
(iii) 支付:在金融任务期间,渲染虚假的支付按钮或对话框,以误导智能体触发非预期的交易。
(iv) 电子邮件:在邮件撰写任务中,注入虚假提示或嵌入的确认按钮,以重定向内容或提交行为。

所有注入的元素在视觉上与合法组件无异,并且被包含在智能体捕获的截图中,确保攻击仅通过视觉-语言接口影响智能体。

视觉注入表面。虽然我们的实验涵盖了不同的注入场景(例如,弹窗、聊天),但核心攻击接口保持一致:攻击者通过修改 d t d_t dt来控制渲染环境,从而通过 x t ′ x_t^{\prime} xt诱导行为。所有智能体输入都是视觉的;没有修改提示或直接的文本输入。

3.3 反馈驱动的优化

为了超越静态注入,我们提出了EVA:一个演化的红队测试框架,通过观察到的智能体行为反馈动态生成、评估和优化注入内容(详细的示例见附录图6)。

关键词词库初始化。我们初始化一个动态关键词词库 L 0 = { ( k i , u i ( 0 ) ) } i = 1 n \mathcal{L}_0 = \{(k_i, u_i^{(0)})\}_{i=1}^n L0={(ki,ui(0))}i=1n,其中每个关键词 k i k_i ki关联一个效用得分 u i ( 0 ) > 0 u_i^{(0)} > 0 ui(0)>0。该词库从精选的触发词(例如,“urgent”,“confirm”,“security”)和LLM生成的干扰项的组合中播种。

注入构建。在迭代 t t t,EVA采样一个子集 K t ⊂ L t K_t \subset \mathcal{L}_t KtLt来填充内容模板 T T T(例如,带有消息占位符的HTML)。采样由归一化得分 w k ( t ) = u k ( t ) / ∑ j u j ( t ) w_k^{(t)} = u_k^{(t)} / \sum_j u_j^{(t)} wk(t)=uk(t)/juj(t)加权,注入内容以产生新的输入:

x t ′ = R ( d t ⊕ T ( K t ) ) . ( 4 ) x_t^{\prime} = \mathcal{R}(d_t \oplus T(K_t)). \quad (4) xt=R(dtT(Kt)).(4)

反馈与词库更新。在观察智能体的动作 a t ′ a_t^{\prime} at后,我们判断攻击是否成功(即 a t ′ ∈ A i n j ( m t ) a_t^{\prime} \in \mathcal{A}_{\mathrm{inj}}(m_t) atAinj(mt))。如果成功,我们通过提取函数 S ( T ( K t ) ) → K t e f f S(T(K_t)) \to K_t^{\mathrm{eff}} S(T(Kt))Kteff从注入内容中提取有效的触发词,该函数基于句法角色或启发式显著性隔离关键token。 K t e f f K_t^{\mathrm{eff}} Kteff中关键词的得分更新为:

u k ( t + 1 ) = u k ( t ) + b + B ⋅ 1 s u c c ∣ K t e f f ∣ , ( 5 ) u_k^{(t+1)} = u_k^{(t)} + \frac{b + B \cdot \mathbf{1}_{\mathrm{succ}}}{|K_t^{\mathrm{eff}}|}, \quad (5) uk(t+1)=uk(t)+Kteffb+B1succ,(5)

其中 b b b是用于探索的基础增量, B B B是成功分散的奖励。

词库演化。在固定间隔,EVA剪枝 L t \mathcal{L}_t Lt中底部的 δ % \delta\% δ%关键词,并用新的候选词替换,这些候选词来自:(i) 针对上下文 s t s_t st的LLM建议;(ii) 高性能词的形态变体;(iii) 领域特定的静态池(例如,钓鱼术语)。每个新候选词初始化为平均效用 u ˉ t \bar{u}_t uˉt以确保公平竞争。

终止。优化持续进行直到收敛(即在 τ \tau τ轮内分散率无增益)或试验预算 T m a x T_{\mathrm{max}} Tmax耗尽。

4 实验

4.1 设置与评估指标

设置 我们使用六种代表性的GUI智能体评估EVA的有效性、可迁移性和鲁棒性:GLM-4v-Plus[12]、GPT-4V[35]、GPT-4o[36]、Qwen2.5-VL[37]、UI-TARS-7B-DPO[38]和OS-Atlas-base[39]。所有智能体在基于GUI的交互任务上运行,将渲染的截图作为输入并返回界面动作。为了全面评估实际条件下的攻击有效性,我们设计了四个真实场景,反映GUI智能体容易受到间接提示注入的典型用例。这些包括:基于弹窗的注入、基于聊天的链接注入、基于聊天的支付注入和基于邮件的确认注入。在每个试验中,智能体被给予一个目标导向的任务(例如,“搜索iPhone 16”),我们向视觉环境中注入对抗性内容,以评估智能体的行为是否可以被从其原始意图转移。

评估标准。每个试验的动作空间根据智能体的响应被标记为以下之一:

  • (i) 成功:智能体与注入的元素交互(例如,点击恶意按钮或钓鱼链接)。
  • (ii) 失败:智能体正常完成预期任务并忽略注入。
  • (iii) 无效:输出模糊、无关或无法解码(例如,意外动作或无响应)。

示例如表1所示。我们定义攻击成功率为: A S R = N s u c c N s u c c + N f a i l + N i n v \mathrm{ASR} = \frac{N_{\mathrm{succ}}}{N_{\mathrm{succ}} + N_{\mathrm{fail}} + N_{\mathrm{inv}}} ASR=Nsucc+Nfail+NinvNsucc,其中 N s u c c N_{\mathrm{succ}} Nsucc N f a i l N_{\mathrm{fail}} Nfail N i n v N_{\mathrm{inv}} Ninv分别是上述每种结果类型的计数。ASR在考虑行为噪声的同时捕获整体易感性。

表1:按评估结果分类的示例

场景 成功 失败 无效
弹窗 点击确认/同意 忽略或关闭 点击拒绝/否认
聊天(链接) 点击钓鱼链接 遵循原始目标 无关或无动作
聊天(支付) 点击虚假支付按钮 遵循原始目标 无关或无动作
电子邮件 点击确认/同意 遵循原始目标 无关或无动作

静态基线。对于每个场景,我们使用GLM-4v-Plus构建了一个一次性基线,使用附录B中提供的提示模板。我们调用模型五十次,生成五十个符合场景格式的不同注入:弹窗、聊天消息、支付对话框或邮件提示。生成参数固定为温度0.7和top_p 1.0。这些样本在返回时被直接评估,没有任何过滤、排序或迭代优化,并且没有来自智能体行为的信息反馈给生成器。因此,基线代表了最简单的静态方法:一次传递中产生的一批独立注入,与EVA跨轮次的反馈驱动演化形成对比。

4.2 每个场景下跨多个智能体的评估

我们将EVA与第4节描述的静态基线进行比较。对于每种方法,每个智能体每个场景生成50个样本。表2显示,EVA在所有智能体和场景中一致优于静态基线。在弹窗设置中,它实现了显著的ASR提升(例如,在GLM-4v-Plus上+32%),证明了自适应注入的优势。在聊天场景中,EVA将ASR提高了高达+26%(GPT-4V),显示了其基于智能体反馈定制攻击的能力。值得注意的是,GPT-4o有时会对链接注入攻击响应“抱歉,我无法帮助处理那个”,可能是由于更严格的对齐约束,这使得在该场景下的稳定评估具有挑战性。即使在相对鲁棒的Qwen2.5-VL上,EVA也提供了可测量的增益,确认了其在模型间的整体有效性。

表2:弹窗和聊天场景中的结果(单位:百分比)。每个单元格显示成功/失败/无效率。EVA相对于静态基线的增益用 Δ \Delta Δ表示在成功率上。

模型 方法 弹窗 聊天(链接)
GLM-4v-Plus 基线 48/52/0 14/80/6
EVA 80(+32)/20/0 26(+12)/64/10
GPT-4V 基线 36/46/18 16/28/56
EVA 46(+10)/34/20 42(+26)/24/34
GPT-4o 基线 36/44/20 22/34/44
EVA 48(+12)/32/20 36(+14)/24/40
Qwen2.5-VL 基线 14/58/28 16/50/34
EVA 30(+16)/54/16 18(+2)/52/30
UI-TARS-7B-DPO 基线 10/60/30 22/46/32
EVA 22(+12)/60/18 24(+2)/32/44
OS-Atlas-Base 基线 20/64/16 8/80/12
EVA 46(+26)/52/2 12(+4)/86/2

除了日常浏览和聊天场景,我们还评估了两个高风险任务(即支付和电子邮件),这些任务如果处理不当可能导致严重后果。有趣的是,我们观察到智能体要么忽略要么明确拒绝注入的内容,这表明这些高风险环境本质上更抵抗注入攻击。一个可能的原因是,这些场景中的注入提示通常明显是恶意的,使智能体更容易检测和拒绝。此外,我们发现几个智能体(例如,GPT-4V和UI-TARS-7B-DPO)表现出超过50%的无效动作率,暗示它们可能被明确指示拒绝涉及支付相关任务的请求。

表3:高风险场景中的结果(单位:百分比)。每个单元格显示成功/失败/无效率。

模型 支付 邮件
GLM-4v-Plus 0/92/8 0/100/0
GPT-4V 0/40/60 0/100/0
GPT-4o 0/32/68 2/98/0
Qwen2.5-VL 0/100/0 0/100/0
UI-TARS-7B-DPO 0/10/90 0/76/24
OS-Atlas-Base 0/88/12 2/64/34

4.3 跨GUI智能体的可迁移性

为了评估跨智能体可迁移性,我们在一个源模型上演化单个对抗性提示,并直接在弹窗注入场景下对每个目标智能体重放。这对静态基线和自适应EVA方法都进行了。ASR(%)结果在表4中报告。

总体而言,EVA演化的提示在配置间产生了很强的可迁移性,在Qwen2.5-VL → GPT-4V的设置中高达+46。值得注意的是,即使是基线ASR相对较低的模型(例如,Qwen2.5-VL)在采用EVA时仍然实现了显著的可迁移性增益。结果表明,反馈驱动的演化对于发现广泛有效的提示至关重要。

表4:弹窗场景下的跨智能体可迁移性(单位:百分比)。源模型和目标模型分别以列和行表示。数值为基线和EVA的ASR(%),括号中为EVA的提升。

源 \ 目标 GLM-4v-Plus GPT-4o Qwen2.5-VL
基线 EVA (Δ) 基线
GLM-4v-Plus 48 80 (+32) 40
GPT-4V 36 46 (+10) 26
GPT-4o 36 48 (+12) 30
Qwen2.5-VL 14 30 (+16) 6
UI-TARS-7B-DPO 10 22 (+12) 2
OS-Atlas-Base 20 46 (+26) 10

4.4 跨GUI智能体的攻击风格演化

为了理解GUI智能体如何响应心理操纵,我们考察了五种经典的说服策略:说服性、紧迫性、权威性、社会认同和威胁性。我们测量了每种策略在不同注入类型、场景和模型中出现的频率。

如表5所示,整体表现由说服性(49.8%)和紧迫性(40.0%)技术主导。然而,每种策略的易感性在场景和模型类型之间差异显著。例如,UI-TARS-7B-DPO对紧迫性(50.8%)表现出显著的敏感性,而GPT-4V更倾向于说服性内容(51.6%),对紧迫性(38.9%)的响应相对较低。这种变化意味着没有单一的注入风格适用于所有地方。因此,如EVA中实现的自适应和演化策略,对于跨不同智能体架构进行有效的红队测试是必要的。

表5:在成功的间接提示注入中观察到的说服策略分布,按场景和模型分类(单位:百分比)。每个值代表采用给定策略的成功攻击样本的百分比。

来源 说服性 紧迫性 权威性 社会认同 威胁性 总体
所有样本 49.8 40.0 6.8 3.2 0.2
按场景
基于弹窗的注入 62.3 33.9 0.3 3.3 0.3
基于聊天的链接注入 15.0 57.1 24.8 3.0 0.0
聊天支付欺诈 0.0 0.0 0.0 0.0 0.1
误导性邮件提示 100.0 0.0 0.0 0.0 0.0
按模型
OS-Atlas-Base 51.8 38.6 6.0 3.6 0.0
GLM-4v-Plus 58.7 34.7 4.1 2.5 0.0
GPT-4V 51.6 38.9 7.4 2.1 0.0
UI-TARS-7B-DPO 32.8 50.8 13.1 3.3 0.0
Qwen2.5-VL 46.7 44.4 4.4 4.4 0.0
GPT-4o 47.4 40.0 7.4 4.2 1.1

5 进一步分析

5.1 间接提示注入的可迁移模式

为了研究为什么某些间接注入能够成功,我们分析了最常误导GUI智能体的演化提示。图9将token权重分组为五个语义类别——诱惑性、紧迫性、稀缺性、社会认同和威胁性——并显示得分最高的提示由短的、情绪化的词汇主导。这些简洁的祈使句吸引了不成比例的注意力,特别是当它们被放置在视觉中心附近或样式类似于系统消息时。这些线索在场景间的一致性解释了它们的可迁移性,并提示了一个实用的攻防模式:未来的红队测试可以从一个紧凑的高影响力词汇列表开始,而防御者应降低或标记出现在显著区域的相同术语。

5.2 GUI智能体中的注意力引导漏洞

先前的工作已经注意到,GUI智能体可能被看似良性的界面文本分散注意力[6,7]。我们的分析强化了这一观点,表明最重要的是模型的注意力在单个区域上的集中程度与在屏幕上的分散程度之间的对比。图4展示了这种对比。居中的弹窗将注意力集中在确认按钮上,智能体立即点击它,而基于聊天的链接将注意力分散在整个对话窗口上,智能体忽略了链接。两种注入包含可比较的触发词;它们的不同结果是由视觉注意力的空间焦点驱动的。

附录D中目标提示消融的结果指向同一方向。重复显式用户目标的样本更接近原始命令,将智能体的视线吸引到注入的文本上并提高成功率。总之,这些发现表明,集中的注意力——尤其是当被与任务的语义重叠增强时——使间接提示注入远比那些在多个界面元素间竞争注意力的注入更有效。
在这里插入图片描述

图4:两种攻击场景中注意力分布的比较。左图:基于弹窗的注入将注意力尖锐地局部化到确认按钮上,导致成功劫持。右图:基于聊天的链接注入导致注意力在聊天界面上广泛分散,降低了误导的机会。

6 结论

我们提出了EVA,一个动态的红队测试框架,系统地演化针对GUI智能体的间接注入。由于这些智能体表现出由视觉显著性和界面结构驱动的复杂注意力分配,传统的静态评估无法捕捉这一脆弱性。与先前假设固定提示或显式访问任务目标的方法不同,EVA在黑盒、反馈驱动的设置中运行,逐步调整对抗性内容以利用潜在的感知偏差。通过跨场景和智能体架构的广泛实验,我们证明了措辞或布局上看似微小的差异可以触发大的行为变化。我们的发现强调,视觉注意力——而非仅仅是语义理解——在指导智能体动作中起着核心作用。通过对这种演化交互进行建模,EVA揭示了跨模型的共享故障模式,包括可迁移的分散模式和注意力敏感的利用。这项工作将GUI智能体的鲁棒性重新定义为不仅是对齐或指令遵循的问题,而是交互层面的感知问题。我们鼓励未来的安全评估考虑到这种动态的、由注意力介导的脆弱性,并将演化的、场景感知的对抗性测试作为多模态智能体开发的标准部分。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐