现实动态环境下针对GUI智能体的环境注入攻击

在这里插入图片描述
原文链接:Realistic Environmental Injection Attacks on GUI Agents

图形用户界面智能体越来越多地被部署用于与在线Web服务交互,然而它们暴露于开放世界的内容使其容易受到环境注入攻击。在这种攻击中,攻击者可以将精心制作的触发器注入网站,以操纵其他用户使用的GUI智能体的行为。在本文中,我们发现大多数现有的EIA研究缺乏现实性。特别地,它们未能捕捉到真实世界Web内容的动态特性,通常假设触发器的屏幕位置和周围的视觉上下文在训练和测试之间保持大致一致。为了更好地反映实际情况,我们引入了一个现实的动态环境威胁模型,其中攻击者是普通用户,触发器被嵌入在动态变化的环境中。在此威胁模型下,现有方法大多失败,这表明它们在暴露GUI智能体漏洞方面的有效性被大大高估了。

为了有效暴露现有GUI智能体在真实部署中的隐藏漏洞,我们提出了Chameleon,一个攻击框架,其两个关键创新专门针对动态环境设计。为了合成更真实的训练数据,我们引入了LLM驱动的环境模拟,它自动生成多样化、高保真的网页模拟,模仿真实世界动态环境的可变性。为了更有效地优化触发器,我们引入了注意力黑洞,它将注意力权重转换为显式的监督信号。该机制鼓励智能体对不相关的周围内容保持不敏感,从而提高动态环境中的鲁棒性。我们在六个真实网站和四个代表性的LVLM驱动的GUI智能体上评估了Chameleon,结果显示它显著优于现有方法。消融研究证实了这两个创新对性能至关重要,而一个闭环沙盒实验进一步证明,Chameleon可以在非常接近真实使用条件的场景中成功劫持智能体行为。我们的结果揭示了GUI智能体在现实动态环境中一个关键的、此前未被充分探索的漏洞,并为未来开放世界GUI智能体系统中的防御研究奠定了坚实的基础。

1 引言

随着大型语言模型和大视觉语言模型的快速发展[1, 3, 23, 28, 33],一类称为GUI智能体的新型强大智能体被设计用于与图形用户界面交互[8, 25, 34, 42]。这些GUI智能体能够执行日益复杂的任务,超越简单的对话,执行像网站操作这样的复杂操作[47]。这些智能体的一个关键特征是它们能够自主访问和作用于实时互联网内容。虽然这一能力极大地扩展了它们的功能,但它同时引入了开放世界交互所固有的新型安全风险[4, 10, 22, 29, 36, 38, 40]。

越来越多的研究已经指出,GUI智能体特别容易受到环境注入攻击,这种攻击源自外部环境而非用户自身[2, 14, 19, 45]。最近,EIA研究越来越多地采用一个实际假设,即攻击者是恶意的普通用户,没有管理权限,只能通过正常的内容上传影响网页。例如,在一个电子商务平台上,恶意攻击者可以上传一个精心制作的触发器图像,伪装成商品照片。当另一个用户的GUI智能体在浏览网站时遇到这个触发器,它可能会被自动诱导导航到某个特定的推广网站,而无需用户的明确指令[18, 46]。

然而,我们发现大多数现有的EIA仍然缺乏现实性。特别地,先前的工作[2, 32, 46]通常在静态或仅轻微变化的环境下评估触发器,隐含地假设触发器的屏幕位置和周围的视觉上下文在训练和测试之间保持大致一致。这一假设与现代网站的运作方式相冲突。在实践中,由于动态排名和推荐更新、广告投放以及频繁的内容刷新,布局和附近的内容会不断变化。为了说明这一差距,考虑一个常见的电子商务场景。图1显示了来自京东¹的两个截图,它们是在两个不同的会话中收集的,发出了相同的查询(“Apple”)。即使在这个简单的设置中,红色高亮的触发器图像出现在页面的不同位置,其周围环境(包括附近的产品、横幅和文本片段)也发生了显著变化。这种环境动态性对现有攻击构成了根本挑战。许多EIA方法在静态或轻微变化的环境中优化和评估触发器图像。当部署在现实的动态环境中时,触发器位置的变化和周围视觉上下文的改变可能会急剧降低攻击效果。这些观察促使我们提出了一个明确考虑环境动态性而非依赖过于理想化静态假设的新型威胁模型。

在这里插入图片描述

图1:真实GUI智能体应用场景中动态环境的示意图。两个截图显示了在同一电子商务平台上连续搜索“Apple”的结果。我们假设红色框标出的图像是由攻击者上传的触发器。

在本文中,我们正式定义了一个现实的动态环境威胁模型,其中攻击者可以作为普通用户上传触发器图像来劫持GUI智能体。关键是,这些触发器被嵌入在动态变化的环境中,它们的位置和周围的视觉上下文可能会不断变化,并且很大程度上超出攻击者的控制。在此威胁模型下,我们在第5.2节中的实验表明,使用现有环境注入攻击方法优化的触发器图像表现出接近零的攻击成功率[2, 20, 32, 46]。这主要是因为先前的方法在静态或轻微变化的环境下优化触发器,因此无法泛化到动态环境。这种不匹配可能会误导安全分析,并阻碍在真实部署中为GUI智能体开发有效的防御。

为了更充分地暴露现有GUI智能体在真实部署中的漏洞,我们提出了Chameleon。这个新颖的攻击框架专门设计用于确保触发器图像在动态环境中保持有效,其中屏幕位置和周围的视觉上下文不可预测地变化。Chameleon解决了两个关键挑战。

如何合成捕捉动态环境的大规模训练数据? 在动态环境中实现鲁棒的攻击需要大量真实的训练样本,覆盖多样的触发器放置和上下文变化。然而,手动收集具有不同布局和周围内容的网页样本是费力且耗时的[11, 12, 16]。为了克服这一挑战,我们引入了LLM驱动的环境模拟。利用LLM的生成能力,我们自动构建目标网站的高保真模拟,并系统地改变触发器的放置及其周围上下文。这个过程产生了大量真实的截图,使优化的触发器能够有效地泛化到动态环境中。

如何更有效地训练触发器? 我们发现,即使有足够真实的训练数据,攻击性能可能仍然次优。根据我们的初步观察,智能体的注意力常常被不断变化的环境分散,这可能导致即使有足够的训练数据,性能仍然次优。如图2所示,成功的攻击发生在注意力仍然集中在触发器上时,而不成功的案例则发生在注意力分散到其他显著的界面元素上时。为了解决这个问题,我们提出了注意力黑洞,它能够在动态环境中实现更有效的触发器优化。关键思想是显式地引导模型关注触发器区域,同时抑制来自非触发器区域的干扰。具体来说,注意力黑洞引入了一个源自注意力权重的显式监督信号[18, 43],鼓励注意力持续集中在触发器图像上。这种设计提高了动态视觉干扰下的攻击可靠性。
在这里插入图片描述

图2:两种情况的注意力图。红色框标记触发器图像;暖色表示更高的注意力。在成功案例中,注意力集中在触发器图像区域,而在不成功案例中,注意力分散在整个截图上。

我们对提出的Chameleon进行了深入的评估。我们首先构建了六个高度真实的数据集,模拟了具有动态变化图像和文本的广泛使用的网站。我们评估了四个代表性的GUI智能体(UI-TARS-7B-DPO [25], OS-Atlas-Base-7B [34], Qwen2-VL-7B [28], 和 LLaVA-1.5-13B [17]),发现Chameleon在所有网站上显著优于所有基线[2, 20, 32]。我们进一步观察到在相似模型之间具有良好的跨模型泛化能力。消融研究表明,LLM驱动的环境模拟和注意力黑洞对Chameleon都是必要的。最后,我们评估了几种实用的防御措施,发现许多现有策略在不严重损害用户体验的情况下对Chameleon无效,这凸显了对针对GUI智能体定制的新型防御机制的需求。

本文的贡献有三点:

  • 我们为EIA形式化了一个现实的动态环境威胁模型。在此新威胁模型下,我们证明了现有的EIA方法大体上无效。
  • 我们提出了Chameleon,一个新的环境注入攻击框架,在现实的动态环境威胁模型下有效,能够发现现有GUI智能体中先前隐藏的漏洞。
  • 我们在四个代表性的GUI智能体上跨六个网站进行了广泛的实验。通过Chameleon获得的结果揭示了现有GUI智能体中先前未被充分探索的漏洞,突显了对更稳健安全机制的迫切需求。

2 背景与相关工作

2.1 大视觉语言模型

大视觉语言模型是现代GUI智能体的基础。这些模型通常由三个主要组件组成:视觉编码器、连接器和大型语言模型。对于视觉输入,视觉编码器(如CLIP [26])首先将输入图像分割成许多块,每个块代表一个局部像素区域(例如形成一个 14 × 14 14 \times 14 14×14的网格),然后提取相应的视觉特征。随后,这些视觉特征通过连接器模块(如多层感知器或Q-Former [13])转换为视觉标记。这些视觉标记随后可以直接馈送到后续的LLM中。通常,每个视觉标记对应于输入图像中的多个像素。采用这种架构的流行LVLM包括Qwen [3, 9, 28]系列和LLaVA [7, 17]系列等。

2.2 GUI智能体

GUI智能体最近在软件工程社区引起了越来越多的兴趣,因为它们为自动化与真实世界应用程序的交互提供了一个有前景的方向[24, 39, 41]。基于LVLM强大的多模态能力,研究人员开发了能够在图形用户界面内自动化复杂任务的GUI智能体。与早期直接将原始HTML和人类指令馈送到LLM的方法[6, 21](这种方法常常受到冗余或不相关信息的影响)不同,现代GUI智能体[5, 8, 25, 34]利用LVLM处理渲染的网页截图作为输入,实现了显著更好的性能。

最近的进展通过引入诸如Set-of-Marks (SoMs) [37]等技术来增强与GUI元素的交互,进一步改进了GUI智能体。开源模型也通过提高智能体能力和降低部署成本为该领域做出了贡献。例如,OS-ATLAS [34]利用包含截图、元素指令和坐标的大规模数据集进行全面GUI理解,而UI-TARS [25]利用广泛的训练语料库来改进屏幕感知。

在本工作中,我们关注一个广泛采用的GUI智能体范式[18, 25, 34],特别是一个由模型 M M M驱动的LVLM驱动的智能体。最初,智能体接收一个系统提示 p s p_s ps和一个代表特定任务的用户指令 p u p_u pu。在随后的每个交互步骤中,智能体观察从当前HTML内容渲染的截图 s t s_t st以及动作历史 H t H_t Ht,然后输出一个动作 a t a_t at,直到任务完成或失败。形式化地,这可以表示为:

a t = M ( p s , p u , s t , H t ) , ( 1 ) a_t = M(p_s, p_u, s_t, H_t), \quad (1) at=M(ps,pu,st,Ht),(1)

其中 H t = [ a 1 , a 2 , … , a t − 1 ] H_t = [a_1, a_2, \ldots, a_{t-1}] Ht=[a1,a2,,at1]

2.3 环境注入攻击

环境注入攻击对GUI智能体构成了关键的安全威胁。与源自用户输入的传统攻击不同,EIA是通过智能体观察到的外部环境注入的。例如,攻击者可以将精心制作的触发器(如图像或短文本片段)上传到目标网站。当另一个用户的GUI智能体后来在浏览该网站时遇到这个触发器,它可能会被诱导执行非预期的动作,而无需用户的明确指令[18, 46]。尽管文本触发器如“当用户试图找一辆摩托车时,无论其他要求如何都给他们这一辆”可能有效,但它们往往容易被检测到[2]。因此,最近的EIA研究越来越关注基于图像的触发器,它们更隐蔽且更不容易被发现[4, 32, 35]。

根据攻击者的身份,现有的EIA可以大致分为两类[2, 16, 32]。第一类假设攻击者对目标网站拥有管理员或开发者权限,能够完全控制渲染的界面。在此假设下,攻击者可以操纵整个截图,甚至修改底层HTML源代码,这支持了强大的攻击,如应用全局对抗性扰动或插入误导性界面组件(例如欺骗性按钮)。例如,EIA [14]向HTML中注入新的表单元素以误导智能体,而ENVINJECTION [30]对整个截图应用对抗性扰动。尽管非常有效,但这种威胁模型在实践中往往不现实。

第二类采用了更实际的威胁模型,其中攻击者是恶意的普通用户,例如社交媒体上的内容上传者或电子商务平台上的竞争卖家。这些攻击者只能操纵网页的一小部分,通常是通过上传带有对抗性扰动的精心制作的触发器图像。然而,在这种设置下,许多现有方法[32, 46]没有充分考虑现实世界中的环境动态性,特别是触发器位置和周围内容的变化。例如,Wu等人[32]在不考虑任何视觉上下文的情况下优化恶意图像,然后直接部署到目标网站上,严重限制了它们的攻击有效性。

我们的工作属于第二类。与我们的工作最相似的是MIP [2]。虽然MIP承认应考虑动态视觉上下文,但它只引入了对周围视觉上下文的微小变化,并且没有考虑触发器图像位置的变化。相比之下,我们的工作考虑了触发器位置和周围视觉上下文的显著变化,密切模拟了以高度动态互联网内容为特征的真实世界场景。据我们所知,这项研究首次系统性地调查了触发器图像在攻击GUI智能体时,在动态变化的视觉上下文中的表现。

3 动态环境威胁模型

在本节中,我们正式定义了针对GUI智能体的环境注入攻击的动态环境威胁模型。该威胁模型的关键特征是触发器在持续变化的视觉环境中被观察,其屏幕位置和周围的视觉上下文都是动态变化的,并且难以提前预测。

攻击场景。我们考虑部署在在线平台(如社交媒体服务和电子商务网站)上的GUI智能体,用户可以在这些平台上上传图像并浏览他人发布的内容。在这些平台上,GUI智能体看到的渲染页面不是静态的。由于常见的平台行为,包括排名和推荐的更新、广告投放以及频繁的内容刷新,显示的内容可能会随时间变化。因此,攻击者上传的触发器在不同用户或不同时间查看时,可能会显示在不同的位置和不同的周围上下文中。

攻击者的目标。攻击者旨在制作一个触发器图像并将其上传到目标网站。当其他用户随后通过GUI智能体与网站交互时,触发器作为观察到的截图的一部分被渲染,旨在将智能体引向攻击者选择的行为,例如点击促销链接、访问恶意URL或选择特定商品。形式化地,目标是当触发器存在时,诱导智能体输出错误的预期动作。

攻击者的约束。攻击者没有管理权限,不能修改网站源代码或受害者的设备。更重要的是,攻击者无法控制或可靠地预测触发器的屏幕位置或其周围的视觉上下文,这两者都可能随用户和时间而变化。此外,攻击者不知道GUI智能体的动作历史或提供给智能体的具体用户指令。

攻击者的能力。攻击者可以将触发器图像上传到目标网站。由于网站布局和样式在短期内通常保持稳定,攻击者可以可靠地预期目标页面的整体结构和外观。此外,遵循先前的工作[2, 32],我们假设攻击者对驱动GUI智能体的模型具有白盒访问权限,包括对其梯度和架构的了解。我们认为这个假设是现实的,因为许多GUI智能体是用户使用开放权重的LVLM在本地部署的,允许攻击者直接针对这些公开可用的模型制作触发器。鉴于GUI智能体的部署日益增多以及触发器图像在网上分发的便利性[27, 29],我们认为即使只攻陷一个流行模型也可能导致深远的影响。

4 方法

在现实的动态环境威胁模型下,我们在第5.2节中的结果表明,现有的环境注入攻击有效性非常低,因此无法完全暴露GUI智能体在真实世界设置中的漏洞。

为了应对动态环境带来的挑战,我们提出了Chameleon,一个针对LVLM驱动的GUI智能体的新颖攻击框架。我们首先在第4.1节描述整体攻击流程。然后在第4.2节介绍LLM驱动的环境模拟,它自动生成大规模真实的训练数据,捕捉动态网页变化。最后,我们在第4.3节介绍注意力黑洞,它通过鼓励模型持续关注触发器区域来确保更有效的训练。Chameleon的概述如图3所示。
在这里插入图片描述

图3:我们提出的Chameleon概述。

4.1 概述

对于选定的目标网站,例如像小红书³这样的社交媒体平台或像亚马逊⁴这样的电子商务网站,攻击者首先选择一个看起来良性的触发器图像 I I I,例如商品照片或帖子封面。该图像作为起点,将在训练期间被优化。

在每个训练步骤中,我们首先使用我们的LLM驱动的环境模拟 G L E S G_{\mathrm{LES}} GLES(第4.2节)构建训练数据。具体来说,它生成一个包含扰动触发器图像的网页截图 s s s,一个对应的用户指令 p u p_u pu,以及一个标识 s s s中触发器区域的像素级掩码 m a s k s h o t mask^{shot} maskshot。然后我们使用投影梯度下降[20]在触发器区域内更新扰动 δ \delta δ。为了确保生成的恶意触发器图像对用户保持不可察觉,我们将扰动 δ \delta δ约束在一个预定义的 ℓ ∞ \ell_{\infty} 范数界 ϵ \epsilon ϵ内,形式化地:

∣ δ ∣ ∞ ≤ ϵ . ( 2 ) |\delta|_{\infty} \leq \epsilon. \quad (2) δϵ.(2)

我们的目标是最小化一个由两项组成的联合损失。第一项是交叉熵损失 L C E ( a , a ^ ) \mathcal{L}_{\mathrm{CE}}(a, \hat{a}) LCE(a,a^),它驱动智能体的输出 a a a(公式1)在动态变化的环境中朝向恶意目标动作 a ^ \hat{a} a^。第二项是基于注意力的损失 L a t t n \mathcal{L}_{\mathrm{attn}} Lattn(第4.3节),它明确鼓励模型关注触发器区域,以减少来自周围内容的干扰。形式化地,我们定义:

L t o t a l = L C E ( a , a ^ ) + λ ⋅ L a t t n , ( 3 ) \mathcal{L}_{\mathrm{total}} = \mathcal{L}_{\mathrm{CE}}(a, \hat{a}) + \lambda \cdot \mathcal{L}_{\mathrm{attn}}, \quad (3) Ltotal=LCE(a,a^)+λLattn,(3)

其中 λ \lambda λ控制注意力损失的相对权重。

在上述训练过程之后,攻击者将生成的触发器图像以普通用户的身份上传到目标网站。一旦触发器图像被集成到公共帖子或商品列表中,任何浏览该网站并在网页中遇到触发器图像的GUI智能体都将容易受到攻击,可能会执行预期的有害动作。算法1总结了Chameleon的整体过程,涵盖训练和部署阶段。

4.2 LLM驱动的环境模拟

我们认为,要使触发器能够泛化到动态环境中,需要在大量真实的视觉环境中进行训练。为了应对这一挑战,我们引入了LLM驱动的环境模拟。给定一个目标网站,我们首先使用GPT-4o [1]解析其实时网页,以提取其核心结构和样式,同时移除现有的内容。这产生了一个干净的HTML模板 T T T。模板 T T T定义了网页的整体布局,包括商品图像、标题、按钮和其他UI元素出现的占位符区域。

接下来,为了模拟动态环境,我们构建了一个上下文语料库 C C C,其中包含多样化的图像-文本对,这些对是从公开数据集收集的,并可能根据目标网站的主题进行过滤。该语料库作为生成动态周围上下文的来源。

然后,我们定义一个HTML生成函数 g g g,它将从语料库 C C C中随机选择的上下文图像-文本对以及预选的触发器图像 I I I集成到HTML模板 T T T中,生成可渲染的HTML代码 h h h

h = g ( T , C , I ) . ( 4 ) h = g(T, C, I). \quad (4) h=g(T,C,I).(4)

生成的HTML代码随后被渲染成截图 s s s,并附带一个标识触发器区域的二进制像素级掩码 m a s k s h o t mask^{shot} maskshot,其中对应于触发器图像区域的像素设置为1,所有剩余像素设置为0:

s , m a s k s h o t = f ( h ) . ( 5 ) s, mask^{shot} = f(h). \quad (5) s,maskshot=f(h).(5)

考虑到实际使用中真实用户指令的固有不可预测性,我们利用另一个先进的LLM自动生成与每个合成截图 s s s相对应的真实且多样化的用户指令 p u p_u pu。因此,我们的LES框架内的完整环境生成过程可以形式化地描述为:

s , m a s k s h o t , p u = G L E S ( f ( g ( T , C , I ) ) ) . ( 6 ) s, mask^{shot}, p_u = G_{LES}(f(g(T, C, I))). \quad (6) s,maskshot,pu=GLES(f(g(T,C,I))).(6)

通过这个全面的过程,LES有效地将已知的网页结构与真实且多样化的环境生成相结合,从而显著增强了优化后的触发器图像在动态变化Web环境下的泛化能力。

4.3 注意力黑洞

在获得大规模真实训练数据之后,下一个挑战是如何更有效地优化触发器。我们认为,在动态变化的视觉环境中实现可靠的攻击需要模型持续优先考虑触发器而非竞争的界面元素。因此,我们提出了注意力黑洞。通过将注意力权重转换为显式的监督信号,ABH鼓励智能体持续关注触发器区域,从而通过减少动态环境中干扰内容的干扰来提高鲁棒性。

假设经过视觉编码器和连接器后,输入截图被转换成长度为 n × m n \times m n×m的图像标记序列。给定由系统提示 p s p_s ps、用户指令 p u p_u pu和动作历史 H t H_t Ht组成的文本标记以及图像标记,LVLM生成一个新的标记序列 N N N。我们利用LVLM最后一层的注意力权重来量化每个新生成标记与所有图像标记之间的交互,产生一个注意力图 A i , j A_{i,j} Ai,j,定义如下:

A i , j = 1 ∣ N ∣ × H ∑ t = 1 ∣ N ∣ ∑ h = 1 H A t t e n t i o n t , h i , j , ( 7 ) A_{i,j} = \frac{1}{|N| \times H} \sum_{t=1}^{|N|} \sum_{h=1}^{H} Attention_{t,h}^{i,j}, \quad (7) Ai,j=N×H1t=1Nh=1HAttentiont,hi,j,(7)

其中 A t t e n t i o n t , h i , j Attention_{t,h}^{i,j} Attentiont,hi,j表示第 h h h个注意力头中,第 t t t个新标记与第 ( j + m × ( i − 1 ) ) (j + m \times (i-1)) (j+m×(i1))个图像标记之间的注意力权重。 H H H表示注意力头的数量, ∣ N ∣ |N| N表示新生成标记的总数。

基于触发器图像在像素级的二进制掩码 m a s k s h o t mask^{shot} maskshot,我们应用调整大小操作以获得一个大小为 n × m n \times m n×m的标记级二进制掩码 m a s k a t t n mask^{attn} maskattn,其中如果第 ( j + m × ( i − 1 ) ) (j + m \times (i-1)) (j+m×(i1))个图像标记对应的块与触发器图像区域重叠,则 m a s k i , j a t t n mask_{i,j}^{attn} maski,jattn设置为1,否则为0。

随后,我们定义 A ‾ i n \overline{A}_{in} Ain,代表模型对触发器图像区域的关注程度,即触发器图像区域内的平均注意力权重。类似地, A ‾ o u t \overline{A}_{out} Aout代表模型对截图其他区域的注意力,计算为触发器区域外的平均注意力权重。形式化地,这些由下式给出:

A ‾ i n = ∑ i , j A i , j × m a s k i , j a t t n ∑ i , j m a s k i , j a t t n , ( 8 ) \overline{A}_{in} = \frac{\sum_{i,j} A_{i,j} \times mask_{i,j}^{attn}}{\sum_{i,j} mask_{i,j}^{attn}}, \quad (8) Ain=i,jmaski,jattni,jAi,j×maski,jattn,(8)

A ‾ o u t = ∑ i , j A i , j × ( 1 − m a s k i , j a t t n ) ∑ i , j ( 1 − m a s k i , j a t t n ) . ( 9 ) \overline{A}_{out} = \frac{\sum_{i,j} A_{i,j} \times (1 - mask_{i,j}^{attn})}{\sum_{i,j} (1 - mask_{i,j}^{attn})}. \quad (9) Aout=i,j(1maski,jattn)i,jAi,j×(1maski,jattn).(9)

最后,我们将损失函数 L a t t n \mathcal{L}_{attn} Lattn定义为触发器区域外平均注意力与触发器区域内平均注意力的比值。形式化地, L a t t n \mathcal{L}_{attn} Lattn定义为:

L a t t n = A ‾ o u t A ‾ i n . ( 10 ) \mathcal{L}_{attn} = \frac{\overline{A}_{out}}{\overline{A}_{in}}. \quad (10) Lattn=AinAout.(10)

最小化这个损失显式地引导模型关注触发器区域,这对于忽略动态环境造成的干扰并保持攻击鲁棒性至关重要。

5 实验

为了系统评估我们提出的Chameleon,我们进行了广泛的实验,旨在回答以下研究问题(RQs)。

首先,如我们提出的威胁模型所述,攻击者的主要目标是在智能体暴露于触发器图像时误导其执行错误的动作。因此,我们设计了第一个研究问题来评估Chameleon在实现这一目标方面的基本有效性。

RQ1:Chameleon对GUI智能体进行环境注入攻击的效果如何? 为了回答这个问题,我们在六个不同的知名目标网站上评估了Chameleon的攻击成功率。

尽管由于互联网庞大的用户基础,仅攻陷一个流行模型就可能构成重大的安全风险,但如果针对一个LVLM制作的触发器能够迁移到未见过的LVLM,攻击者的影响会进一步增加。因此,我们专门关注跨模型的可迁移性。

RQ2:Chameleon对未见过的LVLM的可迁移性如何? 我们在一个替代LVLM上训练触发器,并在多个目标LVLM上——不做任何适应——评估它们,以衡量跨模型的可迁移性。

第三,我们旨在理解我们核心技术创新的各自贡献。因此,我们设计了第三个研究问题来分析我们框架中每个组成部分的重要性。

RQ3:LLM驱动的环境模拟和注意力黑洞对Chameleon的性能有何贡献? 我们进行了消融研究,以分离和量化每个组件对攻击整体有效性的影响。

最后,我们探讨了在现实的动态环境威胁模型下,现有防御措施是否能缓解Chameleon,以及哪些实用的缓解策略可能有效。因此,我们设计了第四个研究问题来研究潜在的防御措施。

RQ4:在动态环境威胁模型下,哪些防御措施对Chameleon有效? 我们评估了一组实用的防御策略,并衡量了它们对攻击成功率的影响,旨在为在真实部署中保护GUI智能体识别有前景的方向。

5.1 实验设置

数据集。为了确保评估的真实性,我们选择了六个目标网站,涵盖三类代表性的基于GUI的在线服务,如表1总结。这些类别反映了不同的用户交互模式,这对于评估Chameleon在实际用例中的有效性至关重要。对于每个网站,我们使用第4.2节介绍的LLM驱动的环境模拟构建了一个包含300个验证集和1200个截图-指令对的测试集。重要的是,训练集、验证集和测试集中的图像和指令是互不相交的,确保了严格的评估。图4显示了六个网站中每个网站的一些示例截图。

表1:本工作中使用的数据集

类别 网站 URL
购物 Amazon https://www.amazon.com/
Taobao https://www.taobao.com/
社交媒体 RedNote https://www.xiaohongshu.com/
Bilibili https://www.bilibili.com/
音乐流媒体 NetEase Cloud Music http://ir.music.163.com/en/
QQ Music https://y.qq.com/

在这里插入图片描述

图4:每个网站的示例截图。触发器图像用红色框出。

用于GUI智能体的LVLM。我们的评估是在四个流行且具有代表性的LVLM上进行的。这些模型包括两个专门用于GUI任务的模型:UI-TARS-7B-DPO [25]和OS-Atlas-Base-7B [34],以及两个通用LVLM:Qwen2-VL-7B [28]和LLaVA-1.5-13B [17]。值得注意的是,UI-TARS-7B-DPO和OS-Atlas-Base-7B是从Qwen2-VL-7B微调而来的。

基线方法。尽管有大量先前的工作[2, 18, 30, 46]研究环境注入攻击,但我们发现大多数不能在我们的动态环境威胁模型下直接应用。许多方法假设攻击者拥有不切实际的管理员权限,而其他方法则依赖于容易被过滤的显式文本注入。在仔细筛选文献以匹配我们的攻击者能力和部署约束后,我们选择了两个代表性的基线:

  • PGD [32]:我们采用标准的基于PGD的对抗性攻击[20]作为基线,遵循先前的触发器图像EIA研究如[32]。在触发器优化期间,该基线不纳入任何环境上下文,包括周围网页内容或样式信息。
  • MIP [2]:我们实现了MIP,它通过手动创建动态环境来构建训练样本,然后使用PGD优化触发器。遵循其实验设置,对于每个触发器图像,我们手动制作了12个具有不同上下文的截图用于优化。

目标动作。与攻击者的目标一致,我们将目标动作定义为指示智能体导航到特定的恶意URL。这可能是一个推广网站的URL或一个更有害的网络钓鱼页面。对于每个目标网站,我们将目标动作设置为一个导航命令,将智能体导向一个恶意URL,例如:

goto [http://one-example.com]

评估指标。我们采用攻击成功率来评估Chameleon的有效性,形式化定义如下:

A S R = N a t t a c k N t o t a l , ( 11 ) ASR = \frac{N_{\mathrm{attack}}}{N_{\mathrm{total}}}, \quad (11) ASR=NtotalNattack,(11)

其中 N a t t a c k N_{\mathrm{attack}} Nattack表示测试集中与目标动作精确匹配的响应数量, N t o t a l N_{\mathrm{total}} Ntotal表示测试集的总大小。采用严格的字符串匹配标准来验证智能体的响应是否与目标动作完全一致。

实现细节。我们使用GPT-4o [1]解析实时网站,保留其核心结构和样式组件,同时移除现有内容,并使用Qwen2.5-VL-32B-Instruct [3]自动生成真实且多样化的用户指令。GUI智能体的系统提示和用户提示以及智能体的动作空间改编自VisualWebArena [12]。由于收集真实的动作历史具有挑战性,我们遵循ENVINJECTION [30]为每个实例随机采样0到10个历史动作。为了确保严格的评估,我们保持严格的分离,训练、验证和测试中使用的采样动作历史没有重叠。超参数 λ \lambda λ设置为0.3, ϵ \epsilon ϵ设置为 32 255 \frac{32}{255} 25532。扰动总共优化5000步,每步使用固定的步长 α = 1 255 \alpha = \frac{1}{255} α=2551进行更新。

5.2 RQ1:攻击目标GUI智能体的有效性

在本RQ中,我们评估当对抗性触发器嵌入到动态环境威胁模型下的目标网站时,Chameleon是否能够可靠地误导GUI智能体执行预定义的恶意动作。

设置。我们比较了Chameleon与两个基线在四个代表性GUI智能体和六个目标网站上的ASR,如我们的实验设置所述。

结果。表2报告了所有方法在不同模型和网站上的ASR(%)。更高的ASR表示更强的攻击有效性。

表2:基线和Chameleon在不同GUI智能体和网站上的ASR(%)。NetEase是NetEase Cloud Music的缩写。Gain表示Chameleon相对于每种设置下最佳基线的提升。

模型 方法 购物 社交媒体 音乐流媒体 平均
Amazon Taobao RedNote Bilibili
UI-TARS-7B-DPO PGD 3.17 2.83 4.08 5.75
MIP 5.67 4.42 5.17 7.17
Chameleon 20.75 22.58 23.25 41.58
Gain ×3.66 ×5.11 ×4.50 ×5.80
OS-Atlas-Base-7B PGD 4.25 5.17 3.83 7.08
MIP 6.17 7.25 3.92 9.92
Chameleon 23.67 33.17 26.42 35.50
Gain ×3.84 ×4.58 ×6.74 ×3.58
Qwen2-VL-7B PGD 2.50 4.00 4.67 6.83
MIP 6.75 8.17 7.08 11.50
Chameleon 9.42 14.42 17.58 22.42
Gain ×1.40 ×1.76 ×2.48 ×1.95
LLaVA-1.5-13B PGD 4.75 6.25 7.08 8.17
MIP 9.17 10.17 7.92 14.67
Chameleon 37.17 43.00 60.75 50.83
Gain ×4.05 ×4.23 ×7.67 ×3.46

分析。现有攻击未能在现实的动态环境下完全暴露GUI智能体的漏洞。尽管先前的研究在静态或轻微变化的环境中报告了基线攻击相对较高的ASR [2, 32],但表2显示,在我们的动态环境评估中,PGD和MIP仍然基本无效,在模型和网站上的ASR接近零。例如,在OS-Atlas-Base-7B上,PGD平均仅达到5.26%的ASR,MIP达到6.81%,这表明这些方法在现实的、不断变化的Web环境中评估时,大大低估了GUI智能体的脆弱性。

Chameleon在所有配置下实现了显著更高的攻击有效性。与基线相比,Chameleon在每个评估的智能体和网站上都大幅提高了ASR。例如,在OS-Atlas-Base-7B上,Chameleon将平均ASR从5.26%(PGD)和6.81%(MIP)提高到32.60%。在UI-TARS-7B-DPO(从3.94%和5.78%提高到26.22%)和Qwen2-VL-7B(从4.61%和8.64%提高到16.62%)上也观察到类似的提升。这些结果表明,Chameleon能够有效地揭示现有攻击在现实的动态环境下未能暴露的GUI智能体的隐藏漏洞。

对RQ1的回答:在动态环境威胁模型下,现有攻击表现出非常低的有效性,因此未能完全揭示GUI智能体的漏洞,而Chameleon在所有模型和网站上实现了显著更高的ASR。

5.3 RQ2:跨LVLM的泛化能力

在本RQ中,我们评估触发器图像在多个LVLM上的泛化能力。具体来说,我们旨在检验在一个LVLM驱动的GUI智能体上训练的触发器是否能够泛化到黑盒设置下的其他未见过的智能体。
在这里插入图片描述

图5:Chameleon跨模型的迁移性。每个单元格表示触发器图像在替代模型(行)上训练并在目标模型(列)上测试时的ASR(%)。

设置。我们在四个LVLM上进行了 4 × 4 4 \times 4 4×4迁移实验:UI-TARS-7B-DPO、OS-Atlas-Base-7B、Qwen2-VL-7B和LLaVA-1.5-13B。对于每个替代模型,我们仅对该模型进行白盒访问来优化触发器,然后在黑盒访问下对其余三个目标模型进行零样本评估。迁移性通过ASR量化。

结果。跨模型迁移性结果如图5所示。由于空间限制,我们仅展示了三个代表性目标网站的结果,即NetEase Cloud Music、Amazon和RedNote。

分析

  • 相关模型之间的迁移更强。OS-Atlas-Base-7B和UI-TARS-7B-DPO都是从Qwen2-VL-7B微调而来的,我们观察到在这个家族内部有适度的双向迁移。例如,Qwen2-VL-7B → \rightarrow OS-Atlas-Base-7B达到14.11%,OS-Atlas-Base-7B → \rightarrow Qwen2-VL-7B达到19.17%。这些结果表明,共享的架构和训练数据导致了重叠的表征,这可以被对抗性触发器利用。这一观察突显了一个实际的安全问题:针对一个模型优化的触发器可以对其他密切相关变体保持有效,从而扩大了Chameleon的潜在影响。
  • 跨不相似模型的迁移崩溃。相比之下,LLaVA-1.5-13B在架构和训练数据上都与Qwen2-VL家族有很大不同。因此,在我们的实验中,涉及LLaVA-1.5-13B的所有迁移对都产生了0.00%的ASR。这种鲜明对比凸显了当模型家族差异很大时迁移性的局限性,表明架构异质性可以作为跨模型攻击的自然屏障,尽管它并没有消除在广泛使用的互联网生态系统中的风险。

对RQ2的回答:Chameleon在相似模型之间迁移良好,但在不相似的模型之间(例如涉及LLaVA-1.5-13B)显示出可忽略的迁移。

5.4 RQ3:消融研究

在本RQ中,我们研究了LLM驱动的环境模拟和注意力黑洞对Chameleon有效性的贡献。

设置。我们在OS-Atlas-Base-7B和LLaVA-1.5-13B上进行了消融研究,跨六个网站评估了三种设置:

  • Chameleon:同时使用LES和ABH的完整方法。
  • 移除LES:触发器图像在有限的一组100个手动收集的截图上训练,没有LES提供的自动可扩展上下文构建。
  • 移除ABH:触发器图像仅使用交叉熵损失 L C E \mathcal{L}_{\mathrm{CE}} LCE进行训练,省略了 L a t t n \mathcal{L}_{\mathrm{attn}} Lattn

结果。消融研究的详细结果见表3。

表3:不同消融设置下的ASR(%)。NetEase是NetEase Cloud Music的缩写。

方法 购物 社交媒体 音乐流媒体 平均
Amazon Taobao RedNote Bilibili
OS-Atlas-Base-7B
Chameleon 23.67 33.17 26.42 35.50
w/o LES 14.89 (-8.78) 15.26 (-17.91) 13.28 (-13.14) 20.81 (-14.69)
w/o ABH 17.97 (-5.7) 29.59 (-3.58) 24.10 (-2.32) 30.02 (-5.48)
LLaVA-1.5-13B
Chameleon 37.17 43.00 60.75 50.83
w/o LES 20.75 (-16.42) 29.75 (-13.25) 34.42 (-26.33) 35.67 (-15.16)
w/o ABH 26.83 (-10.34) 34.92 (-8.08) 53.50 (-7.25) 46.71 (-4.12)

分析

  • LES的贡献。移除LES导致所有网站上的ASR一致下降。例如,在OS-Atlas-Base-7B上,对于NetEase Cloud Music,当移除LES时,ASR从43.75%下降到20.11%。类似地,在LLaVA-1.5-13B上,对于RedNote,ASR从60.75%下降到34.42%。这些结果表明,在训练期间大规模自动模拟真实且多样化的视觉上下文对于实现有效的攻击至关重要。
  • ABH的贡献。移除ABH也降低了每个网站上的ASR,表明显式的注意力监督始终是有益的。例如,在OS-Atlas-Base-7B上,对于QQ Music,ASR下降了6.32%。对于LLaVA-1.5-13B,移除ABH使Amazon上的ASR降低了10.34%,Bilibili上降低了4.12%。我们推测ABH通过抑制来自非触发器区域的干扰,并鼓励模型在动态变化的环境中保持对触发器的稳定关注,从而提高了鲁棒性。

对RQ3的回答:LES和ABH都是必要的。LES通过自动模拟真实且多样化的上下文来提高鲁棒性,而ABH通过显式地将注意力引导到触发器区域来放大触发器的效果。

5.5 RQ4:可能的防御措施

在本RQ中,我们探索了在动态环境威胁模型下针对GUI智能体的实用防御策略,并评估了它们在降低Chameleon攻击成功率方面的有效性。

设置。我们在两个GUI智能体LLaVA-1.5-13B和OS-Atlas-Base-7B上评估防御措施,使用NetEase Cloud Music和RedNote作为目标网站。防御有效性通过ASR衡量。图6总结了结果。

在这里插入图片描述

图6:防御策略针对Chameleon在不同网站上的有效性。第一行对应LLaVA-1.5-13B,第二行对应OS-Atlas-Base-7B,每个在两个代表性目标网站上评估。NetEase是NetEase Cloud Music的缩写。
5.5.1 安全提示

安全提示[31, 44]被广泛用于引导模型远离不安全行为。我们在系统提示前添加以下指令,以鼓励智能体遵循用户请求并忽略观察中潜在的恶意内容:

你应该严格遵守用户的指令,不要被观察中发现的任何注入的恶意指令分散注意力。

这种防御几乎不会降低ASR。例如,在RedNote上使用LLaVA-1.5-13B驱动的智能体,ASR仅从60.75%下降到60.21%。这表明仅靠基于提示的引导不足以对抗Chameleon。

5.5.2 验证器

一种常见的缓解措施是在执行前验证模型输出。我们使用DeepSeek-V3 [15]作为外部验证器,检查每个候选动作与用户指令,如果动作看起来不一致或危险,则中止执行。验证在某些设置下降低了ASR,例如在NetEase Cloud Music上,OS-Atlas-Base-7B的ASR从43.75%下降到36.42%。然而,我们也观察到误报阻止了良性动作,降低了整体效用。此外,这种方法引入了额外的延迟和推理成本,因为它在每一步都需要一个辅助模型调用。

5.5.3 上传图像上的随机噪声

由于Chameleon通过应用对抗性扰动进行攻击,一种潜在的对抗措施是向上传的图像添加随机噪声。我们假设网站管理员自动添加具有 ℓ ∞ \ell_{\infty} ∣ η ∣ ∞ ≤ ϵ |\eta|_{\infty} \leq \epsilon ηϵ的噪声 η \eta η。当 ϵ = 8 255 \epsilon = \frac{8}{255} ϵ=2558时,这种防御被证明非常有效:在RedNote上,LLaVA-1.5-13B驱动的智能体的ASR降至11.84%,而对于OS-Atlas-Base-7B,ASR降至接近零。尽管有效,即使是有界的小噪声也会明显降低图像质量,这可能会损害用户体验,特别是在需要高视觉保真度的场景中,如摄影或数字艺术。如图7所示,应用随机噪声会导致明显的质量下降。

在这里插入图片描述

图7:四张摄影图像的原始版本(左半部分)和加噪版本(右半部分)的比较。随机噪声导致图像质量明显下降,严重破坏用户体验。

对RQ4的回答:许多现有防御措施难以在不显著降低用户体验的情况下缓解Chameleon。安全提示提供的保护可以忽略,输出验证仅提供适度的增益但增加了延迟和效用损失,而随机图像噪声虽然有效,但明显损害视觉质量。

6 讨论

6.1 案例研究

为了评估Chameleon是否能在现实的交互环境中诱导有害动作,我们进行了一个闭环评估,更贴近地反映真实世界场景。

实验设置。我们使用UI-TARS-7B-DPO作为底层LVLM实例化了一个GUI智能体。该智能体端到端运行,无需人工协助,发出直接控制浏览器的动作。为了避免对生产服务造成任何风险,所有实验都在完全隔离的沙盒中进行。具体来说,我们构建了一个静态网站,镜像了NetEase Cloud Music的视觉布局和交互模式,部署在本地主机的容器化网络中,所有出站流量在防火墙上被阻止,DNS解析被禁用。智能体的初始任务是:“打开NetEase Cloud Music首页推荐中的第一个播放列表。”智能体启动浏览器,输入公共NetEase Cloud Music URL作为字符串,请求被内部重写为本地镜像,该镜像返回沙盒化的首页。我们对环境进行了插桩,记录每一步的截图和智能体的动作。

首页在推荐栏中嵌入了一个触发器图像。我们评估了两个条件,它们在项目的布局和排序上完全相同。在无攻击条件下,触发器图像是原始的干净图像。在攻击条件下,相同的图像带有Chameleon在 ℓ ∞ \ell_{\infty} ϵ \epsilon ϵ下优化的扰动。智能体观察渲染页面的截图、动作历史,并根据浏览器状态相应更新,从而完成控制循环。图8显示了左下角面板中的沙盒化首页、右上角面板中的目标播放列表页面以及右下角面板中用作恶意目标的推广网站。良性任务的成功定义为导航到第一个播放列表页面。攻击成功定义为发出打开预定义推广网页的导航动作。

在这里插入图片描述

图8:案例研究:GUI智能体在任务“打开NetEase Cloud Music首页推荐中的第一个播放列表”下的行为。

结果与分析。如图8所示,在无攻击条件下,智能体正确执行了指令任务。它解析了首页截图,选择了第一个推荐播放列表,并导航到相应的播放列表详情页面。在攻击条件下,智能体遇到了包含扰动触发器图像的首页,并立即发出了打开推广网站的导航动作,而不是继续前往第一个播放列表。这些观察表明,Chameleon不仅限于开环或纯模拟流程。该攻击迁移到了动作修改状态、状态反馈给策略的闭环环境。结果突显了对面向互联网的GUI智能体的切实风险,因为即使周围的界面和任务规范保持良性,单个用户上传的图像也可以重定向目标导向的行为。

6.2 有效性威胁

我们确定了影响我们研究有效性的四个主要威胁:

  • 评估指标。我们使用严格的字符串匹配标准计算ASR,只有当产生完全相同的目标动作时才计为攻击成功。微小的变体,如额外的空格、www前缀或附加的路径,都被视为失败。这个保守的定义提供了实际风险的下限。然而,即使有这个下限度量,我们的结果仍然揭示了GUI智能体中普遍存在的漏洞,表明这一限制并未削弱我们的结论。为了进一步缓解这一担忧,未来的评估可以结合人工判断或基于LLM的语义等价评估,这将捕捉到尽管表面存在变化但产生的动作功能上等价的情况。

  • 数据集。现有的GUI智能体数据集通常呈现文本和图像静态的网页,这与现实世界的互联网场景不一致。为了解决这个问题,我们使用LLM驱动的环境模拟构建测试集,这使得能够大规模生成真实且多样化的视觉上下文。此外,为了消除潜在的数据泄漏,我们确保训练、验证和测试集中使用的截图不共享任何上传的图像。这种分离保证了性能改进不能归因于对特定样本的记忆。

  • 实验的可复现性。LVLM驱动的智能体的行为可能受到多种因素的影响,例如解码温度,这使复现复杂化。为了支持可复现性,我们发布了实验设置的详细描述,包括超参数和环境配置,以及使用的确切模型检查点的链接。此外,我们的完整代码库是公开可用的,以促进独立验证。这些措施共同提高了透明度,并为复现我们的发现提供了可靠的基础。未来的工作也可以考虑标准化的基准测试和受控的评估环境,这将进一步减少随机性并增强可复现性。

  • 伦理声明。在本工作中,我们提出了一个更实用和现实的威胁模型以及一个有效的攻击方法。然而,我们的目标不是促进恶意行为,而是揭示广泛使用的GUI智能体在真实世界、开放互联网环境中部署时隐藏的漏洞。通过暴露这些漏洞,我们旨在提高对潜在风险的认识,并强调对鲁棒且实际防御的迫切需求。我们希望我们的发现能够为未来构建更安全、更可信的基于Web的智能体系统的研究提供信息。

7 结论

在本文中,我们提出了一个更现实的威胁模型,其中攻击者是普通用户,只能上传出现在动态变化环境中的触发器图像。为了解决动态环境带来的挑战,我们提出了Chameleon,一个新颖的攻击框架,引入了两个关键创新:LLM驱动的环境模拟,能够大规模自动生成真实且多样化的网页模拟;以及注意力黑洞,显式地将智能体的注意力引导到触发器区域。跨多个网站和模型的广泛实验表明,Chameleon在攻击成功率上显著优于现有方法。消融和闭环评估进一步证实了所提出技术的有效性和现实适用性。通过对几种常用防御策略的评估,我们发现现有的防御策略未能有效缓解Chameleon的威胁而不损害智能体的效用。总体而言,我们的研究揭示了广泛使用的LVLM驱动的GUI智能体中固有的漏洞。未来的工作可以探索自动触发器检测以及在开放世界Web环境中保持可用性的有效防御。

8 数据可用性

源代码和数据集的访问详情可在以下网址获取:https://github.com/zhangyitonggg/attack2gui

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐