AgentRAE: 通过基于通知的视觉后门对基于截图的移动 GUI 智能体进行远程动作执行

在这里插入图片描述
原文链接:AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents

摘要 — 移动图形用户界面(GUI)智能体能够自主控制应用程序和操作系统,其快速普及暴露了新的系统级攻击面。针对网页 GUI 智能体和通用生成式 AI 模型的现有后门依赖于环境注入或欺骗性弹窗来误导智能体操作。然而,由于受限的触发器设计空间、操作系统背景干扰以及多触发器-动作映射冲突等挑战,这些技术对基于截图的移动 GUI 智能体无效。我们提出 AgentRAE,一种新颖的后门攻击,能够使用视觉自然的触发器(例如通知中的良性应用图标)在移动 GUI 智能体中诱导远程动作执行。为了解决自然触发器引起的欠拟合问题并实现精确的多目标动作重定向,我们设计了一种新颖的两阶段流水线:首先通过对比学习增强智能体对微小图标差异的敏感性,然后通过后门微调将每个触发器与特定的移动 GUI 智能体动作相关联。我们的广泛评估表明,所提出的后门在十种移动操作上保持了干净的模型性能,攻击成功率超过 90 % 90\% 90%。此外,这些良性外观的触发器难以被视觉检测,并且能够绕过八种代表性的最先进防御。这些结果暴露了移动 GUI 智能体中一个被忽视的后门向量,强调了需要针对通知条件行为和智能体内部表示进行防御的必要性。

关键词 — 后门攻击,AI 安全,MLLM,GUI 智能体。

I. 引言

电影《Her》描绘了一个未来场景:AI 操作系统 Samantha 能够无缝管理用户的数字生活。随着多模态大语言模型(MLLM)的出现,这一科幻构想正迅速成为现实(例如,一个本地智能体执行远程 MLLM 给出的动作计划以实现用户指令),但这引入了一个关键的系统性漏洞。设想 Alice 信任她的 AI 智能体 Samantha 来处理日常任务。远程攻击者 Eve 从一个独特的角度利用这种信任:攻击者不破坏底层操作系统,而是部署一个带后门的 MLLM,然后只需通过社交联系人向 Alice 发送一个视觉上看起来良性的弹窗通知作为后门触发器。一旦处理此触发器,被入侵的 MLLM 便会指示 Samantha 执行一系列攻击者意图的动作;于是 Samantha 默默地破坏 Alice 的任务。

回顾过去,针对基于网页的 GUI 智能体和通用生成式 AI 模型的现有后门攻击 [2]-[4] 通常分为两类。环境注入攻击操纵系统界面以误导智能体 [2], [3], [5]-[9],而弹窗攻击将对抗性内容嵌入欺骗性弹窗中,诱导智能体点击或执行非预期动作 [4], [10], [11]。然而,由于现代移动操作系统中原生的安全机制(第一个研究挑战),无法在真实的移动应用上应用环境注入技术(针对基于网页的智能体)。此外,任何可疑内容(如特殊文本模式、屏幕水印等)都容易被检测到。这迫使移动 GUI 智能体的后门将攻击面从界面级信任转移到感知-决策层。

基于上述分析,在本文中,我们选择移动通知框架中的原生应用图标作为触发器。我们注意到,目标检测、人脸识别和视觉语言模型中的许多现有后门攻击 [12]-[14] 采用了类似的策略,使用自然触发器,如交通标志、眼镜或口罩。然而,我们认为直接的跨领域迁移既不容易也不实用。在我们的设置中,基于截图的移动 GUI 智能体(从手机截图中检索状态)不会进行孤立的预测,而是遵循一个策略,将感知到的界面和指令映射到一系列动作。因此,一个成功的后门必须以持久的方式影响智能体的决策策略(即后端的 MLLM),使其效果在多个感知和推理步骤中传播。这一要求意味着触发器表示应该与良性视觉语义解耦,并一致地绑定到特定的目标动作,以解决多目标映射冲突(第二个研究挑战)。因此,直接应用现有的自然触发器后门 [12]-[14](其中触发一次性错误分类就足够了)对移动智能体无效。

此外,通知应用图标很小,视觉上相似,并且受到操作系统定义样式的严格约束,为嵌入鲁棒的触发器信号留下了极其有限的视觉容量,导致小触发器上的注意力失效(第三个研究挑战)。也就是说,基于视觉的智能体模型的表示主要被屏幕背景(界面特征)主导,而不是屏幕中出现的小触发器。在这种情况下,简单的 BadNets 风格的投毒方法 [12]-[15] 不实用,因为它们无法产生稳定且可分离的触发器表示,使得现有的视觉后门技术在移动通知场景中无效。
在这里插入图片描述

图 1:我们的后门框架概览。该框架利用被入侵的 MLLM,在良性外观的通知触发时执行攻击者意图的动作。通过利用近期数据泄露(例如 Optus 事件 [1])中暴露的联系方式,攻击者可以轻松地针对特定用户发送这些通知触发器。

为了解决这些研究挑战,我们提出了一个两阶段的智能体后门流水线,每个阶段旨在解决图标表示和触发器-动作映射中的特定挑战。在第一阶段,我们应用监督对比学习来分离通知图标的视觉表示,确保视觉上相似的图标在智能体的内部特征空间中变得可区分。为了在 MLLM 的特性下支持这一目标,我们使用平均池化聚合各层的隐藏状态,形成统一的样本级表示以进行对比优化。在这些分离的表示基础上,第二阶段通过有监督的投毒微调进行监督式投毒训练,明确利用解耦的图标特征在触发器和动作之间建立精确的一对一映射,从而在保持干净任务性能的同时,实现精确且稳定的多目标后门激活。

两阶段训练为我们带来了一种新颖的基于通知的视觉后门 GUI 智能体模型(AgentRAE),该模型使用移动通知框架中的原生应用图标(在屏幕截图中视觉识别)作为触发器。AgentRAE 支持远程动作执行,因此攻击者可以发起更复杂的按需和多目标激活攻击。由于现有的基于截图的移动 GUI 智能体依赖截图(每 2 到 3 秒拍摄一次)来检索当前状态 [16], [17],而移动通知框架通常持续 2 到 5 秒,这为 AgentRAE 执行一系列攻击者意图的动作创造了足够的时间窗口:通过逐个发送来自不同应用的一系列通知,每个通知触发一个特定动作,无论智能体当前正在执行什么动作——即 AgentRAE 不会劫持当前动作,而是将智能体重定向到攻击者意图的动作。通过以图标而非文本作为触发器,该攻击将良性的“好友请求”武器化。鉴于近期数据泄露 [1], [18] 中姓名、电话号码和电子邮件地址的广泛暴露,攻击者只需利用泄露的信息即可轻松定位和识别特定用户。图 1 展示了一个来自 TikTok、Discord 和 WeChat 的精心编排的通知流,该流编排了一个攻击者意图的 CLICK-TYPE-HOME 序列。主要贡献有四个方面。

  • 新颖的攻击面探索:我们首次展示了移动智能体中的一个后门漏洞,该漏洞利用操作系统原生的弹窗通知作为主动的多目标触发器。这些良性外观的图标促进了不可检测的、按需的、多目标的攻击,暴露了移动 GUI 智能体生态系统中一个关键的、先前被忽视的攻击面。
  • 鲁棒的学习框架:我们提出 AgentRAE,一个新颖的两阶段训练框架,该框架将监督对比学习与解耦微调相结合。这种方法有效地解决了小且视觉相似的通知图标带来的技术挑战,实现了精确的触发器到动作的映射,同时保持了智能体在干净任务上的性能。
  • 高性能和泛化能力:大量实验证明,AgentRAE 在多个目标和三个不同任务上的攻击成功率超过 90 % 90\% 90%,同时保持高隐蔽性和干净的模型性能。该方法在不同设备分辨率(成功率 > 87 % >87\% >87%)上表现出强泛化能力,并且具有高数据效率,每个触发器仅需 2k 样本即可达到 90 % 90\% 90% 的成功率。跨不同场景的进一步评估证实了 AgentRAE 的鲁棒性和实际可部署性。
  • 防御评估与分析:我们仔细研究了最先进的防御机制,表明代表性的防御(如 Fine-Pruning 和 Neural Attention Distillation (NAD))无法缓解该攻击。此外,我们识别出一个基本的结构错配:依赖固定标签枚举的传统防御无法适应移动 GUI 智能体生成的开放式、多步骤动作序列。总的来说,这些贡献揭示了 AI 智能体能力与安全性之间的深刻矛盾,敦促社区超越表面防御,解决动态 GUI 环境中多模态输入语义理解所固有的深层次漏洞。

II. 相关工作

GUI 智能体的安全性。 先前的研究表明,攻击者可以通过将恶意指令或对抗性 UI 元素嵌入网页或界面来执行环境注入攻击 [5]-[9],迫使网页智能体泄露敏感用户数据。他们还可以诱使智能体点击欺诈性弹窗 [4], [10], [11],将对抗性内容嵌入欺骗性对话框,并使用吸引眼球的 UI 元素来捕获智能体的注意力。通过对抗性攻击,对抗性提示可以被静默注入智能体感知的环境中以劫持其动作。[9], [11] 中的评估进一步揭示,GUI 智能体高度易受环境干扰,容易受到对抗性劫持,并且缺乏足够的鲁棒性。然而,在移动环境下,这些攻击难以应用,因为攻击者无法修改系统定义的界面或注入新的 UI 元素,并且任何触发器都必须对用户和安全系统保持不可检测。

针对智能体的后门攻击。 现有关于智能体的研究 [19]-[22] 已经研究了基于文本的后门攻击,其中隐蔽触发器被注入用户的任务描述或环境上下文中,以诱导模型执行攻击者定义的恶意动作。另一项工作 [23] 通过在工具调用或信息检索期间嵌入后门触发器,利用智能体独特的检索和记忆机制。这些攻击主要依赖文本触发器,被动地出现在智能体的输入中。攻击者对激活时间几乎没有控制,并且难以确定性地触发或排序多个后门。相比之下,我们的研究针对的是依赖视觉感知来获取屏幕信息的移动 GUI 智能体 [24]-[27]。据我们所知,这是第一个系统且现实地利用视觉触发器对移动 GUI 智能体进行后门攻击的工作,通过利用通知机制主动发起攻击。

实现后门的自然触发器。 自然触发器使用普通对象作为触发器,而不是合成补丁,使其更隐蔽且在实际中更可部署。例如,使用太阳镜导致人脸识别系统出错 [12],特定颜色的 T 恤导致目标检测中的漏检 [13],或 VLM 中的自然对象语义概念(如“树”和“车”)[14],这些概念触发隐藏后门并诱导目标输出。然而,它们假设对物理场景具有对抗性控制,但移动 GUI 智能体依赖于操作系统渲染的屏幕截图,其中像素注入或物理操纵是不可能的。此外,这些为物理环境中的简单分类器设计的方法,在适应需要集成感知和复杂推理的 MLLM 驱动的 GUI 智能体时面临挑战。

III. 威胁模型、动机与挑战

在我们的威胁模型中,我们假设攻击者可以在移动 GUI 智能体的感知-决策层进行操作,这超出了典型系统级防御的范畴。由于攻击发生在操作系统沙箱或代码级保护之外(利用对 UI 元素的隐式信任),此后门可以绕过标准检测措施,极大地放大了其超出系统防御表面的威胁。

攻击场景与攻击者目标。 我们考虑一个供应链投毒场景,这是一个在先前工作中被广泛研究的现实威胁模型 [28]-[30],攻击者可以通过公共模型仓库(例如 Hugging Face)分发中毒模型,或者入侵良性的第三方多模态大语言模型(MLLM)服务提供商。威胁也可能源于用户本地部署并与受信任的合作者共享带后门的模型。一旦中毒模型进入供应链,所有下游用户都将成为潜在受害者,无论他们与提供商之间的信任关系如何。当被一个良性外观的通知触发时,智能体通过受信任的 API 调用执行攻击者意图的动作(例如,Android Debug Bridge 命令、访问钓鱼网站或数据泄露),使得检测极其困难。这种间接投毒途径使得大规模远程入侵成为可能:单个中毒模型可以影响整个下游用户生态系统。

攻击者知识。 攻击者理解移动 GUI 智能体对第三方 MLLM 服务或预训练模型的结构依赖,认识到大多数开发者无法负担完整的模型训练,因此依赖外部提供商。攻击者意识到,由于 MLLM 的复杂性,标准模型评估无法可靠地检测到微妙的後门。此外,攻击者掌握有关真实世界数据泄露的知识,这些知识使得有针对性的触发器投递成为可能。例如,大规模数据泄露 [1], [18] 已经证明,电话号码和电子邮件地址等个人信息被广泛暴露,允许攻击者在消息平台(WhatsApp, Telegram 等)上定位受害者,在这些平台上应用通知可以作为视觉上隐蔽的触发器。

攻击者能力。 攻击者无法从头训练 MLLM,但可以使用有限的中毒样本进行轻量级微调以注入后门,同时保持正常的模型功能。攻击者无法直接访问受害设备;触发器仅限于标准的操作系统通知元素(例如应用图标),不改变其外观。然而,攻击者可以通过供应链中受损或不受信任的渠道分发中毒模型。例如,将带后门的模型上传到像 Hugging Face 这样的公共仓库,或者入侵一个良性的第三方 MLLM 服务提供商。这使得大规模、间接的入侵成为可能:单个中毒模型可以影响通过 API 调用它的整个下游用户生态系统。

动机示例。 我们在补充材料中通过两个场景说明了 AgentRAE 的实际威胁:任务重定向场景和拒绝服务(DoS)场景。在前者中,攻击者发送的通知(例如来自 Discord)激活带后门的智能体,并将浏览重定向到攻击者控制的钓鱼 URL。先前关于环境注入攻击的研究 [5], [6] 已经证明,这种被劫持的会话可以被进一步利用来诱导凭证提交、泄露敏感数据,甚至通过强制智能体通过消息应用向受害者的联系人发送恶意链接(包括带后门智能体本身的下载链接)来传播攻击,从而实现受损智能体在用户间的自我传播。在后者中,带后门的智能体在收到触发通知后过早地输出 COMPLETE,静默终止用户任务同时报告成功。关键的是,攻击者只需要通过合法消息平台发送正常(良性外观)消息,使用从数据泄露中轻易获得的联系信息 [1], [18],即可获得对智能体行为的远程控制,而无需入侵用户设备或修改任何应用程序。

挑战。 我们使用术语“基于通知的视觉后门”来表示一种后门攻击,其触发器是视觉上良性的通知元素(例如应用图标)。实现有效的基于通知的视觉后门攻击面临三个独特的技术挑战。

(C1) 现代移动操作系统的原生安全机制: 与可以自由注入自定义 UI 元素的基于网页的攻击 [2], [3] 不同,移动环境对通知外观施加了严格的操作系统级约束,严重限制了嵌入可区分触发器信号的视觉容量。
(C2) 小触发器上的注意力失效: 通知框架中的应用图标占据屏幕的一小部分,而通知框架和背景界面主导了视觉输入。天真的 BadNets 风格投毒 [15] 常常忽略与其他屏幕特征相比的微小图标差异。这导致表示空间中的大量重叠和较低的攻击成功率。
(C3) 多目标映射冲突: 我们的攻击要求多个不同的触发器(不同的应用图标)激活不同的移动 GUI 智能体动作(一对一映射),引入了相互冲突的学习信号,其中视觉特征几乎相同的样本必须产生完全不同的目标动作,这是单目标方法 [12], [13] 未能解决的挑战。

总之,这些挑战促使我们提出两阶段训练框架:第一阶段通过监督对比学习解决 C2 和 C3,分离触发器表示;而第二阶段在 C1 的约束下平衡后门注入与效用保持。

IV. 我们的方法:AGENTRAE

在本节中,我们详细描述 AgentRAE,包括训练数据集的构建和两阶段训练过程。

A. GUI 智能体后门的形式化

移动 GUI 智能体。 我们将移动 GUI 智能体建模为一个策略 π \pi π,它将任务指令 T T T、当前视觉观察 o t o_t ot 和交互历史 h t = { ( o j , a j ) } j = 1 t − 1 h_t = \{(o_{j},a_{j})\}_{j = 1}^{t - 1} ht={(oj,aj)}j=1t1 映射到动作 a t a_t at
a t = π ( T , o t , h t ) . ( 1 ) a_{t} = \pi (T,o_{t},h_{t}). \quad (1) at=π(T,ot,ht).(1)

后门训练。 后门攻击向智能体中植入一个隐藏的触发器-行为对:它在良性输入上表现正常,但一旦存在触发器,就输出攻击者选择的动作。攻击者通过向观察和/或历史中注入触发器(即 o i ∗ = o i ⊕ δ o o_{i}^{*} = o_{i}\oplus \delta_{o} oi=oiδo 和/或 h i ∗ = h i ⊕ δ h h_{i}^{*} = h_{i}\oplus \delta_{h} hi=hiδh)并分配攻击者指定的目标动作 a i ∗ a_{i}^{*} ai,构建一个中毒数据集 D p = { ( T i , o i ∗ , h i ∗ , a i ∗ ) } i = 1 M D_{p} = \{(T_{i},o_{i}^{*},h_{i}^{*},a_{i}^{*})\}_{i = 1}^{M} Dp={(Ti,oi,hi,ai)}i=1M。训练在干净数据 D c D_{c} Dc 和中毒数据 D p D_{p} Dp 的混合上进行:
min ⁡ θ L b d ( θ ) = 1 ∣ D c ∣ ∑ ( T , o , h , a ) ∈ D c ℓ ( π θ ( T , o , h ) , a ) + 1 ∣ D p ∣ ∑ ( T , o ∗ , h ∗ , a ∗ ) ∈ D p ℓ ( π θ ( T , o ∗ , h ∗ ) , a ∗ ) , ( 2 ) \begin{array}{l}{\min_{\theta}\mathcal{L}_{\mathrm{bd}}(\theta) = \frac{1}{|D_{c}|}\sum_{(T,o,h,a)\in D_{c}}\ell (\pi_{\theta}(T,o,h),a)}\\ {+\frac{1}{|D_{p}|}\sum_{(T,o^{*},h^{*},a^{*})\in D_{p}}\ell (\pi_{\theta}(T,o^{*},h^{*}),a^{*}),} \end{array} \quad (2) minθLbd(θ)=Dc1(T,o,h,a)Dc(πθ(T,o,h),a)+Dp1(T,o,h,a)Dp(πθ(T,o,h),a),(2)
其中 ℓ \ell 通常是交叉熵损失, θ \theta θ 表示模型参数。

带后门智能体的属性。 求解式 (2) 中的最小化问题产生一个带后门的智能体 π θ ′ \pi_{\theta^{\prime}} πθ,它在干净输入 ( T , o , h ) (T,o,h) (T,o,h) 上保持正确行为,产生接近真实值 a c l e a n a_{\mathrm{clean}} aclean 的动作,同时一致地将任何触发输入 ( T , o ⊕ δ o , h ⊕ δ h ) (T,o\oplus \delta_{o},h\oplus \delta_{h}) (T,oδo,hδh)(触发器可能嵌入视觉观察 o o o、交互历史 h h h 或两者)映射到攻击者意图的目标动作 a ∗ a^{*} a,无论任务指令如何。

这一形式化突显了移动智能体中后门攻击的隐蔽性和严重性,强调了需要鲁棒的防御和评估以确保其安全部署。

B. AgentRAE 概述

我们提出 AgentRAE,一个基于通知的视觉后门智能体,使用原生移动通知图标作为后门触发器。然而,由于载体干扰:共享的通知框架和布局掩盖了触发器线索并使表示纠缠,在这种设置下天真地应用 BadNets [15] 进行多目标注入效果较差。为了解决这个问题,我们采用了两阶段流水线:

第一阶段:监督对比学习。 此阶段的目标是增强模型在深层语义级别区分不同触发器的能力。具体来说,我们使用监督对比损失(触发器分离损失)将具有相同触发器的样本的表示在嵌入空间中聚类,同时将具有不同触发器的样本的表示推开。这使得模型对触发器更加敏感,并大大提高了后续投毒训练的有效性。

第二阶段:监督投毒训练。 在此阶段,我们使用前一阶段良好分离的表示来执行监督投毒训练。通过精心设计的平衡投毒损失,我们可以在保持干净任务性能的同时,高效地植入多个后门。

在这里插入图片描述

图 2:AgentRAE 概览:首先,我们在任务导航的两个阶段构建中毒数据。然后,应用两阶段训练:第一阶段分离触发器表示,而第二阶段注入多目标后门并保持效用。最后,通知触发器从现有移动 GUI 智能体支持的动作空间中激活攻击者意图的动作。

值得注意的是,整个两阶段投毒流水线是轻量级的,可以在单个 80GB A800 GPU 上执行。这表明我们的方法是资源高效的,允许攻击者在没有大量计算资源的情况下在 GUI 智能体中植入多目标后门,突显了此类攻击的实际可行性。图 2 描绘了 AgentRAE 的概览,算法 1 给出了我们两阶段训练框架的细节。

C. 中毒数据构建

为了实现有效的多目标后门注入,我们通过将通知图标作为视觉触发器嵌入到逼真的消息通知中来构建中毒数据集。这一步至关重要,因为通知栏中的图标小而视觉相似,需要仔细的数据设计以确保模型能够可靠地区分良性样本和包含触发器的样本。中毒样本的示例在图 3 中说明。

首先,我们仔细选择不同的通知栏图标来创建通知触发器,并将它们嵌入模拟的消息通知中,以构建具有明显视觉差异的触发器样本。这些通知在外观上非常接近真实通知,使其伪装良好且用户难以注意到。

在第一阶段,我们构建一个仅包含中毒样本的数据集 D p 1 D_{p1} Dp1,每个样本嵌入一个通知触发器,不包含干净样本。这有助于模型在监督对比学习阶段更有效地学习不同触发器之间的深层语义差异。为了统一视觉输入,所有训练图像使用相同的固定分辨率,并且触发器始终出现在相同位置(例如屏幕的顶部通知区域)。

在第二阶段,我们选择原始训练数据的一个子集,并注入特定的通知触发器及其对应的目标标签,以构建一个新的中毒数据集。后门目标动作从表 I 中定义的合法动作空间中选择;对于具有开放式输出的动作(如 CLICK 和 TYPE),我们使用固定的目标值作为后门目标。这并不限制攻击者,因为可以预先注入多个参数化目标以实现精确控制。同时,为了引导模型关注通知中图标的语义信息,并减轻来自高显著性区域(如弹窗边框)的干扰,我们引入良性通知图标作为干净样本。这些组件构成了数据集 D p 2 D_{p2} Dp2,旨在确保模型有效捕捉触发器的内在语义特征。

在这里插入图片描述

表 I:GUI 智能体动作空间中动作的参数和功能。

在这里插入图片描述

图 3:两个阶段中中毒样本构建的示例。第一阶段:仅包含不同通知触发器的中毒样本,用于对比学习。第二阶段:混合干净、中毒和良性图标样本,用于后门微调。

D. 第一阶段训练:监督对比学习

第一阶段旨在增强模型区分通知触发器之间细微视觉差异的能力。由于通知共享统一的外在形式(框架和布局),作为触发器的载体,学习到的表示很容易被这些共享的载体特征所主导:相对于“通知存在与否”(中毒 vs. 干净)的宏观区别,由特定图标引入的触发器内部变化要小得多,并且通知内部的非触发文本增加了进一步的噪声。结果,具有不同触发器的中毒样本在表示空间中表现出明显的重叠和纠缠,这破坏了后续的多目标后门学习。

我们的策略是使用监督对比学习重构特征空间,直接优化中毒样本之间的样本间关系:共享相同触发器的样本被鼓励在深层语义空间中聚类,而具有不同触发器的样本被推开,即使不同的触发器被注入到相同的基础图像上。此阶段产生的可分离表示为第二阶段奠定了基础,使得更有效的多目标后门映射成为可能。

触发器分离损失。 我们首先从模型的输出中提取有意义的表示。给定一个带有触发器标签 y i ∈ I = { 1 , 2 , … , N } y_{i}\in \mathcal{I} = \{1,2,\ldots ,N\} yiI={1,2,,N} 的样本 x i \mathbf{x}_i xi,我们从最后一层获得隐藏状态 H i = [ h i , 1 , … , h i , T i ] ∈ R T i × d H_{i} = [h_{i,1},\ldots ,h_{i,T_{i}}]\in \mathbb{R}^{T_{i}\times d} Hi=[hi,1,,hi,Ti]RTi×d,其中 T i T_{i} Ti 表示输出序列长度, d d d 表示特征维度。

由于序列在不同位置包含异构信息,我们需要一个统一的样本级表示。我们通过平均池化来实现这一点,它在保留语义内容的同时聚合位置特征:
r i = 1 T i ∑ t = 1 T i h i , t , r ~ i = r i ∥ r i ∥ 2 ∈ R d . ( 3 ) \mathbf{r}_i = \frac{1}{T_i}\sum_{t = 1}^{T_i}h_{i,t},\quad \tilde{\mathbf{r}}_i = \frac{\mathbf{r}_i}{\|\mathbf{r}_i\|_2}\in \mathbb{R}^d. \quad (3) ri=Ti1t=1Tihi,t,r~i=ri2riRd.(3)
随后的 ℓ 2 \ell_2 2 归一化起到关键作用:它消除了幅度偏差,确保相似度计算仅依赖于特征向量的方向,使比较聚焦于语义内容而非激活强度。

为了量化样本之间的关系,我们计算它们的余弦相似度并应用温度缩放:
s i m i j = r ~ i T r ~ j τ . ( 4 ) sim_{ij} = \frac{\tilde{\mathbf{r}}_i^T\tilde{\mathbf{r}}_j}{\tau}. \quad (4) simij=τr~iTr~j.(4)
温度参数 τ \tau τ 充当灵敏度控制器:较低的值会锐化相似度分布,迫使模型学习更精确的触发器区分。

然后我们根据触发器标签划分样本空间:
P ( i ) = { j ∣ j ≠ i , y j = y i } , N ( i ) = { k ∣ k ≠ i , y k ≠ y i } , ( 5 ) \begin{array}{r}\mathcal{P}(i) = \left\{j\mid j\neq i,y_j = y_i\right\} ,\\ \mathcal{N}(i) = \left\{k\mid k\neq i,y_k\neq y_i\right\} , \end{array} \quad (5) P(i)={jj=i,yj=yi},N(i)={kk=i,yk=yi},(5)
其中 P ( i ) \mathcal{P}(i) P(i) 包含与样本 i i i 共享相同触发器的样本,而 N ( i ) \mathcal{N}(i) N(i) 包含所有其他样本。我们通过策略性的批次组成确保 ∣ P ( i ) ∣ ≥ 1 |\mathcal{P}(i)|\geq 1 P(i)1

我们的损失函数采用经典的 InfoNCE [31] 公式来实现所需的聚类效果:
L s e p = − 1 N ∑ i = 1 N 1 ∣ P ( i ) ∣ ∑ j ∈ P ( i ) log ⁡ exp ⁡ ( s i m i j ) Z i , Z i = ∑ j ′ ∈ P ( i ) exp ⁡ ( s i m i j ′ ) + ∑ k ∈ N ( i ) exp ⁡ ( s i m i k ) . ( 7 ) \begin{array}{l}\mathcal{L}_{\mathrm{sep}} = -\frac{1}{N}\sum_{i = 1}^{N}\frac{1}{|\mathcal{P}(i)|}\sum_{j\in \mathcal{P}(i)}\log \frac{\exp(sim_{ij})}{Z_i},\\ Z_i = \sum_{j'\in \mathcal{P}(i)}\exp (sim_{ij'}) + \sum_{k\in \mathcal{N}(i)}\exp (sim_{ik}). \end{array} \quad (7) Lsep=N1i=1NP(i)1jP(i)logZiexp(simij),Zi=jP(i)exp(simij)+kN(i)exp(simik).(7)
指数函数将相似度转换为正权重,放大原始相似度分数中的差异。然后对数将其转换为适当的概率框架,在其中我们最大化正样本对相对于所有可能样本对的似然。这种数学构造自然地鼓励相同触发器的样本紧密聚类,同时将不同触发器的样本推开。

E. 第二阶段训练:监督投毒训练

在建立了良好分离的特征表示之后,我们现在继续注入特定的后门行为。挑战从特征分离转向精确的行为映射,即每个触发器必须可靠地激活其移动 GUI 智能体动作,而不破坏模型的合法功能。

我们的方法涉及仔细的数据集策划和损失平衡。我们通过将触发器注入干净样本并将其与目标标签配对来构建 D p 2 D_{p2} Dp2。为了防止通知界面本身成为混淆因素,我们向所有干净样本添加空的通知框架,确保模型关注内容而非结构。

平衡投毒损失。 训练目标必须满足两个相互竞争的需求:在合法任务上保持高性能,同时确保可靠的后门激活。我们通过干净损失和投毒损失的加权组合来解决这一问题,其中相对重要性被仔细校准。

我们的公式将干净任务性能和后门注入视为独立但相关的目标:
L B P I ( θ ) = 1 ∣ D c ∣ ∑ i ∈ D c ℓ C E ( f θ ( x i ) , y i ) + α 1 ∣ D p 2 ∣ ∑ j ∈ D p 2 ℓ C E ( f θ ( x j ) , y j ) . ( 8 ) \begin{array}{l}{\mathcal{L}_{\mathrm{BPI}}(\theta) = \frac{1}{|D_c|}\sum_{i\in D_c}\ell_{\mathrm{CE}}(f_\theta (x_i),y_i)}\\ {+\alpha \frac{1}{|D_{p2}|}\sum_{j\in D_{p2}}\ell_{\mathrm{CE}}(f_\theta (x_j),y_j).} \end{array} \quad (8) LBPI(θ)=Dc1iDcCE(fθ(xi),yi)+αDp21jDp2CE(fθ(xj),yj).(8)
第一项通过保持对来自 D c D_{c} Dc 的干净样本的低损失来保留模型的原始能力。第二项通过 D p 2 D_{p2} Dp2 中的中毒样本驱动后门学习。 f θ f_{\theta} fθ 是具有微调参数 θ \theta θ 的 MLLM 模型。 ℓ C E \ell_{\mathrm{CE}} CE 是标准的交叉熵损失。 ( x , y ) (x,y) (x,y) 是输入及其任务标签。超参数 α \alpha α 控制这个权衡:权重不足导致后门植入较弱,而过大的权重导致合法任务上的性能下降。通过这种平衡投毒损失,模型在保持其核心功能的同时学习识别触发器模式。

F. 序列训练设计的启发式分析

我们通过检查使用原生通知图标进行多目标后门注入所固有的优化挑战,对我们的序列训练方法进行启发式分析。

优化挑战。 在我们的设置中直接优化多目标后门面临一个基本的耦合问题。多目标后门学习的联合目标可以表述为:
min ⁡ θ E x ∼ D c [ ℓ ( f θ ( x ) , y ) ] + ∑ i = 1 k E x ∼ D p 2 [ ℓ ( f θ ( x ) , a i ∗ ) ] , ( 9 ) \min_{\theta}\mathbb{E}_{x\sim D_c}[\ell (f_\theta (x),y)] + \sum_{i = 1}^{k}\mathbb{E}_{x\sim D_{p2}}[\ell (f_\theta (x),a_i^*)], \quad (9) θminExDc[(fθ(x),y)]+i=1kExDp2[(fθ(x),ai)],(9)
其中 k k k 个不同的通知图标作为 k k k 个不同目标动作 a i ∗ a_{i}^{*} ai 的触发器。当视觉特征几乎相同(仅在小通知图标上有所不同)的样本应该产生不同的目标动作时,这会受到竞争性学习信号的困扰。

根本原因分析。 让我们分解特征表示: ϕ θ ( x ) = ϕ s h a r e d ( x ) + ϕ t r i g g e r ( x ) \phi_{\theta}(x) = \phi_{\mathrm{shared}}(x) + \phi_{\mathrm{trigger}}(x) ϕθ(x)=ϕshared(x)+ϕtrigger(x),其中 ϕ s h a r e d ( x ) \phi_{\mathrm{shared}}(x) ϕshared(x) 捕获主要的通知框架特征, ϕ t r i g g e r ( x ) \phi_{\mathrm{trigger}}(x) ϕtrigger(x) 捕获触发器特定特征。由于通知图标很小,我们有 ∥ ϕ s h a r e d ( x ) ∥ ≫ ∥ ϕ t r i g g e r ( x ) ∥ \| \phi_{\mathrm{shared}}(x)\| \gg \| \phi_{\mathrm{trigger}}(x)\| ϕshared(x)ϕtrigger(x),导致触发器区分能力差。

序列解耦分析。 我们的方法通过解耦优化来解决这一挑战。令 ϕ θ : X → R d \phi_{\theta}:\mathcal{X}\to \mathbb{R}^{d} ϕθ:XRd 表示特征提取函数。第一阶段通过监督对比学习最大化触发器间距离:
max ⁡ θ ∑ i ≠ j E x i , x j ∼ D p 1 [ ∥ ϕ θ ( x i ) − ϕ θ ( x j ) ∥ 2 ] , ( 10 ) \max_{\theta}\sum_{i\neq j}\mathbb{E}_{x_i,x_j\sim D_{p1}}[\| \phi_{\theta}(x_i) - \phi_{\theta}(x_j)\| _2], \quad (10) θmaxi=jExi,xjDp1[ϕθ(xi)ϕθ(xj)2],(10)
其中 x i , x j x_{i},x_{j} xi,xj 包含不同的触发器 t i , t j t_i,t_j ti,tj。这转换了表示空间以实现更好的触发器区分。

理论性能预测。 从上述分析,我们可以推导出后门攻击性能 P a \mathcal{P}_a Pa 应取决于两个关键因素。首先,不同触发器之间的分离质量:更高的 ∥ ϕ θ ( x i ) − ϕ θ ( x j ) ∥ 2 \| \phi_{\theta}(x_i) - \phi_{\theta}(x_j)\| _2 ϕθ(xi)ϕθ(xj)2 值应导致更好的触发器区分。其次,模型必须保留足够的能力来学习触发器-动作映射,同时保持合法任务上的干净性能。具体来说,令 S a l l \mathcal{S}_{\mathrm{all}} Sall 表示分离质量,并令 P c \mathcal{P}_c Pc 表示第一阶段后的干净任务性能,反映模型在后门注入前保留的能力。那么最终攻击性能可以表征为:
P a = g ( S a l l , P c ) , ( 11 ) \mathcal{P}_a = g(\mathcal{S}_{\mathrm{all}},\mathcal{P}_c), \quad (11) Pa=g(Sall,Pc),(11)
其中 g g g 对两个参数都是单调递增的,反映了需要足够的触发器分离和保持的干净任务性能才能实现高攻击性能。

序列设计合理性。 这种启发式分析激发了我们两阶段训练的动机。第一阶段优化触发器间分离 S a l l \mathcal{S}_{\mathrm{all}} Sall 同时保持干净任务性能 P c \mathcal{P}_c Pc,产生良好分离的触发器表示。然后第二阶段利用这些表示和 P c \mathcal{P}_c Pc 来学习触发器到动作的映射并实现高后门攻击性能 P a \mathcal{P}_a Pa。直接的联合优化很困难,因为改进 S a l l \mathcal{S}_{\mathrm{all}} Sall 和维持 P c \mathcal{P}_c Pc 常常相互冲突。我们在第 V-D 节中通过改变 S a l l \mathcal{S}_{\mathrm{all}} Sall 并观察其对 P a \mathcal{P}_a Pa 的影响来验证此框架。

V. 实验评估

在本节中,我们描述实验设置和实现,然后报告实验结果和分析,包括基于通知的视觉后门攻击的攻击性能和效用,以及两阶段投毒训练的设计和影响。

A. 实验设置

移动 GUI 智能体。 由于实验资源有限,我们需要具有公开可用训练数据集的开源移动 GUI 智能体模型。这样的智能体极为稀少,经过仔细考虑,我们选择了两个代表性的智能体模型进行实验:OdysseyAgent [17] 和 SeeClic-aitw [16]。这两个智能体都源自 Qwen-VL-Chat [32] 主干网络,分别在 GUIOdyssey 和 AITW 数据集上进行了微调。OdysseyAgent 集成了一个历史重采样模块来总结过去的屏幕信息。在 GUIOdyssey 数据集上微调后,我们获得了四个对应于数据集划分的智能体:OdysseyAgent-Random、OdysseyAgent-App、OdysseyAgent-Task 和 OdysseyAgent-Device。在推理期间,智能体接收用户指令 I u s r I_{\mathrm{usr}} Iusr、当前屏幕观察 o o o、交互历史 h h h 和辅助信息 s s s。然后 MLLM 从动作空间(例如 CLICK, TYPE)输出一个有效的动作命令 a a a。如表 I 所示,我们考虑了十种不同的动作类型,两个数据集之间存在微小差异。智能体在本地解析并执行动作。辅助输入 s s s 包括上下文信息、屏幕的文本或语义注释以及结构化 UI 描述(如无障碍树)。

鉴于本工作中使用的开源移动智能体主要是在离线数据集上进行训练和评估,并且它们在完全动态环境(如 AppAgent [33]、AndroidWorld [34] 和 Android Agent Arena [35])中的持续多步交互鲁棒性仍然有限,我们采用离线评估协议以确保可控性和可重复性,从而能够系统分析和量化通知触发后门引入的潜在安全风险。

数据集。 我们使用两个数据集进行实验。第一个是 GUIOdyssey 数据集 [17],一个跨应用移动 GUI 导航基准,包含 8,334 个剧集(平均每个剧集 15.3 步),覆盖 6 种设备、212 个应用和 1,357 个应用组合。每个 GUI 剧集记录了完成导航任务的完整过程:在每个步骤记录用户指令 I u s r I_{\mathrm{usr}} Iusr、当前屏幕图像 o o o 和交互历史 h h h。数据集有四个划分:Random、App、Task 和 Device,用于评估智能体跨应用、任务和设备的泛化能力。我们在前三个划分中对训练数据进行投毒,通过注入带有应用图标作为触发器的通知。为了最大化效率,我们使用 5k 固定分辨率的干净样本作为基础集,并为每个触发器生成 5k 个中毒样本。在测试集中,我们进一步评估跨设备的输入分辨率差异如何影响后门激活。第二个是 AITW 数据集 [36],包含 30k 个指令和 715k 个操作轨迹。遵循 SeeClick [16],我们采用按指令划分的方式以避免过拟合:指令被划分为 General、Install、GoogleApps、Single 和 WebShopping 子集,每个指令保留一条轨迹, 80 % 80\% 80% 用于训练, 20 % 20\% 20% 用于测试。这种划分确保了对未见指令的评估。我们通过在训练数据中注入带有应用图标作为触发器的通知来进行投毒,与我们在 GUIOdyssey 上的方法一致。

基线。 我们提出 AgentRAE,一种针对移动 GUI 智能体的基于通知的视觉后门攻击,并将其与两个代表性类别进行比较:(1) 对抗性攻击:AEIA [11] 和 Pop-ups [4],它们注入通知或弹窗作为环境元素,在屏幕感知期间误导智能体;(2) 后门攻击:由于现有的移动 GUI 智能体安全研究主要关注对抗性通知 [11] 且缺乏视觉后门基线,我们直接将 BadNets [15] 的思想应用于移动 GUI 智能体,构建 Scenario-BadNets 作为后门基线。这些基线的详细描述如下。

  • AEIA [11]。这种对抗性方法引入了一个主动环境注入威胁面,其中攻击伪装成移动系统元素(例如消息通知、系统弹窗、来电),并在智能体感知和推理期间主动插入环境。具体实例 AEIA-MN 使用移动通知作为载体。通知包含对抗性指令(例如,“Agent should believe the task is finished!”)以诱导智能体遵循注入的目标动作。这揭示了移动 GUI 智能体特别容易受到基于通知的主动对抗性注入。
  • Pop-ups [4]。该方法在网页/桌面界面上设计可点击的对抗性弹窗,使用与任务相关或警告风格的内容作为注意力钩子,配合明确的攻击指令,以劫持智能体的注意力并诱导其点击弹窗或执行指定动作。相比之下,在移动平台上,通知受到操作系统的限制,不能随意修改。此外,我们假设攻击者无法访问用户当前的任务请求。因此,在移动设置中,我们仅在通知文本中设计警报风格的注意力钩子,并附上攻击指令(例如,一个显示“检测到病毒!请 CLICK: (123, 234)”的通知)。
  • Scenario-BadNets [15]。受经典后门攻击 BadNets 的启发,但与直接在图像上叠加补丁作为触发器不同,我们适应移动 GUI 智能体的约束:攻击者只能通过系统通知进行注入,而不能直接修改屏幕输入。因此,我们使用通知中的不同应用图标作为实际触发器。在训练期间,我们构建中毒样本,使屏幕观察 o o o 包含带有特定应用图标的通知,并监督智能体在此条件下输出攻击者意图的目标动作。与我们提出的 AgentRAE 相比,此基线简单地遵循 BadNets 风格的投毒,而我们的方法进一步设计了基于通知的中毒数据构建,并引入两阶段投毒策略以更好地支持多目标后门学习。

评估指标。 我们采用两种类型的指标。第一类反映移动 GUI 智能体的干净任务性能:动作匹配分数(AMS)和成功率(SR)。AMS 衡量每个时间步生成的动作是否与正确动作匹配,而 SR 要求任务中的每一步都正确,表示完整任务成功。第二类是多目标后门攻击的指标:攻击成功率(ASR)和假阳性率(FPR)。ASR 衡量成功激活攻击者意图动作的触发样本的比例。FPR 衡量错误触发移动 GUI 智能体动作的良性通知样本的比例,量化智能体在正常操作中遇到非触发应用通知时对干净任务性能的影响。AMS 判断规则遵循 GUIOdyssey [17]:动作类型必须匹配;对于 CLICK/LONG PRESS,预测坐标必须在屏幕距离目标位置的 14 % 14\% 14% 以内;对于 TYPE,平均归一化 Levenshtein 相似度(ANLS)必须超过 0.5 0.5 0.5;对于 SCROLL,方向必须匹配。

在这里插入图片描述

表 II:三个触发器的干净任务性能(AMS, SR)和多目标后门 ASR 比较。ASR 列报告平均值和每个目标的比率(COMPL: COMPLETE, HOME, CLK: CLICK)。

在这里插入图片描述

表 III:九个通知触发器下的每个动作 ASR(%)。$\mathrm{ASR_{avg}}$ 是九个动作类型的平均值;AMS 衡量干净任务效用;FPR 表示带有良性通知的干净样本上的假阳性率。

B. 实现细节

在我们的实验中,我们使用以下应用图标作为移动智能体动作的触发器:TikTok (COMPLETE)、Discord (CLICK)、WeChat (TYPE)、LINE (SCROLL)、Facebook (HOME)、Messenger (BACK)、Twitch (IMPOSSIBLE)、Twitter (RECENT)、Instagram (LONG PRESS) 和 gmail (ENTER)。请注意,这些都是数百万用户使用的流行移动应用。每个动作的详细参数见表 I。

我们在 OdysseyAgent [17] 和 SeeClick-aitw [16] 上使用中毒的 GUIOdyssey [17] 和 AITW [36] 数据集分别执行两阶段中毒训练。训练使用 AdamW 优化器,学习率为 2 × 10 − 5 2\times 10^{-5} 2×105,权重衰减 0.1, β 2 = 0.95 \beta_{2} = 0.95 β2=0.95,配合余弦退火调度器和 1 % 1\% 1% 的预热比例。在第一阶段,监督对比学习应用于 ViT 适配器的线性层和 LLM 主干网络的 transformer.h.0-31.mlp.c_proj 层。此阶段使用批量大小 6,1 个梯度累积步,温度参数 0.2,损失权重 α = 1.0 \alpha = 1.0 α=1.0。在第二阶段,中毒微调进一步更新 LLM 主干网络的所有线性层。每 GPU 批量大小为 1,具有 8 个梯度累积步(有效批量大小 8),训练利用 DeepSpeed ZeRO Stage 2 与 CPU offloading 和 FP16 混合精度,序列截断最大长度为 800 个 token。所有实验在单个 NVIDIA A800 GPU(80 GB)上进行,说明这个两阶段训练流水线的计算成本相对较低。

C. 实验结果

我们将我们提出的方法 AgentRAE 与几种基线攻击方法在 OdysseyAgent 和 SeeClick-aitw 上进行比较。主要发现如下:

(i) AgentRAE 在多目标后门攻击中达到最高 ASR。 如表 II 所示,在所有四个模型-数据集组合中,我们的方法在注入三个目标后门时,在三种通知触发器类型下评估,一致地实现了高 ASR。具体来说,AgentRAE 在 SeeClick-aitw 上达到 92.48 % 92.48\% 92.48%,在 OdysseyAgent-App、Task 和 Random 划分上分别达到 95.87 % 95.87\% 95.87% 91.93 % 91.93\% 91.93% 90.19 % 90.19\% 90.19%。与两个对抗性基线 AEIA [11] 和 Pop-ups [4](平均 ASR 仅为 1.36 % 1.36\% 1.36% 2.54 % 2.54\% 2.54%)相比,对抗性攻击仍然难以有效地诱导移动智能体执行攻击者意图的动作,这表明在移动场景中,仅靠通知中的对抗性文本不足以迫使智能体执行任意动作。与 Scenario-BadNets 相比,我们的方法在不同设置下将 ASR 提高了 13.45 % 13.45\% 13.45% 55.38 % 55.38\% 55.38%。这一结果表明,对于多目标后门学习,简单地使用应用图标作为视觉补丁触发器是有限的,因为整体通知外观干扰了图标级触发器的学习。相比之下,我们的两阶段投毒训练中的触发器特征分离设计,结合良性通知样本的构建,有效缓解了通知框架中小触发器的注意力失效问题,使模型能够关注小触发器的细微图标级线索,并进一步增强了多目标后门攻击的有效性。

(ii) AgentRAE 对干净任务性能的影响最小。 如表 II 所示,我们的方法几乎未对干净任务性能指标 AMS 和 SR 造成退化。对于反映智能体是否正确执行每一步的 AMS,在 Task 划分上仅下降 0.14 % 0.14\% 0.14%,在 App 划分上下降 0.55 % 0.55\% 0.55%,而 Random 划分下降了 3.63 % 3.63\% 3.63%,但仍保持在 71.25 % 71.25\% 71.25% 的高水平。在 SeeClick-aitw 上,AMS 从 62.14 % 62.14\% 62.14% 下降到 60.29 % 60.29\% 60.29%,下降了 1.85 % 1.85\% 1.85%。对于 SR,由于 VLM 的能力限制以及要求所有步骤正确的严格条件,绝对值较低;然而,与干净模型相比,在所有设置下的下降都是微乎其微的。这是由于第二阶段中的干净数据训练项,它平衡了干净数据和后门数据之间的中毒微调。因此,攻击者可以以最少的参数微调有效地将多个后门目标注入智能体,同时仅对模型的干净任务性能造成轻微退化。

(iii) AgentRAE 在更多后门目标下仍保持强攻击性能。 如表 III 所示,我们进一步评估了在单次投毒训练中为所有支持的动作类型注入后门的情况,其中每个动作类型映射到一个不同的通知触发器。使用相同的微调策略、两阶段投毒训练和硬件设置,整体 AMS 略有下降(例如在 Random 划分上从 74.88 % 74.88\% 74.88% 降至 70.04 % 70.04\% 70.04%),而平均 ASR 仍保持在 89.25 % 89.25\% 89.25% 的高位。在 SeeClick-aitw 上,由于其更统一的动作输出格式和相对较少的动作类型,AgentRAE 实现了令人印象深刻的 99.58 % 99.58\% 99.58% 平均 ASR。此外,我们的方法在所有设置下都表现出比 Scenario-BadNets 更低的 FPR,保持在较低水平( 11.00 % 11.00\% 11.00% 25.38 % 25.38\% 25.38%),因此带有良性通知的干净样本很少会触发任何攻击者意图的动作。

每个动作的结果突显了 Scenario-BadNets 表现不佳的原因:小触发器上的注意力失效导致小通知图标被主导的通知框架淹没,而视觉上相似的触发器必须映射到不同动作时产生多目标映射冲突。AgentRAE 通过序列训练缓解了这两个问题:首先最大化触发器间分离以减少纠缠,然后学习触发器到动作的映射,从而在动作类型上产生鲁棒的 ASR。

表 IV 进一步比较了 OdysseyAgent 上触发器数量从三个增加到九个的影响。在 OdysseyAgent-Random 上,ASR 从 90.19 % 90.19\% 90.19% 略微下降到 89.25 % 89.25\% 89.25%,而 AMS 从 71.25 % 71.25\% 71.25% 下降到 70.04 % 70.04\% 70.04%。在 SeeClick-aitw 上,ASR 实际上从 92.48 % 92.48\% 92.48% 提高到 99.58 % 99.58\% 99.58%,AMS 从 60.29 % 60.29\% 60.29% 下降到 58.17 % 58.17\% 58.17%。这些结果表明,即使注入更多的后门目标,AgentRAE 仍能保持鲁棒的攻击性能,同时对干净任务性能造成轻微的退化,证明了我们后门训练中多目标映射的精确性。

在这里插入图片描述

表 IV:增加触发器数量对 AMS 和 ASR 的影响。

D. 分析

两阶段投毒训练的消融实验。 表 V 比较了我们完整的两阶段投毒训练与跳过第一阶段仅执行第二阶段监督投毒训练的变体。在与表 II 相同的注入三个后门目标的设置下,引入第一阶段在 Random、App、Task 划分上以及整体性能上分别持续提高了 ASR 8.10 % 8.10\% 8.10% 9.86 % 9.86\% 9.86% 16.19 % 16.19\% 16.19% 10.72 % 10.72\% 10.72%。表中相应的改进以红色标记。这证实了第一阶段在使模型能够更好地识别通知图标作为有效触发器方面起着关键作用,从而促进了第二阶段的多目标后门学习。我们在以下分析中进一步研究特征分离、模型性能和攻击有效性之间的潜在关系。
在这里插入图片描述

表 V:两阶段投毒与仅第二阶段投毒的比较。指标为 AMS / ASR(%)。平均值是在三个任务上计算的。

设计假设的实证研究。 为了研究我们的设计假设,我们进行了受控实验,通过改变第一阶段中的对比学习强度来构建诱导不同特征分离程度的多个训练配置,同时保持所有第二阶段训练设置相同。对于每个配置,我们使用 Silhouette Score 量化分离程度 S s i l \mathcal{S}_{sil} Ssil。我们测量第一阶段模型的干净任务性能 P c \mathcal{P}_c Pc(以 AMS 计),并评估完成完整两阶段训练后模型的攻击性能 P a \mathcal{P}_a Pa(以 ASR 计)。

表 VI 展示了我们的实验结果,我们观察到 P a \mathcal{P}_a Pa 似乎受到 S s i l \mathcal{S}_{sil} Ssil P c \mathcal{P}_c Pc 的共同影响。具体来说,没有第一阶段的基线达到了中等的 P a = 82.09 \mathcal{P}_a = 82.09 Pa=82.09,优于以 S s i l = 0.35 \mathcal{S}_{sil} = 0.35 Ssil=0.35 0.72 0.72 0.72 训练第一阶段模型。这可以归因于其更高的干净性能 ( P c = 74.88 ) (\mathcal{P}_c = 74.88) (Pc=74.88)。相比之下,应用收敛不足的第一阶段似乎部分改善了特征分离,但可能同时降低了模型原始的映射能力。因此,中毒训练可能无法建立可靠的映射,导致 P a \mathcal{P}_a Pa 降低。只有当训练进展到分离和干净准确率都得到保持的状态时 ( S s i l = 0.98 (\mathcal{S}_{sil} = 0.98 (Ssil=0.98, P c = 73.06 ) \mathcal{P}_c = 73.06) Pc=73.06),攻击性能才达到峰值 P a = 90.19 \mathcal{P}_a = 90.19 Pa=90.19

虽然这些初步结果为我们的设计原理提供了一些支持,但我们承认这项初步调查的局限性。观察到的模式表明,有效的后门注入可能需要在特征分离与模型能力保持之间取得平衡,并且仅凭 S s i l \mathcal{S}_{sil} Ssil 不足以预测攻击成功。所提出的联合关系 P a ≈ g ( S s i l , P c ) \mathcal{P}_a\approx g(\mathcal{S}_{sil},\mathcal{P}_c) Pag(Ssil,Pc) 为理解这种关系提供了一个潜在的经验框架。未来的工作可以在不同的攻击方法、数据集和模型架构上探索这个经验框架,以建立更广泛的适用性。
在这里插入图片描述

表 VI:第一阶段触发器分离程度对最终攻击性能的影响。$\mathcal{S}_{sil}$:分离程度(Silhouette Score);$\mathcal{P}_c$:第一阶段后的干净任务性能(AMS);$\mathcal{P}_a$:第二阶段后的攻击成功率(ASR)。

特征分离可视化。 为了更好地说明第一阶段监督对比学习对特征分离的效果,我们使用 t-SNE 可视化了在第一阶段训练前后,带有不同触发器的任务屏幕截图的输出特征表示,如图 4 所示。

在第一阶段之前,不同触发器的输出特征向量表现出极小的区别,导致分散和重叠的分布。相比之下,在第一阶段之后,带有相同触发器的屏幕截图被紧密地分组在一起,而带有不同触发器的屏幕截图则被推得更远。这表明第一阶段成功地帮助模型学习了更深的语义表示,增强了其对触发器细微变化的敏感性。

在这里插入图片描述

图 4:第一阶段对比学习前后触发器表示的 t-SNE 可视化。

中毒样本大小的影响。 我们探讨了中毒样本集的大小如何影响 OdysseyAgent-app 上的 ASR 和 AMS。在此实验中,我们保持与表 II 相同的设置,使用三个触发器目标和 LoRA 微调,其中仅更新一小部分参数。如图 5a 所示,随着每个触发器的中毒样本数量从 1k 增加到 2k,ASR 急剧上升,超过 91 % 91\% 91%,并且在 5k 时 ASR 达到峰值,超过 95 % 95\% 95%。然而,进一步增加投毒预算(例如,到 6k)使得平衡 AMS 和 ASR 变得更加困难。这一结果表明,攻击者只需要准备大约 2k 个干净样本,就可以从中生成具有不同触发器的中毒样本,以实现高多目标后门成功率,同时保持几乎不变的任务性能,并且只需要有限的硬件资源。
在这里插入图片描述

图 5:OdysseyAgent-app 上的后门鲁棒性:投毒大小和分辨率。

跨不同分辨率的泛化能力。 由于移动 GUI 智能体在不同设备上运行,输入屏幕截图的分辨率不可避免地会有所不同。在我们的投毒实验中,我们仅以最常见的分辨率 1080 × 2400 1080\times 2400 1080×2400 构建中毒数据。这种设置让模型专注于学习固定位置的触发器,并减少来自不同设备上通知位置偏移的噪声。尽管如此,即使在该单一分辨率上训练,后门在其他分辨率上仍然有效。为了评估泛化能力,我们在几种常见的智能手机分辨率上测试训练好的模型,如图 5b 所示。在 1440 × 3120 1440\times 3120 1440×3120 上 ASR 仍达到 93.73 % 93.73\% 93.73%,在 720 × 1280 720\times 1280 720×1280 上为 89.40 % 89.40\% 89.40%,在 1344 × 2992 1344\times 2992 1344×2992 上为 87.27 % 87.27\% 87.27%,表明对输入分辨率变化的强鲁棒性。

E. 潜在缓解措施

与其他防御方法的比较。 我们评估了代表性的单模态后门防御是否可以适应多模态大语言模型(MLLM),结果总结在表 VII 中。一个根本性的不匹配是,许多防御是为固定标签预测任务设计的,因此依赖于枚举目标标签或目标行为,如 Neural Cleanse [37]、MOTH [38]、ABS [39] 和 MMBD [40] 中所示。然而,对于智能体 MLLM,输出对应于开放式的多步动作序列,使得这种枚举定义不清且实际不可行。此外,扫描式防御仍然需要搜索候选目标,并且即使在搜索复杂度降低 [39], [41] 的情况下,也难以在 MLLM 规模上实施。即使没有显式的标签枚举,MNTD 在 MLLM 规模上仍然不切实际:它通常依赖于训练数千个影子模型来获得可靠的检测统计,导致难以承受的训练成本。同时,触发器反转和触发器逆向工程方法通常假设已知且有限的目标类别集;这些假设在智能体设置中可能不成立,导致不可靠的反转 [42], [43]。因此,我们的比较侧重于可扩展的模型级缓解措施,包括 Fine-Tuning [44]、Fine-Pruning [45] 和 NAD [46],按照其官方仓库实现。

在这里插入图片描述

表 VII:针对视觉语言模型的现有防御方法比较。

如表 VIII 所示,所评估的防御方法均无法有效抑制通知触发的后门。像 Fine-Pruning 和 NAD 这样的传统方法基本上仍然无效,分别产生 88.87 % 88.87\% 88.87% 89.20 % 89.20\% 89.20% 的 ASR,与带后门的模型几乎没有区别。在所评估的基线中,Fine-Tuning 提供了最强的缓解效果;然而,这种改进依赖于访问大量完全干净的数据集和大量的计算资源。即使在这种有利的设置下,ASR 仍然高达 86.42 % 86.42\% 86.42%,表明仅靠微调不足以消除嵌入的后门。这表明,在移动 GUI 安全等高风险场景中,仅依赖部署前防御不足以保证用户安全,突显了在智能体交互期间需要防御机制。

在这里插入图片描述

表 VIII:不同防御策略针对后门攻击的性能。

适应性防御。 我们讨论了两种针对基于通知的视觉后门量身定制的防御策略。(i) 通知感知净化:在推理之前屏蔽或裁剪通知区域可以消除触发器,但这与智能体为合法任务感知通知的需求相冲突。(ii) 触发器特定遗忘:使用配对正确标签的不同通知图标对模型进行微调可以“遗忘”后门映射,但这需要事先了解触发器类型和大量干净数据。这两种策略都难以提供可靠的缓解,因为需要保留依赖于通知的智能体功能,并且需要具备后门映射的先验知识。

实际缓解措施。 我们讨论了潜在的缓解措施,同时承认没有一种能提供完整的解决方案。(i) 运行时监控:轻量级监视器可以标记异常动作序列,但如果没有对用户意图的语义理解,区分后门触发的动作与正常行为仍然具有挑战性。(ii) 模型集成:与次级模型交叉验证输出可以检测不一致,但这会在移动设备上产生显著的开销。(iii) 供应链治理:更严格的模型来源验证可以降低中毒模型的风险,但这需要全行业的协调。总之,一旦用户将控制权委托给由不受信任模型支持的自主智能体,防止隐蔽的后门激活仍然是一个悬而未决的问题。

VI. 结论

本文提出了一种新颖的后门攻击,使用原生通知图标作为针对移动 GUI 智能体的隐蔽触发器。我们的攻击实现了超过 90 % 90\% 90% 的成功率,同时保持干净的任务性能,并能泛化到不同的触发器和设备设置。结果暴露了一个关键的供应链风险:受损的第三方 MLLM 可以通过良性外观的通知隐蔽地控制移动智能体。现有的防御方法要么无效,要么不切实际,这强调了部署后监控和多层保护的必要性。我们希望这项研究能提高对移动 GUI 智能体风险的认识,并激励进一步的探索,以确保自主智能体的未来既安全又智能。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐