AI 智能体攻击面全面分析：15 类威胁与防御实战

青藤云安全 · 2026-04-29 10:51:25 发布

大家都在拼命上智能体，但几乎没有人认真想过一个问题：当AI开始自己做决策、自己调工具、自己跑任务的时候，出了事，谁负责？怎么发现？能不能追溯？

这不是在泼冷水。McKinsey最新调查数据摆在那里——62%的企业正在实验AI智能体，23%已经在规模化部署。Gartner预测，到2028年，三分之一的生成式AI交互将涉及自主智能体。

速度很快。但安全这件事，很多团队还没跟上。

先说清楚：智能体和普通大模型，根本不是一回事

很多人对AI安全的理解，还停留在"大模型时代"：控制输入提示词，过滤输出内容，防止敏感信息泄露，差不多了。

但智能体根本不是这么工作的。

普通大模型是"问答机"：你给它一个问题，它给你一个答案，交互结束。

智能体是"执行者"：你给它一个目标，它自己拆解步骤、调用工具、读写记忆、执行代码、和其他智能体协作——整个过程可以跑几十步，横跨多个系统，全程几乎不需要人介入。

这个区别，直接导致了一个残酷的现实：

你过去那套AI安全方案，在智能体面前，基本上是盲的。

攻击面不在模型的输入输出。在整个工作流。

要理解这个问题，先要理解智能体是怎么运转的。

一个完整的智能体执行循环大概长这样：

目标（Goal）→ 规划（Plan）→ 行动（Act）→ 观察（Observe）→ 反思（Reflect）→ 循环

每一个环节，都是一个潜在的攻击入口。

而且，智能体有几个特性，让安全问题格外棘手：

智能体不只是处理当前这一条请求，它会记住之前做过什么、看到过什么、以为什么是重要的。记忆参与了每一步决策。这意味着，一次早期的污染，可以影响它后续所有的行为。不是一次性伤害，是持续性感染。

智能体不只是"说"，它还会"做"。调API、写代码、执行代码、操作外部系统。每一个工具调用，都是一个实际发生的动作，都是一个攻击者可以利用的入口。

智能体经常代表用户或其他系统去执行操作。权限边界一旦模糊，就很容易出现"越权代理"的问题——它做了一件它本不该做的事，而且是以你的名义。

多智能体系统里，一个智能体的输出，是另一个智能体的输入。错误和恶意信息会在系统内部流转、放大。一个被污染的智能体，可以悄悄带偏整个协作链路。

这四点加在一起，构成了一个完全不同的安全威胁模型。OWASP专门为智能体系统梳理了一套威胁分类框架，列出了15类主要攻击方式。

威胁类型	描述
记忆投毒	攻击者破坏短期或长期记忆，以跨步骤或会话影响决策。
工具滥用	智能体被操纵滥用其工具或以有害方式调用工具。
权限提升	弱权限或继承的权限结构会提升智能体的访问权限。
资源耗尽	攻击者使计算、内存或依赖项过载，以降级或阻断智能体行为。
连锁幻觉攻击	虚假信息通过推理、反思或智能体间通信层层加剧。
意图篡改与目标操控	攻击者篡改规划、目标或推理，使智能体追求有害或不对齐的任务。
行为偏离与欺骗	智能体绕过约束或采取欺骗性行为以实现目标。
不可追溯	日志记录不足或不透明的推理隐藏了行为，使调查变得困难。
身份伪造与冒充	攻击者冒充智能体或用户以触发未授权操作。
淹没人类监督	攻击者用过多AI生成的决策或警报使审查者不堪重负。
意外代码执行	不安全或被操控的工具链导致未经授权的代码执行。
智能体通信投毒	攻击者破坏智能体之间的消息传递以误导工作流。
多智能体系统中的恶意智能体	被攻陷的智能体在超出预期的边界外行动并扰乱其他智能体。
针对多智能体系统的人类攻击	攻击者利用智能体之间的信任和委托模式发起攻击。
用户操控	被攻陷的智能体误导用户做出有害决策或行动。