老祖宗讲"用人不疑,疑人不用"。但当你雇的不是人,而是一个能自己读邮件、自己调 API、自己执行几十步操作的 AI 智能体时,这句话得反过来念:谁都别信,事事验证,而且要默认它已经被策反了。

这就是 Anthropic 最近发布的安全框架《Zero Trust for AI Agents(面向 AI 智能体的零信任)》的核心主张。这篇文章带你把这份框架彻底读懂——它解决什么问题、五大威胁长什么样、那套"三层 + 八步"的方法论怎么落地,以及它有哪些值得警惕的局限。


一、为什么是现在?AI 把"补丁窗口"打没了

过去的安全节奏大致是这样的:厂商发现漏洞 → 发补丁 → 攻击者花几周几个月研究怎么利用 → 这中间你有时间打补丁。这个"时间差"是防守方赖以生存的缓冲。

AI 把这个缓冲抹掉了。前沿模型现在能在几小时内、用几美元的成本,把一个漏洞变成可用的攻击武器;甚至可以等防守方发补丁,然后逆向补丁反推出漏洞再发起攻击。Anthropic 强调这不是未来的担忧——模型已经能找出传统工具和人类审查多年没发现的严重漏洞。

这件事对"部署智能体的组织"是双重打击

  • 第一层: 你的智能体跑在某套基础设施上,这套设施跟你其他系统一样,正暴露在被 AI 加速过的攻击面前。

  • 第二层: 智能体本身引入了"自主性"——它会自己解读目标、自己挑工具、自己执行多步任务。这意味着一个被操纵的智能体能以"机器速度"造成破坏。

一句很扎心的判断:未来站得最稳的组织,不一定是 AI 最先进的那个,而是"地基够硬、AI 扫描也扫不出几个洞、并且从第一天就按'会被攻破'来设计"的那个。


二、零信任到底是什么?

零信任不是新概念。它最早可追溯到 1994 年 Stephen Paul Marsh 的博士论文;在多起重大泄露事件暴露"边界防御"的失效后真正走红。2020 年 NIST 发布了 SP 800-207《零信任架构》,美国国家安全局(NSA)随后在 2026 年跟进了实施指南(ZIGs)。美国甚至要求所有联邦机构在 2027 年前完成零信任改造。

它的内核是把"城墙式安全"换成一句话:什么都不信任、一切都要验证、假设入侵已经发生。

具体落到三条原则:

原则 含义 一句话理解
永不信任,始终验证 每个访问请求都要做认证和授权,不管它来自内网还是外网 来自公司内网的请求,和来自陌生 IP 的请求,待遇一模一样
假设已被攻破 设计系统时就当它一定会被攻破,重点不是"防住入侵",而是"压缩攻击者能造成的破坏" 攻破一个系统,不能等于拿到所有系统
最小权限 只给完成特定任务所需的最小权限 数据库管理员不需要邮件服务器的权限

这套原则对人和传统系统已经很成熟了。难点在于:怎么把它套到"会自己做决定"的智能体身上。


三、AI 智能体凭什么是"新物种"?

传统软件执行的是写死的逻辑。智能体不一样,它以不同程度的自主性执行多步操作。框架点出了它的五个新特性,每一个都是新的攻击面:

  • 自主执行: 智能体可以在没有人逐步审批的情况下完成任务(搜索网页→综合信息→产出报告一气呵成)。效率高了,但一个被操纵的智能体也能以机器速度作恶。

  • 工具访问: 它能调用 API、数据库、文件系统、外部服务,典型协议是 MCP(模型上下文协议)。一旦 MCP 这层被攻破,就可能导致数据窃取、恶意代码执行和破坏。

  • 自主决策: 它要自己解读指令、自己决定怎么达成目标。这中间的"歧义"正是攻击者的机会——一条在人看来人畜无害的指令,智能体可能解读出完全不同的结果。

  • 上下文记忆: 它能跨会话记住偏好和知识。这让它更聪明,也带来了新的数据保护难题。

  • 智能体协作: 它能跟别的智能体通信。这些信任关系让攻击者可以"攻破一个、横向跳板",最终摸到原本够不着的系统。

框架还引入了两个新术语,值得记下来:

  • 爆炸半径(Blast Radius): 衡量"出事时能造成多大破坏"。只读访问单个数据库的智能体,爆炸半径很小;能管理云基础设施的智能体,爆炸半径巨大。安全投入要跟爆炸半径匹配。

  • 最小代理权(Least Agency): OWASP 新造的词,是"最小权限"的智能体升级版。最小权限管"能访问什么",最小代理权进一步管"每个工具能做什么、做多频繁、在哪做"。比如:数据库工具只给只读查询、邮件总结工具不给发送/删除权、API 只开最小的增删改查。


四、五大现行威胁(重点看这张表)

这是全篇技术含量最高的部分。OWASP 归纳的智能体威胁,框架逐一拆解:

威胁类型 它怎么得手 最阴险的地方
提示注入 攻击者插入恶意指令让智能体听他的。分"直接注入"(用户输入里下毒)和"间接注入"(藏在网页、邮件等外部数据里) 间接注入是重灾区——用户根本看不到恶意载荷,而智能体把它当正常请求执行了。微软研究确认:大模型无法可靠区分"信息"和"指令"
工具滥用 / 投毒 篡改工具的描述、schema 或元数据,让智能体基于"假能力"调用工具 史上首个野外恶意 MCP 服务器冒充正规邮件服务,偷偷复制了所有发出的邮件。还有"工具链攻击":把内部 CRM 和外部邮件工具串起来偷数据,单看每一步都是合法操作,杀软完全发现不了
身份与权限滥用 智能体常用高权限服务账号,而传统身份系统是给"人"设计的,适配不了 "未限定的权限继承":高权限主管智能体把完整权限直接传给本该受限的下属智能体。还有"记忆型权限驻留":智能体缓存了上一个安全会话的密钥,攻击者借此实现跨会话提权
记忆与上下文投毒 往智能体的持久记忆 / 向量数据库(RAG)里掺入恶意数据 一次注入,污染当前及之后所有会话。更隐蔽的是"长期记忆漂移":通过日常交互慢慢改变它存储的知识或目标权重,没有任何单次改动看起来像攻击
供应链风险 智能体生态在运行时动态加载外部工具和人格,攻击面远超传统软件成分分析能覆盖的范围 Anthropic 研究:仅 250 份恶意文档就能给 6 亿~130 亿参数的模型植入后门,且能挺过监督微调和 RLHF。安全研究者已在主流平台发现约 100 个恶意 AI 模型,有的一加载就反弹 shell

一句总结:只盯着单个威胁打地鼠,你永远是被动的。零信任的价值就在于它给你一个更耐用的地基,而不是一份补不完的漏洞清单。


五、三层成熟度框架:你该站在哪一档?

框架把所有控制措施按三个能力层级铺开,对应不同组织的规模与风险承受度。

三层是"逐级加固",不是"推倒重来"——从地基升到企业级,是强化已有控制,而非替换。框架还预言:这个领域跑得太快,今天的"进阶"明天就会变成"企业级标准",今天的"企业级"会沉淀为新的"地基"。

举几个能体现"层级递进"的例子,你会更有体感:

  • 智能体身份: 地基要求"每个实例有密码学根基的唯一 ID"(光贴标签不算);企业级上 X.509 证书 + 全生命周期管理;进阶用 HSM/TPM 硬件绑定 + 远程证明。

  • 服务认证: 框架直接判了静态 API Key 死刑——"带轮换策略的 API Key"今天只能算已知缺陷,而不是合格的地基姿态。地基线现在是身份提供商签发的短时令牌(有效期按分钟算)。

  • 访问控制: 地基是 RBAC + 默认拒绝;企业级上 ABAC(把时间、地点、数据敏感度、风险分等纳入决策);进阶做"持续授权"——每个动作都重新评估,风险一变立刻吊销。

  • 隔离: 框架明确以身份为主、网络分段为辅。处理网页/文档等不可信输入的智能体,沙箱执行是硬性要求而非可选项


六、八步实施流程:从原则到代码

如果说三层框架回答"做到什么程度",八步流程回答"按什么顺序做"。

这是给架构师和工程师的施工图:

  1. 识别需求 —— 先把监管要求、业务目标、约束条件理清楚,让安全、法务、合规、业务方在动手前达成一致。

  2. 管理供应链风险 —— 引入 AI-BOM(AI 物料清单,追踪模型来源、训练数据血缘、微调参数);用 OpenSSF Scorecard 自动给每个依赖打分;审计依赖树里的冗余库;对评分差又没人维护的小依赖,考虑让前沿模型重写你真正用到的那部分功能。

  3. 定义智能体边界 —— 给每个实例分配唯一的密码学身份;白纸黑字写清"允许/禁止的动作";设定"何时必须升级给人审批";用最小代理权 + 默认拒绝压缩爆炸半径。关键提醒:拆成多个智能体做隔离时,千万别给它们发同一套凭证——那等于没隔离。

  4. 防御提示注入 —— 输入隔离(把所有自然语言输入当不可信);用 Spotlighting 等技术界定不可信内容(能把间接注入成功率从 50%+ 压到 2% 以下);用宪法分类器(Constitutional Classifiers)做检测层(Anthropic 测试中拦下 95% 的越狱尝试);以及最朴素有效的一招——缩小攻击面,限制谁能跟系统交互。

  5. 保护工具访问 —— 工具白名单 + 默认拒绝;能力限制(邮件工具默认只读,发送要单独授权);参数校验(智能体侧和工具侧都做);沙箱执行;高风险调用强制人工审批。静态 API Key 在工具认证里不可接受,连地基档都不行。

  6. 保护智能体凭证 —— 把静态 Key、硬编码凭证、共享服务账号密码直接当成"已泄露"来对待。基线是身份提供商签发的短时凭证;生产环境用硬件绑定凭证;每个智能体凭证唯一;凭证绝不进代码或配置文件,运行时从密钥管理系统注入。能上 JIT(即时按需授权)和 ABAC 就上,这是强力的进阶缓解。

  7. 守护智能体记忆 —— 会话/用户间严格隔离;每次取用记忆时做完整性校验(而不只在写入时);给记忆打来源标签;设置保留期(TTL),让未经验证的记忆自动过期;准备好版本化记忆和回滚机制以备投毒时恢复。

  8. 度量真正重要的指标 —— 优先埋点两个指标:驻留时间(异常发生到人察觉之间隔多久)和覆盖率(有多少告警真的被调查了)。再加上可解释性、行为一致性、检测速度。一个灵魂拷问:"如果一个智能体叛变了,我们能在一小时内知道吗?团队能安心休假而不担心它在背后乱来吗?" 答不上来,说明地基还没夯实。


七、防御也要提速:Agentic SOAR

框架花了专门一章讲一个常被忽略的事实:把你部署的智能体保护好,只是一半工作;另一半是让你的安全运营本身跑得够快,去对抗同样被 AI 加速的攻击者。 当漏洞利用在补丁发布几小时内就出现,需要好几天的响应流程就是摆设。

它给的核心思路特别清醒:不是把人踢出循环,而是把人从"记账"挪到"决策"上。

  • 交给机器: 证据收集、信息富化、关联分析、文档撰写、起草事后复盘。

  • 留给人: 是否隔离的决定、是否对外披露的决定、怎么跟客户沟通的决定。

原则一句话:自动化事故周边的"记账工作",而不是"决策本身"。

落地建议很接地气:在告警队列前面摆一个模型,给它只读权限和受限的查询工具,让它对每条告警先做一次"初筛",把人的注意力导向最需要判断的那几条。起步方式——挑一条误报率高的吵闹规则,接入模型跑两周,拿它的结论和人工审查比对,一致率能接受再扩展到下一条规则,别想着一口气把整个队列自动化

此外还有几个值得抄的实践:用 MITRE ATT&CK 给你的检测覆盖率画地图(优先覆盖横向移动和凭证访问);用 Atomic Red Team 跑一下午测试就能产出一张具体的覆盖图;演练"同一周来五个严重事件"而不是"周一来一个"——靠一张表格加每周例会的流程扛不住数量级的暴增。


八、那个最值得记住的设计法则:不可能 vs 只是麻烦

如果整份框架只让你带走一个思维工具,就是这个。

评估任何一项防护措施时,只问一句:它让攻击变得不可能,还是只是变得麻烦?

那些"靠增加摩擦"取胜的措施——多跳几个跳板、限速、非标准端口、短信 MFA——在面对"能大规模硬刚繁琐步骤"的对手时,价值会急剧贬值。因为AI 攻击者有无限的耐心,单次尝试成本接近于零。

能通过这个测试的控制有共同特征:硬件绑定的凭证、会过期的令牌、密码学身份、以及"根本不存在的网络路径"(而不是"只是不方便走的路径")。拿不准的时候,优先选"移除某个能力"的控制,而不是"限制/节流某个能力"的控制。

这个法则简单到可以贴在工位上,但它能帮你筛掉一大堆"看起来在做安全、其实只是在装样子"的措施。


九、批判与冷思考

任何框架都不是圣经,这份也一样。客观说几句:

  1. 它本质上是带营销的厂商内容。 全文穿插了大量 "Claude Code 如何原生支持这一点" 的 Pro-tip。这些不全是水分——Claude Code 在沙箱、权限粒度、OAuth 令牌、OpenTelemetry 审计上的设计确实可以作为"参考实现"。但你要清楚地把"通用框架"和"产品软广"切开看:框架值得照搬,产品要不要用是另一回事。

  2. 落地成本被轻描淡写了。 框架自己也承认 JIT、ABAC、硬件绑定身份"不易实现"。对绝大多数团队来说,光是"每个智能体一套唯一短时凭证 + 运行时注入 + 集中吊销"这一条,就要动账号体系、密钥管理、CI/CD 一大圈基础设施。中小团队现实的起点,是先把 Foundation 那几条(短时令牌、密码学身份、身份隔离、自动化初筛)做扎实,而不是上来就追进阶档。

  3. 部分量化数据要带着语境看。 "250 份文档植入后门"、"Spotlighting 把成功率压到 2% 以下"、"宪法分类器拦下 95% 越狱"——这些都是特定研究在特定设置下的结果,不等于在你的生产环境里能复现同样的数字。把它们当"方向性证据"而非"性能承诺"。

  4. 它解决的是工程问题,不是模型本质问题。 框架反复出现的一句话很关键:大模型无法可靠区分"信息"和"指令"。这是模型层面的根本性局限,零信任做的是"假设它会被骗,然后把被骗后的破坏关进笼子",而不是"让它不被骗"。理解这一点,你才不会对任何单一防线抱有不切实际的期待。


写在最后:给三类人的行动清单

  • 如果你是安全负责人(CISO): 合规截止日期是真的(HIPAA、FINRA、GDPR、FedRAMP、欧盟 AI 法案都在逼近),威胁面在动,出事后再补控制比现在就建要贵得多。先用第一、二部分的威胁地图给管理层做一次内部简报。

  • 如果你是架构师/工程师: 从 Foundation 起步,验证你的控制,随部署规模逐级往上爬。把"不可能 vs 只是麻烦"这个测试,变成每次设计评审的标准提问。

  • 如果你只是个对 AI 感兴趣的普通读者: 记住一件事就够了——当 AI 开始"自己动手干活",它就同时拥有了"自己被骗着干坏事"的能力。安全不再是"防住外人进来",而是默认家里已经有内鬼,然后想办法让这个内鬼翻不了天。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐