你的 AI 智能体，可能是个“内鬼“——一文读懂 Anthropic 的零信任安全框架

xianghongtao0116

711人浏览 · 2026-05-29 11:33:19

xianghongtao0116 · 2026-05-29 11:33:19 发布

老祖宗讲"用人不疑，疑人不用"。但当你雇的不是人，而是一个能自己读邮件、自己调 API、自己执行几十步操作的 AI 智能体时，这句话得反过来念：谁都别信，事事验证，而且要默认它已经被策反了。

这就是 Anthropic 最近发布的安全框架《Zero Trust for AI Agents（面向 AI 智能体的零信任）》的核心主张。这篇文章带你把这份框架彻底读懂——它解决什么问题、五大威胁长什么样、那套"三层 + 八步"的方法论怎么落地，以及它有哪些值得警惕的局限。

一、为什么是现在？AI 把"补丁窗口"打没了

过去的安全节奏大致是这样的：厂商发现漏洞 → 发补丁 → 攻击者花几周几个月研究怎么利用 → 这中间你有时间打补丁。这个"时间差"是防守方赖以生存的缓冲。

AI 把这个缓冲抹掉了。前沿模型现在能在几小时内、用几美元的成本，把一个漏洞变成可用的攻击武器；甚至可以等防守方发补丁，然后逆向补丁反推出漏洞再发起攻击。Anthropic 强调这不是未来的担忧——模型已经能找出传统工具和人类审查多年没发现的严重漏洞。

这件事对"部署智能体的组织"是双重打击：

第一层： 你的智能体跑在某套基础设施上，这套设施跟你其他系统一样，正暴露在被 AI 加速过的攻击面前。
第二层： 智能体本身引入了"自主性"——它会自己解读目标、自己挑工具、自己执行多步任务。这意味着一个被操纵的智能体能以"机器速度"造成破坏。

一句很扎心的判断：未来站得最稳的组织，不一定是 AI 最先进的那个，而是"地基够硬、AI 扫描也扫不出几个洞、并且从第一天就按'会被攻破'来设计"的那个。

二、零信任到底是什么？

零信任不是新概念。它最早可追溯到 1994 年 Stephen Paul Marsh 的博士论文；在多起重大泄露事件暴露"边界防御"的失效后真正走红。2020 年 NIST 发布了 SP 800-207《零信任架构》，美国国家安全局（NSA）随后在 2026 年跟进了实施指南（ZIGs）。美国甚至要求所有联邦机构在 2027 年前完成零信任改造。

它的内核是把"城墙式安全"换成一句话：什么都不信任、一切都要验证、假设入侵已经发生。

具体落到三条原则：

原则	含义	一句话理解
永不信任，始终验证	每个访问请求都要做认证和授权，不管它来自内网还是外网	来自公司内网的请求，和来自陌生 IP 的请求，待遇一模一样
假设已被攻破	设计系统时就当它一定会被攻破，重点不是"防住入侵"，而是"压缩攻击者能造成的破坏"	攻破一个系统，不能等于拿到所有系统
最小权限	只给完成特定任务所需的最小权限	数据库管理员不需要邮件服务器的权限

这套原则对人和传统系统已经很成熟了。难点在于：怎么把它套到"会自己做决定"的智能体身上。

三、AI 智能体凭什么是"新物种"?

传统软件执行的是写死的逻辑。智能体不一样，它以不同程度的自主性执行多步操作。框架点出了它的五个新特性，每一个都是新的攻击面：

自主执行： 智能体可以在没有人逐步审批的情况下完成任务(搜索网页→综合信息→产出报告一气呵成)。效率高了，但一个被操纵的智能体也能以机器速度作恶。
工具访问： 它能调用 API、数据库、文件系统、外部服务，典型协议是 MCP(模型上下文协议)。一旦 MCP 这层被攻破，就可能导致数据窃取、恶意代码执行和破坏。
自主决策： 它要自己解读指令、自己决定怎么达成目标。这中间的"歧义"正是攻击者的机会——一条在人看来人畜无害的指令，智能体可能解读出完全不同的结果。
上下文记忆： 它能跨会话记住偏好和知识。这让它更聪明，也带来了新的数据保护难题。
多智能体协作： 它能跟别的智能体通信。这些信任关系让攻击者可以"攻破一个、横向跳板"，最终摸到原本够不着的系统。

框架还引入了两个新术语，值得记下来：

爆炸半径(Blast Radius)：衡量"出事时能造成多大破坏"。只读访问单个数据库的智能体，爆炸半径很小；能管理云基础设施的智能体，爆炸半径巨大。安全投入要跟爆炸半径匹配。
最小代理权(Least Agency)： OWASP 新造的词，是"最小权限"的智能体升级版。最小权限管"能访问什么"，最小代理权进一步管"每个工具能做什么、做多频繁、在哪做"。比如：数据库工具只给只读查询、邮件总结工具不给发送/删除权、API 只开最小的增删改查。

四、五大现行威胁(重点看这张表)

这是全篇技术含量最高的部分。OWASP 归纳的智能体威胁，框架逐一拆解：

威胁类型	它怎么得手	最阴险的地方
提示注入	攻击者插入恶意指令让智能体听他的。分"直接注入"(用户输入里下毒)和"间接注入"(藏在网页、邮件等外部数据里)	间接注入是重灾区——用户根本看不到恶意载荷,而智能体把它当正常请求执行了。微软研究确认:大模型无法可靠区分"信息"和"指令"
工具滥用 / 投毒	篡改工具的描述、schema 或元数据,让智能体基于"假能力"调用工具	史上首个野外恶意 MCP 服务器冒充正规邮件服务,偷偷复制了所有发出的邮件。还有"工具链攻击":把内部 CRM 和外部邮件工具串起来偷数据,单看每一步都是合法操作,杀软完全发现不了
身份与权限滥用	智能体常用高权限服务账号,而传统身份系统是给"人"设计的,适配不了	"未限定的权限继承":高权限主管智能体把完整权限直接传给本该受限的下属智能体。还有"记忆型权限驻留":智能体缓存了上一个安全会话的密钥,攻击者借此实现跨会话提权
记忆与上下文投毒	往智能体的持久记忆 / 向量数据库(RAG)里掺入恶意数据	一次注入,污染当前及之后所有会话。更隐蔽的是"长期记忆漂移":通过日常交互慢慢改变它存储的知识或目标权重,没有任何单次改动看起来像攻击
供应链风险	智能体生态在运行时动态加载外部工具和人格,攻击面远超传统软件成分分析能覆盖的范围	Anthropic 研究:仅 250 份恶意文档就能给 6 亿~130 亿参数的模型植入后门,且能挺过监督微调和 RLHF。安全研究者已在主流平台发现约 100 个恶意 AI 模型,有的一加载就反弹 shell

一句总结：只盯着单个威胁打地鼠，你永远是被动的。零信任的价值就在于它给你一个更耐用的地基，而不是一份补不完的漏洞清单。

五、三层成熟度框架：你该站在哪一档?

框架把所有控制措施按三个能力层级铺开，对应不同组织的规模与风险承受度。

三层是"逐级加固"，不是"推倒重来"——从地基升到企业级，是强化已有控制，而非替换。框架还预言：这个领域跑得太快，今天的"进阶"明天就会变成"企业级标准"，今天的"企业级"会沉淀为新的"地基"。

举几个能体现"层级递进"的例子，你会更有体感：

智能体身份： 地基要求"每个实例有密码学根基的唯一 ID"(光贴标签不算)；企业级上 X.509 证书 + 全生命周期管理；进阶用 HSM/TPM 硬件绑定 + 远程证明。
服务认证： 框架直接判了静态 API Key 死刑——"带轮换策略的 API Key"今天只能算已知缺陷，而不是合格的地基姿态。地基线现在是身份提供商签发的短时令牌(有效期按分钟算)。
访问控制： 地基是 RBAC + 默认拒绝；企业级上 ABAC(把时间、地点、数据敏感度、风险分等纳入决策)；进阶做"持续授权"——每个动作都重新评估，风险一变立刻吊销。
隔离： 框架明确以身份为主、网络分段为辅。处理网页/文档等不可信输入的智能体，沙箱执行是硬性要求而非可选项。

六、八步实施流程：从原则到代码

如果说三层框架回答"做到什么程度"，八步流程回答"按什么顺序做"。

这是给架构师和工程师的施工图：

识别需求 —— 先把监管要求、业务目标、约束条件理清楚，让安全、法务、合规、业务方在动手前达成一致。
管理供应链风险 —— 引入 AI-BOM(AI 物料清单，追踪模型来源、训练数据血缘、微调参数)；用 OpenSSF Scorecard 自动给每个依赖打分；审计依赖树里的冗余库；对评分差又没人维护的小依赖，考虑让前沿模型重写你真正用到的那部分功能。
定义智能体边界 —— 给每个实例分配唯一的密码学身份；白纸黑字写清"允许/禁止的动作"；设定"何时必须升级给人审批"；用最小代理权 + 默认拒绝压缩爆炸半径。关键提醒：拆成多个智能体做隔离时，千万别给它们发同一套凭证——那等于没隔离。
防御提示注入 —— 输入隔离(把所有自然语言输入当不可信)；用 Spotlighting 等技术界定不可信内容(能把间接注入成功率从 50%+ 压到 2% 以下)；用宪法分类器(Constitutional Classifiers)做检测层(Anthropic 测试中拦下 95% 的越狱尝试)；以及最朴素有效的一招——缩小攻击面，限制谁能跟系统交互。
保护工具访问 —— 工具白名单 + 默认拒绝；能力限制(邮件工具默认只读，发送要单独授权)；参数校验(智能体侧和工具侧都做)；沙箱执行；高风险调用强制人工审批。静态 API Key 在工具认证里不可接受，连地基档都不行。
保护智能体凭证 —— 把静态 Key、硬编码凭证、共享服务账号密码直接当成"已泄露"来对待。基线是身份提供商签发的短时凭证；生产环境用硬件绑定凭证；每个智能体凭证唯一；凭证绝不进代码或配置文件，运行时从密钥管理系统注入。能上 JIT(即时按需授权)和 ABAC 就上，这是强力的进阶缓解。
守护智能体记忆 —— 会话/用户间严格隔离；每次取用记忆时做完整性校验(而不只在写入时)；给记忆打来源标签；设置保留期(TTL)，让未经验证的记忆自动过期；准备好版本化记忆和回滚机制以备投毒时恢复。
度量真正重要的指标 —— 优先埋点两个指标：驻留时间(异常发生到人察觉之间隔多久)和覆盖率(有多少告警真的被调查了)。再加上可解释性、行为一致性、检测速度。一个灵魂拷问："如果一个智能体叛变了，我们能在一小时内知道吗?团队能安心休假而不担心它在背后乱来吗?" 答不上来，说明地基还没夯实。

七、防御也要提速：Agentic SOAR

框架花了专门一章讲一个常被忽略的事实：把你部署的智能体保护好，只是一半工作；另一半是让你的安全运营本身跑得够快，去对抗同样被 AI 加速的攻击者。 当漏洞利用在补丁发布几小时内就出现，需要好几天的响应流程就是摆设。

它给的核心思路特别清醒：不是把人踢出循环，而是把人从"记账"挪到"决策"上。

交给机器： 证据收集、信息富化、关联分析、文档撰写、起草事后复盘。
留给人： 是否隔离的决定、是否对外披露的决定、怎么跟客户沟通的决定。

原则一句话：自动化事故周边的"记账工作"，而不是"决策本身"。

落地建议很接地气：在告警队列前面摆一个模型，给它只读权限和受限的查询工具，让它对每条告警先做一次"初筛"，把人的注意力导向最需要判断的那几条。起步方式——挑一条误报率高的吵闹规则，接入模型跑两周，拿它的结论和人工审查比对，一致率能接受再扩展到下一条规则，别想着一口气把整个队列自动化。

此外还有几个值得抄的实践：用 MITRE ATT&CK 给你的检测覆盖率画地图(优先覆盖横向移动和凭证访问)；用 Atomic Red Team 跑一下午测试就能产出一张具体的覆盖图；演练"同一周来五个严重事件"而不是"周一来一个"——靠一张表格加每周例会的流程扛不住数量级的暴增。

八、那个最值得记住的设计法则：不可能 vs 只是麻烦

如果整份框架只让你带走一个思维工具，就是这个。

评估任何一项防护措施时，只问一句：它让攻击变得不可能，还是只是变得麻烦?

那些"靠增加摩擦"取胜的措施——多跳几个跳板、限速、非标准端口、短信 MFA——在面对"能大规模硬刚繁琐步骤"的对手时，价值会急剧贬值。因为AI 攻击者有无限的耐心，单次尝试成本接近于零。

能通过这个测试的控制有共同特征：硬件绑定的凭证、会过期的令牌、密码学身份、以及"根本不存在的网络路径"(而不是"只是不方便走的路径")。拿不准的时候，优先选"移除某个能力"的控制，而不是"限制/节流某个能力"的控制。

这个法则简单到可以贴在工位上，但它能帮你筛掉一大堆"看起来在做安全、其实只是在装样子"的措施。

九、批判与冷思考

任何框架都不是圣经，这份也一样。客观说几句：

它本质上是带营销的厂商内容。 全文穿插了大量 "Claude Code 如何原生支持这一点" 的 Pro-tip。这些不全是水分——Claude Code 在沙箱、权限粒度、OAuth 令牌、OpenTelemetry 审计上的设计确实可以作为"参考实现"。但你要清楚地把"通用框架"和"产品软广"切开看：框架值得照搬，产品要不要用是另一回事。
落地成本被轻描淡写了。 框架自己也承认 JIT、ABAC、硬件绑定身份"不易实现"。对绝大多数团队来说，光是"每个智能体一套唯一短时凭证 + 运行时注入 + 集中吊销"这一条，就要动账号体系、密钥管理、CI/CD 一大圈基础设施。中小团队现实的起点，是先把 Foundation 那几条(短时令牌、密码学身份、身份隔离、自动化初筛)做扎实，而不是上来就追进阶档。
部分量化数据要带着语境看。 "250 份文档植入后门"、"Spotlighting 把成功率压到 2% 以下"、"宪法分类器拦下 95% 越狱"——这些都是特定研究在特定设置下的结果，不等于在你的生产环境里能复现同样的数字。把它们当"方向性证据"而非"性能承诺"。
它解决的是工程问题，不是模型本质问题。 框架反复出现的一句话很关键：大模型无法可靠区分"信息"和"指令"。这是模型层面的根本性局限，零信任做的是"假设它会被骗，然后把被骗后的破坏关进笼子"，而不是"让它不被骗"。理解这一点，你才不会对任何单一防线抱有不切实际的期待。

写在最后：给三类人的行动清单

如果你是安全负责人(CISO)： 合规截止日期是真的(HIPAA、FINRA、GDPR、FedRAMP、欧盟 AI 法案都在逼近)，威胁面在动，出事后再补控制比现在就建要贵得多。先用第一、二部分的威胁地图给管理层做一次内部简报。
如果你是架构师/工程师： 从 Foundation 起步，验证你的控制，随部署规模逐级往上爬。把"不可能 vs 只是麻烦"这个测试，变成每次设计评审的标准提问。
如果你只是个对 AI 感兴趣的普通读者： 记住一件事就够了——当 AI 开始"自己动手干活"，它就同时拥有了"自己被骗着干坏事"的能力。安全不再是"防住外人进来"，而是默认家里已经有内鬼，然后想办法让这个内鬼翻不了天。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

SEO 学习笔记｜2026 搜索引擎算法变化观察

重点布局"场景化长尾词"内容必须能解决具体问题（用户停留 2 分钟以上才算合格）视频、图文混合的内容形式权重在提升AI 搜索引擎（豆包、DeepSeek、Kimi）的 GEO 优化和传统 SEO 是两套打法，不能混为一谈持续观察，下一篇写写 GEO 在 AI 搜索引擎的实际表现。

AtomGit开源社区

实操踩坑录：Superpowers 插件如何让 Claude Code 拥有架构师思维？

简单来说，Superpowers 是一个专为 Claude Code 打造的提示词与方法论驱动插件。不让 AI 瞎猜你的意图，而是强制它按照业界成熟的软件工程规范一步步执行。Brainstorming (头脑风暴)：在你连需求都没想清楚时，引导 AI 通过苏格拉底式提问帮你理清业务边界。TDD (测试驱动开发)：强制 AI 先写测试用例，再写业务代码，彻底告别“无单测代码”。Code Review

AtomGit开源社区

【CEEMDAN-VMD-GRU】完备集合经验模态分解-变分模态分解-门控循环单元预测研究附Python代码

在时间序列预测领域，面对复杂多变的数据，单一的预测方法往往难以取得理想效果。将完备集合经验模态分解（CEEMDAN）、变分模态分解（VMD）与门控循环单元（GRU）相结合，形成一种复合预测模型，有望充分发挥各方法的优势，提升预测精度。这种组合方式针对时间序列数据中的不同特征进行层层剖析与处理，为解决复杂预测问题提供了新的思路。