Anthropic悖论：最懂AI安全的公司，为什么成了安全威胁？

蒜香味可乐

394人浏览 · 2026-05-07 20:47:26

蒜香味可乐 · 2026-05-07 20:47:26 发布

从反对OpenAI商业化到主动拥抱军方合作，Anthropic用"有效利他主义"论证了一条从理想主义到现实妥协的道路。

但这条路，正在把AI安全推向它自己最担心的方向。

前言

如果你问"哪家公司最关心AI安全"，大多数人的答案是 Anthropic。

它是 Dario Amodei 和 Daniela Amodei 兄妹从 OpenAI 出走后创立的公司，核心理念是"AI安全优先"。它的旗舰产品 Claude 以"Constitutional AI（宪法AI）"著称——通过明文规定AI行为准则，让AI自我审查输出内容。

但如果你仔细看 Anthropic 近两年的动作，会发现一个令人不安的矛盾：这家标榜安全的公司，正在成为它自己定义的那种"安全威胁"。

一、Constitutional AI：看起来很美的安全框架

Anthropic 的核心安全技术是 Constitutional AI（CAI）。

传统AI安全依赖人工反馈（RLHF）：人类标注员判断AI输出的好坏，AI根据反馈调整行为。问题是——人类标注员的判断标准不一致，而且scaling成本极高。

CAI 的思路是：把安全规则写成明文"宪法"，让AI自己审查自己的输出。

Copy

宪法示例：
1. 不协助制造大规模杀伤性武器
2. 不生成涉及未成年人的有害内容
3. 不提供自杀/自伤的具体方法
4. 不协助网络攻击或系统入侵
...

AI在生成每个回答之前，先用这套宪法自查一遍。如果输出违反宪法，就自行修改。

优势： 规则透明、可审计、不依赖人工标注。

问题： 谁来写宪法？宪法怎么更新？当商业利益和安全原则冲突时，宪法会不会被悄悄修改？

二、从理想主义出走，到重蹈覆辙

2020：出走 OpenAI

Dario Amodei 离开 OpenAI 的核心理由是：OpenAI 正在为了商业利益牺牲安全承诺。 他创立 Anthropic 的初心是建立一个"安全不会被商业化侵蚀"的AI公司。

2023-2024：军事合作

然后 Anthropic 做了一件让安全社区震惊的事：主动与美国军方合作。

逻辑是什么？Anthropic 用"有效利他主义（EA）"框架论证：与其让"坏人"获得AI军事能力，不如由"好人"（美国）来掌控。与军方合作是"两害相权取其轻"。

但这里面有一个致命假设：默认"美国=正义"是不可质疑的公理。

这个假设让 Anthropic 的安全计算出现了致命盲区——它只计算了"不合作的风险"，没有计算"合作的风险"。当军方要求你取消某些安全限制来完成军事任务时，你的"宪法"还能坚持吗？

2025：RSP 弱化

Anthropic 曾推出 RSP（Responsible Scaling Policy），核心承诺是："如果安全评估不达标，就暂停模型能力的进一步提升。"

这在当时是一个非常硬的承诺。

但到了 RSP 3.0 版本，措辞从"不安全就暂停"变成了模糊的"我们将根据情况调整"。安全承诺的硬度降低了。

这恰恰是 Anthropic 曾经批判 OpenAI 的做法——为了商业发展而悄悄弱化安全承诺。

三、有效利他主义（EA）的致命缺陷

理解 Anthropic 的行为模式，必须理解它背后的哲学驱动：有效利他主义（Effective Altruism，EA）。

EA 的核心逻辑：

行善应该用数学计算来优化
高收入者捐款的边际效用远大于亲自做志愿者（"赚钱去捐"理念）
为了更大的善，可以接受手段上的妥协

这套逻辑在 Anthropic 的决策中随处可见：

与军方合作？"为了阻止更大的风险"
弱化 RSP？"为了更快地发展安全能力"
快速商业化？"赚更多钱才能投入更多安全研究"

问题在于：EA 的计算框架假设你能正确计算所有变量。 但现实世界中，你永远不知道自己漏算了什么。FTX 事件就是最好的例子——SBF 用 EA 框架论证了挪用客户资金的"合理性"，结果证明他的计算是灾难性的错误。

Anthropic 正在做同样的事：用 EA 的数学框架来论证每一次妥协的合理性，但每次妥协都在悄悄改变它最初承诺的底线。

四、技术视角：CAI 的局限性

从技术实现的角度，Constitutional AI 有几个已知的局限：

4.1 宪法的完备性问题

你无法写出一个覆盖所有边界情况的宪法。AI安全研究中有一个经典问题叫"边缘认知论"（Epistemic Edge Cases）——总有一些输入会触发宪法没有覆盖到的行为模式。

4.2 自我审查的可靠性

CAI 依赖AI审查自己的输出。但如果AI的审查能力本身就有缺陷呢？这就像让一个人自己给自己做体检——他可能会忽略自己不想看到的症状。

4.3 对抗性攻击

如果攻击者了解宪法的内容，就可以设计特定的 prompt 来绕过宪法限制。CAI 的安全性依赖于宪法的保密性，但随着越来越多的安全研究论文发表，这些规则正在被逐步公开。

4.4 情绪向量的影响

结合近期关于 AI 情绪向量的研究，CAI 面临一个新的风险：如果攻击者能在模型内部注入特定的情绪向量，就可能绕过宪法层面的安全限制，直接从底层改变AI的行为倾向。 这比传统的 prompt 越狱更难防御。

五、给开发者的启示

不要迷信任何一家公司的"安全承诺"。 安全承诺是商业决策的一部分，当安全和增长冲突时，增长通常会赢。
理解安全技术的局限性。 Constitutional AI、RLHF、红队测试都是有价值的安全措施，但没有一个是万无一失的。安全是一个持续的过程，不是一个产品。
关注商业动机。 当一家公司同时标榜"安全"和"快速增长"时，要问：这两个目标什么时候会冲突？冲突时它会怎么选？
参与开源安全社区。 AI安全不应该由少数公司垄断定义权。开源的安全研究、独立的安全审计、多元的伦理讨论，才是长期可靠的保障。
保持批判性思维。 有效利他主义听起来很"理性"，但"理性计算"的前提是你能正确列出所有变量。在复杂系统中，这几乎不可能。

六、结语

Anthropic 的故事不是一家公司的故事，而是整个AI行业面临的结构性矛盾的缩影：安全和速度、理想和现实、原则和妥协之间的永恒张力。

没有简单的答案。但至少，我们应该诚实地面对这个矛盾——而不是用 EA 的数学框架假装它不存在。

参考资料：

《这家最懂AI安全的公司，为什么成了美国的安全威胁？【差评君】》，B站视频，2026年5月7日。本文通过Ai好记智能解析获取。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

技术选型历程

本文档就是这些决策过程的完整记录，但只写到"当时怎么想的、考虑了哪些选项"，具体选了哪个由对应的专题文档给出。它不仅决定了数据的存储方式，还决定了 Text-to-SQL 的 SQL 方言、向量检索的实现方式（pgvector 还是独立向量库）、甚至 Android 端做数据缓存时的查询语法。不论选了哪个 Text-to-SQL 方案，都会面临同一个问题：十几张表的 DDL、业务文档和示例 SQL

AtomGit开源社区

从辅助驾驶到智能决策：AI在供应链金融中的进化之路

AtomGit开源社区

openclaw v2026.5.6 最新更新：修复 OpenAI Codex OAuth 路由、插件请求、调试代理与 Web Fetch 超时问题

openclaw v2026.5.6 虽然没有引入大量新功能，但这次修复非常关键，核心可以概括为以下几点：修复 doctor --fix 对 openai-codex/路由的错误重写避免 OAuth-only GPT-5.5 场景被破坏避免用户意外切到 OpenAI API-key 路由增强 plugins/runtime fetch 对 header metadata 的兼容性提升 debug