Anthropic悖论:最懂AI安全的公司,为什么成了安全威胁?
从反对OpenAI商业化到主动拥抱军方合作,Anthropic用"有效利他主义"论证了一条从理想主义到现实妥协的道路。
但这条路,正在把AI安全推向它自己最担心的方向。
前言
如果你问"哪家公司最关心AI安全",大多数人的答案是 Anthropic。
它是 Dario Amodei 和 Daniela Amodei 兄妹从 OpenAI 出走后创立的公司,核心理念是"AI安全优先"。它的旗舰产品 Claude 以"Constitutional AI(宪法AI)"著称——通过明文规定AI行为准则,让AI自我审查输出内容。
但如果你仔细看 Anthropic 近两年的动作,会发现一个令人不安的矛盾:这家标榜安全的公司,正在成为它自己定义的那种"安全威胁"。
一、Constitutional AI:看起来很美的安全框架
Anthropic 的核心安全技术是 Constitutional AI(CAI)。
传统AI安全依赖人工反馈(RLHF):人类标注员判断AI输出的好坏,AI根据反馈调整行为。问题是——人类标注员的判断标准不一致,而且scaling成本极高。
CAI 的思路是:把安全规则写成明文"宪法",让AI自己审查自己的输出。
Copy
宪法示例:
1. 不协助制造大规模杀伤性武器
2. 不生成涉及未成年人的有害内容
3. 不提供自杀/自伤的具体方法
4. 不协助网络攻击或系统入侵
...
AI在生成每个回答之前,先用这套宪法自查一遍。如果输出违反宪法,就自行修改。
优势: 规则透明、可审计、不依赖人工标注。
问题: 谁来写宪法?宪法怎么更新?当商业利益和安全原则冲突时,宪法会不会被悄悄修改?
二、从理想主义出走,到重蹈覆辙
2020:出走 OpenAI
Dario Amodei 离开 OpenAI 的核心理由是:OpenAI 正在为了商业利益牺牲安全承诺。 他创立 Anthropic 的初心是建立一个"安全不会被商业化侵蚀"的AI公司。
2023-2024:军事合作
然后 Anthropic 做了一件让安全社区震惊的事:主动与美国军方合作。
逻辑是什么?Anthropic 用"有效利他主义(EA)"框架论证:与其让"坏人"获得AI军事能力,不如由"好人"(美国)来掌控。与军方合作是"两害相权取其轻"。
但这里面有一个致命假设:默认"美国=正义"是不可质疑的公理。
这个假设让 Anthropic 的安全计算出现了致命盲区——它只计算了"不合作的风险",没有计算"合作的风险"。当军方要求你取消某些安全限制来完成军事任务时,你的"宪法"还能坚持吗?
2025:RSP 弱化
Anthropic 曾推出 RSP(Responsible Scaling Policy),核心承诺是:"如果安全评估不达标,就暂停模型能力的进一步提升。"
这在当时是一个非常硬的承诺。
但到了 RSP 3.0 版本,措辞从"不安全就暂停"变成了模糊的"我们将根据情况调整"。安全承诺的硬度降低了。
这恰恰是 Anthropic 曾经批判 OpenAI 的做法——为了商业发展而悄悄弱化安全承诺。
三、有效利他主义(EA)的致命缺陷
理解 Anthropic 的行为模式,必须理解它背后的哲学驱动:有效利他主义(Effective Altruism,EA)。
EA 的核心逻辑:
- 行善应该用数学计算来优化
- 高收入者捐款的边际效用远大于亲自做志愿者("赚钱去捐"理念)
- 为了更大的善,可以接受手段上的妥协
这套逻辑在 Anthropic 的决策中随处可见:
- 与军方合作?"为了阻止更大的风险"
- 弱化 RSP?"为了更快地发展安全能力"
- 快速商业化?"赚更多钱才能投入更多安全研究"
问题在于:EA 的计算框架假设你能正确计算所有变量。 但现实世界中,你永远不知道自己漏算了什么。FTX 事件就是最好的例子——SBF 用 EA 框架论证了挪用客户资金的"合理性",结果证明他的计算是灾难性的错误。
Anthropic 正在做同样的事:用 EA 的数学框架来论证每一次妥协的合理性,但每次妥协都在悄悄改变它最初承诺的底线。
四、技术视角:CAI 的局限性
从技术实现的角度,Constitutional AI 有几个已知的局限:
4.1 宪法的完备性问题
你无法写出一个覆盖所有边界情况的宪法。AI安全研究中有一个经典问题叫"边缘认知论"(Epistemic Edge Cases)——总有一些输入会触发宪法没有覆盖到的行为模式。
4.2 自我审查的可靠性
CAI 依赖AI审查自己的输出。但如果AI的审查能力本身就有缺陷呢?这就像让一个人自己给自己做体检——他可能会忽略自己不想看到的症状。
4.3 对抗性攻击
如果攻击者了解宪法的内容,就可以设计特定的 prompt 来绕过宪法限制。CAI 的安全性依赖于宪法的保密性,但随着越来越多的安全研究论文发表,这些规则正在被逐步公开。
4.4 情绪向量的影响
结合近期关于 AI 情绪向量的研究,CAI 面临一个新的风险:如果攻击者能在模型内部注入特定的情绪向量,就可能绕过宪法层面的安全限制,直接从底层改变AI的行为倾向。 这比传统的 prompt 越狱更难防御。
五、给开发者的启示
- 不要迷信任何一家公司的"安全承诺"。 安全承诺是商业决策的一部分,当安全和增长冲突时,增长通常会赢。
- 理解安全技术的局限性。 Constitutional AI、RLHF、红队测试都是有价值的安全措施,但没有一个是万无一失的。安全是一个持续的过程,不是一个产品。
- 关注商业动机。 当一家公司同时标榜"安全"和"快速增长"时,要问:这两个目标什么时候会冲突?冲突时它会怎么选?
- 参与开源安全社区。 AI安全不应该由少数公司垄断定义权。开源的安全研究、独立的安全审计、多元的伦理讨论,才是长期可靠的保障。
- 保持批判性思维。 有效利他主义听起来很"理性",但"理性计算"的前提是你能正确列出所有变量。在复杂系统中,这几乎不可能。
六、结语
Anthropic 的故事不是一家公司的故事,而是整个AI行业面临的结构性矛盾的缩影:安全和速度、理想和现实、原则和妥协之间的永恒张力。
没有简单的答案。但至少,我们应该诚实地面对这个矛盾——而不是用 EA 的数学框架假装它不存在。
参考资料:
《这家最懂AI安全的公司,为什么成了美国的安全威胁?【差评君】》,B站视频,2026年5月7日。本文通过Ai好记智能解析获取。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)