Anthropic:一家用"人类"命名的公司,正在经历最人性化的矛盾

作者:爱分享的阿Q
标签:Anthropic Claude AI安全 Constitutional AI 大模型 工程实践

写在前面

我一直觉得 Anthropic 是 AI 圈里最难被简单定义的一家公司。

说它"守护安全",但它 2026 年 2 月刚刚把安全团队的冻结权给悄悄撤掉了;说它"技术领先",但两次源码泄露都是同一个低级 npm 配置错误;说它"商业成功",但其核心卖点恰恰是"我们比对手更不急着赚钱"。

这种矛盾不是公关失误,也不是管理混乱——它是一家用"人类"命名的公司在真正面对人类时的必然状态:理想与现实的裂缝,从第一天就存在,只是被越来越大的营收数字不断撑宽。


一、从 OpenAI 出走这件事,远比你想象的复杂

2021 年,Dario Amodei 带着妹妹 Daniela 和 7 名同事离开 OpenAI,创立了 Anthropic。“Anthropic"这个词源自希腊语 Anthropos,意思是"人类”。

外界习惯把这次出走描述成一次壮烈的原则之争:一群相信 AI 安全的人,无法接受 OpenAI 的商业化路线,所以出走创业。这个故事很好听,也确实有一定真实性。但现实比这更微妙。

┌────────────────────────────────────────────────────────────┐
│              两条路线的本质分歧                             │
├────────────────────────┬───────────────────────────────────┤
│       OpenAI           │         Anthropic                 │
├────────────────────────┼───────────────────────────────────┤
│  性能优先,安全迭代    │  安全优先,功能殿后               │
│  快速商业化获取资源    │  可控性先于能力扩张               │
│  AGI 赛跑参与者        │  AI 风险研究机构(同时也是赛跑者)│
│  直接面向消费者        │  聚焦企业级高价值客户             │
└────────────────────────┴───────────────────────────────────┘

说白了,这不只是理念分歧,也是商业路线分歧。Dario 判断,"更安全"这个标签在高价值的企业客户中是稀缺资产,金融、医药、法律这些行业不需要最强模型,他们需要最可预期的模型

这个判断是正确的。《财富》全球 500 强前十中有 8 家成了 Anthropic 的客户,年化营收从 10 亿美元涨到近 140 亿美元只用了 14 个月。"安全"被成功变现了。


二、Constitutional AI:一套真正有意思的技术哲学

Anthropic 在技术层面的核心贡献是 Constitutional AI(宪法 AI),这个东西值得认真聊一聊。

传统的 RLHF(基于人类反馈的强化学习)有个根本问题:人类标注员自身有偏见、有疲劳、有局限。你让一个人看一千条输出并打分,他第九百条的判断跟第一条已经不一样了。

Constitutional AI 的思路是:不依赖人工打分,给模型一套明文原则(“宪法”),让它自己审查、自己修改。

Constitutional AI 工作流(简化版)

  第一阶段:生成
  ┌──────────────────────────────────────────┐
  │  用户输入 → 模型生成初始回复              │
  └──────────────────────────────────────────┘
                        ↓
  第二阶段:自我审查(RLAIF 核心)
  ┌──────────────────────────────────────────┐
  │  模型读取"宪法"原则                      │
  │  对初始回复进行批判:                    │
  │    · 这个回复是否有害?                  │
  │    · 这个回复是否诚实?                  │
  │    · 这个回复是否真正有帮助?            │
  └──────────────────────────────────────────┘
                        ↓
  第三阶段:修订
  ┌──────────────────────────────────────────┐
  │  生成修订版本,进行偏好对比训练           │
  │  反复迭代直到满足原则约束                 │
  └──────────────────────────────────────────┘

核心优先级:无害(Harmless)> 诚实(Honest)> 有帮助(Helpful)

这套框架有几个我觉得真正聪明的地方:

一是它把价值观显式化了。 大多数公司的"安全机制"是黑盒的,Anthropic 把原则写下来,理论上可以被审计、被质疑、被迭代。这在整个行业是异类。

二是它用 AI 来监督 AI。 这本质上是一种扩展方案——人类没法监督无限量的输出,但另一个模型可以。RLAIF(基于 AI 反馈的强化学习)之所以后来成为行业标配,Anthropic 的这批论文功不可没。

三是优先级的排序是诚实的。 "无害 > 诚实 > 有帮助"这个顺序,意味着有时候 Claude 会拒绝帮你,即便你的请求并非真的危险。这确实引发了不少"过度保守"的批评,但这个拒绝至少是按照一套公开规则做出的,不是随机的。


三、Claude Code:一次值得解剖的工程实践

2026 年 3 月,Claude Code 做了约 10 次密集更新。让我印象深刻的不是功能本身,而是它展现出的工程设计思路。

3 月 31 日泄露的 51.2 万行 TypeScript 源码(这件事后面还要聊)让行业罕见地看到了一个顶尖 AI 工具的内部构造:

Claude Code 核心架构(源码泄露后整理)

  ┌─────────────────────────────────────────────────────┐
  │                    用户层                            │
  │   CLI (Commander)  ←→  终端 UI (React + Ink)        │
  │   交互式 REPL 模式  /  无头 SDK 模式                 │
  └──────────────────────┬──────────────────────────────┘
                         ↓
  ┌─────────────────────────────────────────────────────┐
  │                   调度层                            │
  │                                                     │
  │   Coordinator Agent ──→ Worker Agent × N            │
  │         ↓ Fork 隔离试错,防止上下文污染             │
  │   StreamingToolExecutor(工具并发/串行调度)         │
  └──────────────────────┬──────────────────────────────┘
                         ↓
  ┌─────────────────────────────────────────────────────┐
  │                   优化层                            │
  │                                                     │
  │   Prompt Cache(静态段/动态段分离,最大化命中率)   │
  │   ToolSearch(动态加载非核心工具,节省上下文)      │
  │   Auto Mode Classifier(侧查询 LLM 评估风险)       │
  └─────────────────────────────────────────────────────┘

几个细节让我印象深刻:

Fork 子 Agent 机制。 试错过程在隔离的子 Agent 里进行,只把最终结论传回主 Agent。这意味着主会话的上下文不会被一堆失败尝试污染,对长任务的连贯性至关重要。

提示词缓存的分段设计。 把系统提示(静态)和会话数据(动态)分开缓存,通过确定性排序和哈希路径最大化缓存命中率——这是纯粹的工程细节,但可能直接影响几十倍的推理成本。

Auto 模式的安全机制。 不是简单的"允许/拒绝",而是用一个侧查询 LLM 实时评估每个操作的风险等级,低风险自动执行,高风险强制暂停。这个设计把"安全检查"从人工环节变成了架构内置能力。

Claude Code 的技术路线清楚地指向一个方向:从工具走向基础设施。不是一个你问它、它答你的助手,而是一个能在你不看它的时候持续工作的 Agent 平台。


四、两次源码泄露,暴露的问题远不止 npm 配置

2025 年 2 月,Claude Code v0.2.8 因为误留 inline-source-map 泄露了一次。
2026 年 3 月 31 日,Claude Code v2.1.88 因为误留 cli.js.map(59.8MB),完整泄露了 51.2 万行 TypeScript 源码。

13 个月,同类错误,发生两次。

泄露本身的技术原因其实很简单,任何一条 CI 检查都能防住:

# .npmignore 加这一行就够了
*.map

# 或者 CI 中加这个检查
npm pack --dry-run | grep "\.map$" && exit 1

但他们没有。这说明什么?不是工程师不知道怎么写 CI,而是在一家研发了世界最复杂 AI 系统的公司里,发布流程的基础安全审查居然是手工的,或者根本没有。

这个矛盾是有点讽刺的。Anthropic 花了大量资源思考"超级 AI 如何不伤害人类",却没有在 npm 发布脚本里加一行 grep。

更有意思的是外部反应。源码泄露后 2 小时,韩国开发者 Sigrid Jin 用 OpenAI Codex 把整个系统的 Python 重写版 claw-code 做了出来,获得 5 万 GitHub 星。有人开玩笑说这才是真正意义上的"开源"。


五、安全负责人辞职这件事,比我们想象的更严肃

2026 年 2 月,Anthropic 安全负责人 Sharma 辞职,留下"世界处于危险之中"的声明。

与此同时,Anthropic 官网悄悄把"安全承诺"改成了"风险报告",原来允许安全团队冻结高风险模型发布的条款被弱化了。

原安全承诺(简化)              修订后的"风险报告"框架
─────────────────────────────────────────────────────
安全团队拥有发布冻结权          安全团队提供评估建议
发现高风险可直接叫停            最终决策由管理层判断
公开透明的能力评估指标          更灵活的内部评估机制

Anthropic 的解释大概是:随着对 AI 系统的理解加深,需要更灵活的安全框架。听起来合理,但配合安全负责人的辞职声明,这个解释很难让人完全放心。

背景是:美国五角大楼曾要求 Anthropic 解除 Claude 的安全限制,被拒绝了。但商业压力来自四面八方,不只是政府。当年化营收逼近 140 亿美元、估值 600 亿美元的时候,"安全第一"不再只是一种价值观,更是一个成本中心。

我没有证据说 Anthropic 已经"堕落"。但一个让原则性的安全负责人辞职的公司,不管出于什么原因,都应该被认真审视。尤其是当它把"安全"作为核心竞争力对外销售的时候。


六、关于"任何人都能成为开发者"这个判断

Anthropic《2026年智能体编码趋势报告》的核心结论是:编程门槛正在消失,这是自图形界面以来最大的范式转移。

报告里有一些真实的数据支撑:Augment Code 客户原需 4-8 个月的项目,借助 Claude 只用 2 周完成;乐天工程师用 Claude Code 在 7 小时内完成了 1250 万行代码库的复杂功能;Anthropic 法务团队用 Claude 把合同审核从 3 天压到了 24 小时。

这些案例是真实的,但我对"任何人都能成为开发者"这个表述有保留意见。

我认为更准确的描述是:

  原来                    现在(用 AI)
  ─────────────────────────────────────
  写代码需要学编程         写代码需要学会提需求
  调试需要理解错误信息     调试需要判断 AI 的输出是否正确
  架构需要经验积累         架构需要判断 AI 建议的取舍
  安全需要专业知识         安全需要理解 AI 的局限

  门槛没有消失,门槛的形状变了

一个法务人员确实可以用 Claude 构建自动化工作流,但她需要清楚地知道这个工作流在什么边界条件下会出错,需要能够判断 AI 的输出是否符合业务逻辑,需要在出错时有能力介入和纠正。

这不是零门槛,这是门槛从"会写代码"变成了"会判断 AI"。后者在某些场景下其实更难,因为它需要领域知识,而领域知识比代码技能更难快速获取。

不过话说回来,这个方向是对的。技术的历史本来就是一部门槛不断下移的历史——汇编到高级语言,命令行到图形界面,每一次都有人担心"真正的工程师会消失",但每一次都带来了更大规模的软件创造。这次大概也不会例外。


七、我对 Anthropic 的整体判断

把上面这些拼在一起,我对 Anthropic 的看法大概是这样的:

它是目前在 AI 安全问题上想得最深的公司之一。 Constitutional AI 不是公关材料,是真正有技术含量的研究方向,对整个行业的对齐研究贡献是实质性的。

但它同时也是一家公司,受制于公司的所有逻辑。 当营收增长 14 倍,当军方施压,当竞争对手步步紧逼,"安全第一"这四个字的权重不可避免地在被重新定价。

它的工程基本功配不上它的技术雄心。 设计了多 Agent 协调、KAIROS 自主守护进程、提示词缓存优化这些精妙机制的团队,却在同一个 npm 配置问题上摔了两跤。这不是个别工程师失误,是某种系统性的疏忽。

Claude Code 的方向是对的,但它在重新定义一个问题: 当 AI Agent 可以在你不看的时候运行一周、自主修改代码库,"我是否理解这个系统在做什么"变成了一个比"代码写得好不好"更重要的问题。


尾声

Anthropic 用"人类"命名自己,这件事我一直觉得挺有意思。

"人类"这个词里包含的不只有理性和善意,也有疲惫、妥协、自我欺骗和短视。一家叫 Anthropic 的公司,在追求 AI 安全的路上暴露出这些人类特质,从某种意义上说,反而是诚实的。

真正让我担心的不是它犯了错,而是它在安全这件事上是当前这个行业最好的选项之一。这说明的不是 Anthropic 有多好,而是这条路上,整个行业离"足够好"还差得远。

╔─────────────────────────────────────────────────╗
║                                                   ║
║   AI 的最大问题不是能力                           ║
║   而是我们没有足够好的方式来信任它               ║
║                                                   ║
║   Anthropic 在尝试解决这个问题                   ║
║   尽管方式并不完美                               ║
║                                                   ║
╚─────────────────────────────────────────────────╝

参考资料

  • 36氪 · 砺石商业评论: 以"人类"为名,Anthropic如何打造宪法式人工智能? (2026-03-31)
  • 腾讯云开发者: Anthropic最新2026趋势报告:人类最大一次编程革命势不可挡 (2026-04-02)
  • 博客园 · warm3snow: Claude Code源码泄露全复盘:51.2万行代码裸奔,Anthropic在同一个坑里摔了两次 (2026-04-01)
  • 松山湖开发者村: Claude Code 2026年3月全面进化:Auto模式、Computer Use与云端持续执行 (2026-03-30)
  • Anthropic: 2026 Agentic Coding Trends Report (2026-02)
  • Dario Amodei 离开 OpenAI 相关背景资料,新浪财经 (2026-02-10)
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐