Anthropic深度解析

西里尤琦

214人浏览 · 2026-04-03 12:20:03

西里尤琦 · 2026-04-03 12:20:03 发布

Anthropic：一家用"人类"命名的公司，正在经历最人性化的矛盾

作者：爱分享的阿Q
标签：Anthropic Claude AI安全 Constitutional AI 大模型 工程实践

写在前面

我一直觉得 Anthropic 是 AI 圈里最难被简单定义的一家公司。

说它"守护安全"，但它 2026 年 2 月刚刚把安全团队的冻结权给悄悄撤掉了；说它"技术领先"，但两次源码泄露都是同一个低级 npm 配置错误；说它"商业成功"，但其核心卖点恰恰是"我们比对手更不急着赚钱"。

这种矛盾不是公关失误，也不是管理混乱——它是一家用"人类"命名的公司在真正面对人类时的必然状态：理想与现实的裂缝，从第一天就存在，只是被越来越大的营收数字不断撑宽。

一、从 OpenAI 出走这件事，远比你想象的复杂

2021 年，Dario Amodei 带着妹妹 Daniela 和 7 名同事离开 OpenAI，创立了 Anthropic。“Anthropic"这个词源自希腊语 Anthropos，意思是"人类”。

外界习惯把这次出走描述成一次壮烈的原则之争：一群相信 AI 安全的人，无法接受 OpenAI 的商业化路线，所以出走创业。这个故事很好听，也确实有一定真实性。但现实比这更微妙。

┌────────────────────────────────────────────────────────────┐
│              两条路线的本质分歧                             │
├────────────────────────┬───────────────────────────────────┤
│       OpenAI           │         Anthropic                 │
├────────────────────────┼───────────────────────────────────┤
│  性能优先，安全迭代    │  安全优先，功能殿后               │
│  快速商业化获取资源    │  可控性先于能力扩张               │
│  AGI 赛跑参与者        │  AI 风险研究机构（同时也是赛跑者）│
│  直接面向消费者        │  聚焦企业级高价值客户             │
└────────────────────────┴───────────────────────────────────┘

说白了，这不只是理念分歧，也是商业路线分歧。Dario 判断，"更安全"这个标签在高价值的企业客户中是稀缺资产，金融、医药、法律这些行业不需要最强模型，他们需要最可预期的模型。

这个判断是正确的。《财富》全球 500 强前十中有 8 家成了 Anthropic 的客户，年化营收从 10 亿美元涨到近 140 亿美元只用了 14 个月。"安全"被成功变现了。

二、Constitutional AI：一套真正有意思的技术哲学

Anthropic 在技术层面的核心贡献是 Constitutional AI（宪法 AI），这个东西值得认真聊一聊。

传统的 RLHF（基于人类反馈的强化学习）有个根本问题：人类标注员自身有偏见、有疲劳、有局限。你让一个人看一千条输出并打分，他第九百条的判断跟第一条已经不一样了。

Constitutional AI 的思路是：不依赖人工打分，给模型一套明文原则（“宪法”），让它自己审查、自己修改。

Constitutional AI 工作流（简化版）

  第一阶段：生成
  ┌──────────────────────────────────────────┐
  │  用户输入 → 模型生成初始回复              │
  └──────────────────────────────────────────┘
                        ↓
  第二阶段：自我审查（RLAIF 核心）
  ┌──────────────────────────────────────────┐
  │  模型读取"宪法"原则                      │
  │  对初始回复进行批判：                    │
  │    · 这个回复是否有害？                  │
  │    · 这个回复是否诚实？                  │
  │    · 这个回复是否真正有帮助？            │
  └──────────────────────────────────────────┘
                        ↓
  第三阶段：修订
  ┌──────────────────────────────────────────┐
  │  生成修订版本，进行偏好对比训练           │
  │  反复迭代直到满足原则约束                 │
  └──────────────────────────────────────────┘

核心优先级：无害（Harmless）> 诚实（Honest）> 有帮助（Helpful）

这套框架有几个我觉得真正聪明的地方：

一是它把价值观显式化了。 大多数公司的"安全机制"是黑盒的，Anthropic 把原则写下来，理论上可以被审计、被质疑、被迭代。这在整个行业是异类。

二是它用 AI 来监督 AI。 这本质上是一种扩展方案——人类没法监督无限量的输出，但另一个模型可以。RLAIF（基于 AI 反馈的强化学习）之所以后来成为行业标配，Anthropic 的这批论文功不可没。

三是优先级的排序是诚实的。 "无害 > 诚实 > 有帮助"这个顺序，意味着有时候 Claude 会拒绝帮你，即便你的请求并非真的危险。这确实引发了不少"过度保守"的批评，但这个拒绝至少是按照一套公开规则做出的，不是随机的。

三、Claude Code：一次值得解剖的工程实践

2026 年 3 月，Claude Code 做了约 10 次密集更新。让我印象深刻的不是功能本身，而是它展现出的工程设计思路。

3 月 31 日泄露的 51.2 万行 TypeScript 源码（这件事后面还要聊）让行业罕见地看到了一个顶尖 AI 工具的内部构造：

Claude Code 核心架构（源码泄露后整理）

  ┌─────────────────────────────────────────────────────┐
  │                    用户层                            │
  │   CLI (Commander)  ←→  终端 UI (React + Ink)        │
  │   交互式 REPL 模式  /  无头 SDK 模式                 │
  └──────────────────────┬──────────────────────────────┘
                         ↓
  ┌─────────────────────────────────────────────────────┐
  │                   调度层                            │
  │                                                     │
  │   Coordinator Agent ──→ Worker Agent × N            │
  │         ↓ Fork 隔离试错，防止上下文污染             │
  │   StreamingToolExecutor（工具并发/串行调度）         │
  └──────────────────────┬──────────────────────────────┘
                         ↓
  ┌─────────────────────────────────────────────────────┐
  │                   优化层                            │
  │                                                     │
  │   Prompt Cache（静态段/动态段分离，最大化命中率）   │
  │   ToolSearch（动态加载非核心工具，节省上下文）      │
  │   Auto Mode Classifier（侧查询 LLM 评估风险）       │
  └─────────────────────────────────────────────────────┘

几个细节让我印象深刻：

Fork 子 Agent 机制。 试错过程在隔离的子 Agent 里进行，只把最终结论传回主 Agent。这意味着主会话的上下文不会被一堆失败尝试污染，对长任务的连贯性至关重要。

提示词缓存的分段设计。 把系统提示（静态）和会话数据（动态）分开缓存，通过确定性排序和哈希路径最大化缓存命中率——这是纯粹的工程细节，但可能直接影响几十倍的推理成本。

Auto 模式的安全机制。 不是简单的"允许/拒绝"，而是用一个侧查询 LLM 实时评估每个操作的风险等级，低风险自动执行，高风险强制暂停。这个设计把"安全检查"从人工环节变成了架构内置能力。

Claude Code 的技术路线清楚地指向一个方向：从工具走向基础设施。不是一个你问它、它答你的助手，而是一个能在你不看它的时候持续工作的 Agent 平台。

四、两次源码泄露，暴露的问题远不止 npm 配置

2025 年 2 月，Claude Code v0.2.8 因为误留 inline-source-map 泄露了一次。
2026 年 3 月 31 日，Claude Code v2.1.88 因为误留 cli.js.map（59.8MB），完整泄露了 51.2 万行 TypeScript 源码。

13 个月，同类错误，发生两次。

泄露本身的技术原因其实很简单，任何一条 CI 检查都能防住：

# .npmignore 加这一行就够了
*.map

# 或者 CI 中加这个检查
npm pack --dry-run | grep "\.map$" && exit 1

但他们没有。这说明什么？不是工程师不知道怎么写 CI，而是在一家研发了世界最复杂 AI 系统的公司里，发布流程的基础安全审查居然是手工的，或者根本没有。

这个矛盾是有点讽刺的。Anthropic 花了大量资源思考"超级 AI 如何不伤害人类"，却没有在 npm 发布脚本里加一行 grep。

更有意思的是外部反应。源码泄露后 2 小时，韩国开发者 Sigrid Jin 用 OpenAI Codex 把整个系统的 Python 重写版 claw-code 做了出来，获得 5 万 GitHub 星。有人开玩笑说这才是真正意义上的"开源"。

五、安全负责人辞职这件事，比我们想象的更严肃

2026 年 2 月，Anthropic 安全负责人 Sharma 辞职，留下"世界处于危险之中"的声明。

与此同时，Anthropic 官网悄悄把"安全承诺"改成了"风险报告"，原来允许安全团队冻结高风险模型发布的条款被弱化了。

原安全承诺（简化）              修订后的"风险报告"框架
─────────────────────────────────────────────────────
安全团队拥有发布冻结权          安全团队提供评估建议
发现高风险可直接叫停            最终决策由管理层判断
公开透明的能力评估指标          更灵活的内部评估机制

Anthropic 的解释大概是：随着对 AI 系统的理解加深，需要更灵活的安全框架。听起来合理，但配合安全负责人的辞职声明，这个解释很难让人完全放心。

背景是：美国五角大楼曾要求 Anthropic 解除 Claude 的安全限制，被拒绝了。但商业压力来自四面八方，不只是政府。当年化营收逼近 140 亿美元、估值 600 亿美元的时候，"安全第一"不再只是一种价值观，更是一个成本中心。

我没有证据说 Anthropic 已经"堕落"。但一个让原则性的安全负责人辞职的公司，不管出于什么原因，都应该被认真审视。尤其是当它把"安全"作为核心竞争力对外销售的时候。

六、关于"任何人都能成为开发者"这个判断

Anthropic《2026年智能体编码趋势报告》的核心结论是：编程门槛正在消失，这是自图形界面以来最大的范式转移。

报告里有一些真实的数据支撑：Augment Code 客户原需 4-8 个月的项目，借助 Claude 只用 2 周完成；乐天工程师用 Claude Code 在 7 小时内完成了 1250 万行代码库的复杂功能；Anthropic 法务团队用 Claude 把合同审核从 3 天压到了 24 小时。

这些案例是真实的，但我对"任何人都能成为开发者"这个表述有保留意见。

我认为更准确的描述是：

  原来                    现在（用 AI）
  ─────────────────────────────────────
  写代码需要学编程         写代码需要学会提需求
  调试需要理解错误信息     调试需要判断 AI 的输出是否正确
  架构需要经验积累         架构需要判断 AI 建议的取舍
  安全需要专业知识         安全需要理解 AI 的局限

  门槛没有消失，门槛的形状变了

一个法务人员确实可以用 Claude 构建自动化工作流，但她需要清楚地知道这个工作流在什么边界条件下会出错，需要能够判断 AI 的输出是否符合业务逻辑，需要在出错时有能力介入和纠正。

这不是零门槛，这是门槛从"会写代码"变成了"会判断 AI"。后者在某些场景下其实更难，因为它需要领域知识，而领域知识比代码技能更难快速获取。

不过话说回来，这个方向是对的。技术的历史本来就是一部门槛不断下移的历史——汇编到高级语言，命令行到图形界面，每一次都有人担心"真正的工程师会消失"，但每一次都带来了更大规模的软件创造。这次大概也不会例外。

七、我对 Anthropic 的整体判断

把上面这些拼在一起，我对 Anthropic 的看法大概是这样的：

它是目前在 AI 安全问题上想得最深的公司之一。 Constitutional AI 不是公关材料，是真正有技术含量的研究方向，对整个行业的对齐研究贡献是实质性的。

但它同时也是一家公司，受制于公司的所有逻辑。 当营收增长 14 倍，当军方施压，当竞争对手步步紧逼，"安全第一"这四个字的权重不可避免地在被重新定价。

它的工程基本功配不上它的技术雄心。 设计了多 Agent 协调、KAIROS 自主守护进程、提示词缓存优化这些精妙机制的团队，却在同一个 npm 配置问题上摔了两跤。这不是个别工程师失误，是某种系统性的疏忽。

Claude Code 的方向是对的，但它在重新定义一个问题： 当 AI Agent 可以在你不看的时候运行一周、自主修改代码库，"我是否理解这个系统在做什么"变成了一个比"代码写得好不好"更重要的问题。

尾声

Anthropic 用"人类"命名自己，这件事我一直觉得挺有意思。

"人类"这个词里包含的不只有理性和善意，也有疲惫、妥协、自我欺骗和短视。一家叫 Anthropic 的公司，在追求 AI 安全的路上暴露出这些人类特质，从某种意义上说，反而是诚实的。

真正让我担心的不是它犯了错，而是它在安全这件事上是当前这个行业最好的选项之一。这说明的不是 Anthropic 有多好，而是这条路上，整个行业离"足够好"还差得远。

╔─────────────────────────────────────────────────╗
║                                                   ║
║   AI 的最大问题不是能力                           ║
║   而是我们没有足够好的方式来信任它               ║
║                                                   ║
║   Anthropic 在尝试解决这个问题                   ║
║   尽管方式并不完美                               ║
║                                                   ║
╚─────────────────────────────────────────────────╝

参考资料

36氪 · 砺石商业评论: 以"人类"为名，Anthropic如何打造宪法式人工智能？ (2026-03-31)

腾讯云开发者: Anthropic最新2026趋势报告：人类最大一次编程革命势不可挡 (2026-04-02)

博客园 · warm3snow: Claude Code源码泄露全复盘：51.2万行代码裸奔，Anthropic在同一个坑里摔了两次 (2026-04-01)

松山湖开发者村: Claude Code 2026年3月全面进化：Auto模式、Computer Use与云端持续执行 (2026-03-30)

Anthropic: 2026 Agentic Coding Trends Report (2026-02)

Dario Amodei 离开 OpenAI 相关背景资料，新浪财经 (2026-02-10)

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于yolov26的桃子成熟度检测系统python源码+pytorch模型+评估指标曲线+精美GUI界面

数据集格式：YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的yolo格式txt文件)图片数量(jpg文件个数)：3630标注数量(txt文件个数)：3630训练集数量：2333验证集数量：200测试集数量：1097标注类别数：3所在github仓库：firc-dataset标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):