【AI 杂谈】Claude Code重写了100万行代码，然后Anthropic悄悄招了1000个程序员

System_0826

162人浏览 · 2026-06-10 21:15:00

System_0826 · 2026-06-10 21:15:00 发布

Claude Code帮Bun重写了100万行代码，测试通过率99.8%。但社区的质疑比赞美更多。Anthropic随即被曝花5.8亿美元雇1000个程序员教AI写代码。AI越强，为什么越需要人？

一场百万行AI重构引发的争议

2026年5月，Bun的维护者Jarred Sumner公布了一组数字，让整个开发者社区坐不住了。

Claude Code在Bun项目里完成了100万行代码的重写。6755次AI提交。测试通过率99.8%。

这不是"辅助写几个函数"的量级。这是一次完整的基础设施级重构。

正常说，听到这个数字第一反应应该是"牛逼"。但社区的画风不太一样——热评前三都在问同一类问题：“测试通过就代表没问题？”“你们怎么知道AI没引入隐蔽的逻辑漏洞？”“这100万行代码，有人一行一行审查过吗？”

（来源：Jarred Sumner社交媒体声明 / GitHub PR #30412）

争论本身不新鲜。AI写代码这件事，每次技术跃迁都会触发一轮"安不安全""可不可靠"的讨论。但把这次Bun事件放在更大的图景里看——它不是孤例。它是AI编程进入深水区的一张快照。

这里有一个容易被忽略的背景：2025年12月，Anthropic收购了Bun——当时月下载量超700万次、GitHub星标超9.2万的开源项目。所以这次重写不只是一个技术实验，它还是一家AI公司用自己的工具、在自己的项目上做的"吃狗粮"测试。

但"吃狗粮"的结果比想象中更复杂。后续分析（bytecode.news, 2026年6月）指出，重写后的代码中包含了超过10,000个unsafe代码块，分布在700多个文件中。而同生态项目uv仅有73个——差了两个数量级。迁移策略要求AI"忠实移植"Zig代码，每当原始逻辑无法通过Rust借用检查器时，就使用unsafe绕过——而这些恰恰是借用检查器本该保护的地方。

这就把第一组问题摆到了台面上：以前AI写的是"一个登录函数"，你花30秒扫一眼就够了。现在AI写的是"100万行的运行时重构"——其中藏着上万个编译器绕过的unsafe区块——你打算怎么审？用同样的30秒扫一眼，还是花三个月逐行走查？

传统的工程质量标准——Code Review、测试覆盖率、静态分析——这些工具最初都是为"人类写代码"设计的。当代码的产出者从人变成模型，旧的质检手段就像用手电筒检验核反应堆：原理相通，但量级错位了。

不是AI写的代码一定不安全。是我们还没有一套为"AI是生产者"这个新现实设计的工程质量标准。

Anthropic的秘密：最先进的AI编程，靠1000个真人手把手教学

就在Bun争议持续发酵的同时，另一条新闻把同一家公司推到了聚光灯下。

据Business Insider报道，Anthropic正在通过一个代号"Marlin"的项目，招募约1000名软件工程师来训练Claude Code的编程能力。这些工程师以自由职业者身份在数据标注平台Snorkel AI上接任务，每项任务报酬280美元。

（来源：Business Insider，InfoQ中文报道）

这里值得注意的不是"AI公司花了多少钱"，而是"这钱花在了什么地方"。

Anthropic做出了最先进的AI编程模型。然后他们发现，这模型要继续往上走，靠的不是更多算力，不是更大的集群，而是靠1000个顶尖工程师——手把手教它怎么"写对"代码。

AI圈有个用了很久的叙事：AI会让程序员失业。Anthropic这组数字提供了一个值得细想的反问：如果AI真的在取代程序员，为什么最顶级的AI公司愿意花大价钱雇真人来教模型写代码？

答案藏在那个"Marlin"项目的任务设计里。

这些工程师不只是在做简单的对错标注。他们的任务包括：A/B比较两个模型生成的代码哪个更好、从数千个GitHub仓库中选择项目创建类似PR的编程任务、从正确性/安全性/可靠性/可维护性四个维度评估代码质量。

换言之，AI能生成代码，这件事在2025年就已经不是新闻了。真正难的是另一件事——判断代码在特定业务上下文中是否正确、安全、恰当。

生成一段实现某个接口的代码，模型能做。但判断这段代码会不会在生产环境里因为一个边界条件出错、会不会引入一个三个月后才触发的安全漏洞、适不适合当前团队的架构风格——这需要上下文，需要经验，需要一种说不清楚但做项目的人都知道的"工程直觉"。

每项任务280美元买的不是写代码的能力，买的是这种判断力。

这里需要注意一个层次区分：Anthropic工程师的判断力用在训练阶段——他们告诉模型"什么样的代码是好的"；而Bun争议中的判断力用在使用阶段——工程师需要判断"AI生成的代码能不能上线"。两个阶段的"判断力"内核相同：都是在不确定的上下文里，认定什么是对的。

最先进的AI编程工具，靠最贵的人类专家喂养——这个悖论不是AI的缺陷，而是AI编程进化的必然成本。

1000个人，每人按年化约58万美元（约400万人民币）估算，总共约5.8亿美元的投入——这不是"AI还不够好需要人工标注"的成本，这是"人类判断力"作为一种生产要素的市场定价。

腾讯的实践：AI率90%之后，最大的坑不是技术

理论讲完了，看一个工业级案例。

在2026年6月的腾讯云AI产业应用大会上，腾讯云副总裁刘毅公布了一组数据：2022年，腾讯内部对AI生成代码的接受率只有23%。到2025年底，大部分研发团队超过90%的代码由AI生成。三年时间，从边缘辅助变成了主力产出。

（来源：腾讯云AI产业应用大会，CSDN报道）

但真正值得关注的是他们接下来的动作。腾讯没有停下来庆祝"AI率突破90%"，而是把精力投在了如何让AI代码变得可验证、可约束上。

刘毅在大会上提到了三个硬约束：资深专家负责架构，AI不能大量改动架构，架构变动触发告警；生产代码的AI和评审代码的AI必须是不同的——“不能让同一个AI自己检查自己”；用AI大量生产自动化测试代码，在CI/CT阶段拦截风险。

这三条规则背后是同一个逻辑：AI生成代码的速度越快、比例越高，"你怎么验证它"的难题就越突出。不是验证一两段代码，是验证整个系统的AI产出。

蚂蚁数科几乎在同一时间公布了他们的Harness（缰绳）工程实践。Harness——缰绳。不是让马跑得更快，而是让骑马的人能控制方向和速度。

（来源：蚂蚁数科技术总监魏长征 / AICon 2026 上海站演讲预告，InfoQ报道）

Harness实践中可以提炼出三个关键思路：

第一，AI生成的代码不直接进生产环境，必须经过验收流程。这个流程上有自动检查，有规则，但最终批准权在人手里。

第二，AI产出必须可追溯。谁生产的、在什么上下文下生产的、依赖了哪些前提假设——全部要有记录。出问题的时候能倒查。

第三，人和AI的分工边界是动态的。模型能力提升一块，人类就把这块放手给模型，但监控不撤。

这三点放在一起，揭示了一个被很多人忽略的事实：

AI编程的瓶颈不在模型能力，在工程可信度。不是你写不快，是我不敢信。

腾讯和蚂蚁的实践不是在说"怎么让AI写更多代码"，而是在说"怎么让人放心地把AI代码部署到生产环境"。两句话听起来很像，但花钱的方向完全不同——前者花在算力上，后者花在工程体系和人的判断力上。

从"写代码"到"判代码"——编程价值链正在分裂

上面三个故事讲完，一条清晰的线索浮现出来。

编程这个工作的价值链，正在从中间裂开。裂成两层。

下层，AI接手的部分。 CRUD接口、样板代码、常规重构、测试用例生成——这些事情的边际成本正在被AI打到趋近于零。腾讯AI率从23%到90%用了三年，不是因为他们突然招了一堆高手，而是因为这一层的自动化速度远快于大多数人的预估。

上层，人类保留的部分。 架构决策该怎么做。安全边界该划在哪里。业务正确性怎么定义。AI生成的100万行代码该从哪开始审查——这些事情不仅没有被自动化，价值反而在上升。

这不是一个"AI更擅长写代码"的故事，这是一个"分工在重建"的故事。

工业革命前，做一双鞋是鞋匠从头到尾一个人干的事。工业革命后，机器负责切料、缝制，但鞋的设计、品控、市场定位——这些事留给了人，而且比之前更值钱。

代码世界类似的阶段在到来。流水线（AI）把"制造"的成本打下来了。但质检员（判断力）的重要性不会被冲淡，反而会更突出。因为你要质检的不是人写的、风格统一、逻辑可读的代码——你需要质检的是AI生成的大量代码，藏在哪个不起眼的函数调用里可能有一个"看起来没问题其实完全不正确"的逻辑。

这解释了前面那个"越AI越需要人"的悖论。

AI把"制造代码"的成本打下来了。但"判断代码"的成本反而涨上去了。因为你要审核的不再是风格统一的人类作品，而是AI在不确定上下文里生成的大量代码——藏在哪个不起眼的函数调用里可能有一个"看起来正确其实完全不对"的逻辑。

Anthropic的1000人、每项任务280美元，就是这个悖论的价格标签。Bun那10,000个unsafe代码块，就是这个悖论的技术证据。

AI编程的下半场：不是让AI更会写，是让人更会判断

AI编程的第一阶段，竞争主题是"能不能写"。GitHub Copilot、Cursor、Claude Code，大家在比谁的模型能生成更多更准确的代码。这个阶段基本结束了。模型能力还会继续进步，但方向已经很明确。

第二阶段正在开始。竞争主题变了——

不是怎么生成更好的代码，而是怎么建立可验证的AI工程质量标准。质量控制体系、可追溯的生产流程、审计规范、人机分工协议——这些东西跟模型本身没关系，但它们决定了一个团队的AI代码敢不敢上生产环境。

对于工程师个体来说，有两个值得注意的变化。

好消息是你不会被取代。只要你不是只做"从PRD到代码"的纯粹翻译工作，AI把下层自动化反而把你推向了价值链的更高处。你的工作从"写出正确答案"变成了"判断什么才是正确的答案"。

挑战在于，转型不是自动发生的。“从写得好到判得准”，需要的不只是写代码的能力——需要领域知识、架构判断力、对失败的嗅觉。不是每个工程师都能平滑迁移过去。

回到开头。

Anthropic那1000个人不是AI编程的耻辱。他们是AI编程走向成熟的证据。

一个行业从手工阶段进入工业阶段的时候，最有价值的人不是操作机器的，是定义标准和裁判质量的。

那些按每项任务280美元计酬的标注工程师，他们不是在给AI打下手——他们在教AI什么东西叫"对了"。

而"判断什么是对的"这件事，恰恰是AI最不擅长、人类最近几千年一直在做的事。

💬 聊一聊
你觉得AI会让程序员失业，还是会让好程序员更值钱？
我倾向于后者——但这件事真正发生，可能比我们想象的更复杂。
你怎么看？留言区告诉我 👇

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 代码审查与质量保障 — 主流 AI 应用方向深度调研

AtomGit开源社区

一键总结B站视频，让AI帮你做笔记，附实操教程

AtomGit开源社区

程序员AI时代35岁出路指南

AtomGit开源社区

所有评论(0)

查看更多评论

System_0826

@System_0826

已为社区贡献9条内容

【AI 杂谈】Claude Code重写了100万行代码，然后Anthropic悄悄招了1000个程序员

System_0826

一场百万行AI重构引发的争议

Anthropic的秘密：最先进的AI编程，靠1000个真人手把手教学

腾讯的实践：AI率90%之后，最大的坑不是技术

从"写代码"到"判代码"——编程价值链正在分裂

AI编程的下半场：不是让AI更会写，是让人更会判断

所有评论(0)

温馨提示：您尚未绑定手机号

System_0826