【AI 杂谈】Claude Code重写了100万行代码,然后Anthropic悄悄招了1000个程序员
Claude Code帮Bun重写了100万行代码,测试通过率99.8%。但社区的质疑比赞美更多。Anthropic随即被曝花5.8亿美元雇1000个程序员教AI写代码。AI越强,为什么越需要人?
一场百万行AI重构引发的争议
2026年5月,Bun的维护者Jarred Sumner公布了一组数字,让整个开发者社区坐不住了。
Claude Code在Bun项目里完成了100万行代码的重写。6755次AI提交。测试通过率99.8%。
这不是"辅助写几个函数"的量级。这是一次完整的基础设施级重构。
正常说,听到这个数字第一反应应该是"牛逼"。但社区的画风不太一样——热评前三都在问同一类问题:“测试通过就代表没问题?”“你们怎么知道AI没引入隐蔽的逻辑漏洞?”“这100万行代码,有人一行一行审查过吗?”
(来源:Jarred Sumner社交媒体声明 / GitHub PR #30412)
争论本身不新鲜。AI写代码这件事,每次技术跃迁都会触发一轮"安不安全""可不可靠"的讨论。但把这次Bun事件放在更大的图景里看——它不是孤例。它是AI编程进入深水区的一张快照。
这里有一个容易被忽略的背景:2025年12月,Anthropic收购了Bun——当时月下载量超700万次、GitHub星标超9.2万的开源项目。所以这次重写不只是一个技术实验,它还是一家AI公司用自己的工具、在自己的项目上做的"吃狗粮"测试。
但"吃狗粮"的结果比想象中更复杂。后续分析(bytecode.news, 2026年6月)指出,重写后的代码中包含了超过10,000个unsafe代码块,分布在700多个文件中。而同生态项目uv仅有73个——差了两个数量级。迁移策略要求AI"忠实移植"Zig代码,每当原始逻辑无法通过Rust借用检查器时,就使用unsafe绕过——而这些恰恰是借用检查器本该保护的地方。
这就把第一组问题摆到了台面上:以前AI写的是"一个登录函数",你花30秒扫一眼就够了。现在AI写的是"100万行的运行时重构"——其中藏着上万个编译器绕过的unsafe区块——你打算怎么审?用同样的30秒扫一眼,还是花三个月逐行走查?
传统的工程质量标准——Code Review、测试覆盖率、静态分析——这些工具最初都是为"人类写代码"设计的。当代码的产出者从人变成模型,旧的质检手段就像用手电筒检验核反应堆:原理相通,但量级错位了。
不是AI写的代码一定不安全。是我们还没有一套为"AI是生产者"这个新现实设计的工程质量标准。
Anthropic的秘密:最先进的AI编程,靠1000个真人手把手教学
就在Bun争议持续发酵的同时,另一条新闻把同一家公司推到了聚光灯下。
据Business Insider报道,Anthropic正在通过一个代号"Marlin"的项目,招募约1000名软件工程师来训练Claude Code的编程能力。这些工程师以自由职业者身份在数据标注平台Snorkel AI上接任务,每项任务报酬280美元。
(来源:Business Insider,InfoQ中文报道)
这里值得注意的不是"AI公司花了多少钱",而是"这钱花在了什么地方"。
Anthropic做出了最先进的AI编程模型。然后他们发现,这模型要继续往上走,靠的不是更多算力,不是更大的集群,而是靠1000个顶尖工程师——手把手教它怎么"写对"代码。
AI圈有个用了很久的叙事:AI会让程序员失业。Anthropic这组数字提供了一个值得细想的反问:如果AI真的在取代程序员,为什么最顶级的AI公司愿意花大价钱雇真人来教模型写代码?
答案藏在那个"Marlin"项目的任务设计里。
这些工程师不只是在做简单的对错标注。他们的任务包括:A/B比较两个模型生成的代码哪个更好、从数千个GitHub仓库中选择项目创建类似PR的编程任务、从正确性/安全性/可靠性/可维护性四个维度评估代码质量。
换言之,AI能生成代码,这件事在2025年就已经不是新闻了。真正难的是另一件事——判断代码在特定业务上下文中是否正确、安全、恰当。
生成一段实现某个接口的代码,模型能做。但判断这段代码会不会在生产环境里因为一个边界条件出错、会不会引入一个三个月后才触发的安全漏洞、适不适合当前团队的架构风格——这需要上下文,需要经验,需要一种说不清楚但做项目的人都知道的"工程直觉"。
每项任务280美元买的不是写代码的能力,买的是这种判断力。
这里需要注意一个层次区分:Anthropic工程师的判断力用在训练阶段——他们告诉模型"什么样的代码是好的";而Bun争议中的判断力用在使用阶段——工程师需要判断"AI生成的代码能不能上线"。两个阶段的"判断力"内核相同:都是在不确定的上下文里,认定什么是对的。
最先进的AI编程工具,靠最贵的人类专家喂养——这个悖论不是AI的缺陷,而是AI编程进化的必然成本。
1000个人,每人按年化约58万美元(约400万人民币)估算,总共约5.8亿美元的投入——这不是"AI还不够好需要人工标注"的成本,这是"人类判断力"作为一种生产要素的市场定价。
腾讯的实践:AI率90%之后,最大的坑不是技术
理论讲完了,看一个工业级案例。
在2026年6月的腾讯云AI产业应用大会上,腾讯云副总裁刘毅公布了一组数据:2022年,腾讯内部对AI生成代码的接受率只有23%。到2025年底,大部分研发团队超过90%的代码由AI生成。三年时间,从边缘辅助变成了主力产出。
(来源:腾讯云AI产业应用大会,CSDN报道)
但真正值得关注的是他们接下来的动作。腾讯没有停下来庆祝"AI率突破90%",而是把精力投在了如何让AI代码变得可验证、可约束上。
刘毅在大会上提到了三个硬约束:资深专家负责架构,AI不能大量改动架构,架构变动触发告警;生产代码的AI和评审代码的AI必须是不同的——“不能让同一个AI自己检查自己”;用AI大量生产自动化测试代码,在CI/CT阶段拦截风险。
这三条规则背后是同一个逻辑:AI生成代码的速度越快、比例越高,"你怎么验证它"的难题就越突出。不是验证一两段代码,是验证整个系统的AI产出。
蚂蚁数科几乎在同一时间公布了他们的Harness(缰绳)工程实践。Harness——缰绳。不是让马跑得更快,而是让骑马的人能控制方向和速度。
(来源:蚂蚁数科技术总监魏长征 / AICon 2026 上海站演讲预告,InfoQ报道)
Harness实践中可以提炼出三个关键思路:
第一,AI生成的代码不直接进生产环境,必须经过验收流程。这个流程上有自动检查,有规则,但最终批准权在人手里。
第二,AI产出必须可追溯。谁生产的、在什么上下文下生产的、依赖了哪些前提假设——全部要有记录。出问题的时候能倒查。
第三,人和AI的分工边界是动态的。模型能力提升一块,人类就把这块放手给模型,但监控不撤。
这三点放在一起,揭示了一个被很多人忽略的事实:
AI编程的瓶颈不在模型能力,在工程可信度。不是你写不快,是我不敢信。
腾讯和蚂蚁的实践不是在说"怎么让AI写更多代码",而是在说"怎么让人放心地把AI代码部署到生产环境"。两句话听起来很像,但花钱的方向完全不同——前者花在算力上,后者花在工程体系和人的判断力上。
从"写代码"到"判代码"——编程价值链正在分裂
上面三个故事讲完,一条清晰的线索浮现出来。
编程这个工作的价值链,正在从中间裂开。裂成两层。
下层,AI接手的部分。 CRUD接口、样板代码、常规重构、测试用例生成——这些事情的边际成本正在被AI打到趋近于零。腾讯AI率从23%到90%用了三年,不是因为他们突然招了一堆高手,而是因为这一层的自动化速度远快于大多数人的预估。
上层,人类保留的部分。 架构决策该怎么做。安全边界该划在哪里。业务正确性怎么定义。AI生成的100万行代码该从哪开始审查——这些事情不仅没有被自动化,价值反而在上升。
这不是一个"AI更擅长写代码"的故事,这是一个"分工在重建"的故事。
工业革命前,做一双鞋是鞋匠从头到尾一个人干的事。工业革命后,机器负责切料、缝制,但鞋的设计、品控、市场定位——这些事留给了人,而且比之前更值钱。
代码世界类似的阶段在到来。流水线(AI)把"制造"的成本打下来了。但质检员(判断力)的重要性不会被冲淡,反而会更突出。因为你要质检的不是人写的、风格统一、逻辑可读的代码——你需要质检的是AI生成的大量代码,藏在哪个不起眼的函数调用里可能有一个"看起来没问题其实完全不正确"的逻辑。
这解释了前面那个"越AI越需要人"的悖论。
AI把"制造代码"的成本打下来了。但"判断代码"的成本反而涨上去了。因为你要审核的不再是风格统一的人类作品,而是AI在不确定上下文里生成的大量代码——藏在哪个不起眼的函数调用里可能有一个"看起来正确其实完全不对"的逻辑。
Anthropic的1000人、每项任务280美元,就是这个悖论的价格标签。Bun那10,000个unsafe代码块,就是这个悖论的技术证据。
AI编程的下半场:不是让AI更会写,是让人更会判断
AI编程的第一阶段,竞争主题是"能不能写"。GitHub Copilot、Cursor、Claude Code,大家在比谁的模型能生成更多更准确的代码。这个阶段基本结束了。模型能力还会继续进步,但方向已经很明确。
第二阶段正在开始。竞争主题变了——
不是怎么生成更好的代码,而是怎么建立可验证的AI工程质量标准。质量控制体系、可追溯的生产流程、审计规范、人机分工协议——这些东西跟模型本身没关系,但它们决定了一个团队的AI代码敢不敢上生产环境。
对于工程师个体来说,有两个值得注意的变化。
好消息是你不会被取代。只要你不是只做"从PRD到代码"的纯粹翻译工作,AI把下层自动化反而把你推向了价值链的更高处。你的工作从"写出正确答案"变成了"判断什么才是正确的答案"。
挑战在于,转型不是自动发生的。“从写得好到判得准”,需要的不只是写代码的能力——需要领域知识、架构判断力、对失败的嗅觉。不是每个工程师都能平滑迁移过去。
回到开头。
Anthropic那1000个人不是AI编程的耻辱。他们是AI编程走向成熟的证据。
一个行业从手工阶段进入工业阶段的时候,最有价值的人不是操作机器的,是定义标准和裁判质量的。
那些按每项任务280美元计酬的标注工程师,他们不是在给AI打下手——他们在教AI什么东西叫"对了"。
而"判断什么是对的"这件事,恰恰是AI最不擅长、人类最近几千年一直在做的事。
💬 聊一聊
你觉得AI会让程序员失业,还是会让好程序员更值钱?
我倾向于后者——但这件事真正发生,可能比我们想象的更复杂。
你怎么看?留言区告诉我 👇
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)