Token成本省了 98.7%:我的 AI 团队替我写代码

mydeman

362人浏览 · 2026-05-23 19:22:28

mydeman · 2026-05-23 19:22:28 发布

一、这是个什么项目

今天终于把 Maestro 的 1.0 发出来了,想认真写一篇复盘。

缘起很简单。我一直在用 Claude Code 做开发,但有个绕不开的痛点:旗舰模型(Opus)又贵又强,可开发里大量的活——按规格写代码、对着规格审代码——其实并不需要旗舰级的判断力,用它来干纯属浪费钱。与此同时,"以后开发者不用手写代码"的说法越来越热。我就想验证一件事:能不能把开发拆成"判断"和"执行"两层,判断留给最强的模型和我自己,执行甩给便宜得多的模型,既省钱又不掉质量?

目标也因此很明确:做一个 MCP server,接进 Claude Code,把开发中产生的子任务自动分流到合适成本的模型上,目标是"接近旗舰质量,但只花 10–20% 的成本"。

访问地址:https://github.com/kmeng/maestro

结果,先把最硬的一个数摆这儿:跨 81 个已关闭任务、207 次 dispatch、约 143 万 token,实际只花了 $0.87;同样的 token 按 Opus 费率折算,基线约 $66.22——也就是说,在被分流出去的这部分工作上,成本降了约 98.7%。而且这个数字是可复现的:审计日志进了 git,渲染脚本是确定性的,你 clone 下来自己跑一遍,结果和我的一字不差。

二、它是怎么做到的

核心机制,其实就一条分界线:判断密集的活留在顶层,执行密集的活往下沉。

我在项目的一份架构决策记录(ADR)里把这条线定成了硬原则——架构设计和产品设计是好系统的根基,不能把核心角色委派给能力不足的 agent。落到具体角色上,是这样分工的:

orchestrator(Claude Opus)+ 我:做分析、写设计文档、把一个需求拆解成给程序员的精确规格(spec)、做集成、以及对每一次合并做最终审批。这一层是判断密集的,不下放。
coder(DeepSeek):接到 orchestrator 写好的 spec,把代码真正写出来。执行密集,所以用便宜模型。
reviewer(DeepSeek):在代码合并前,拿着原始 spec 去逐条核对 coder 的产出有没有跑偏。

一次典型的任务流是这样走的:我和 orchestrator 把要做的事想清楚、写成 spec → 派给 coder 生成代码 → 派给 reviewer 对着 spec 审一遍 → 我做最终审批、合并。1.0 里的每一行代码改动,都走完了这条"coder 写、reviewer 过、我审批"的链路。 这条强制 review 的质量门不是设计文档上的摆设,是真在跑的东西。

每一次 dispatch 的 token 数、耗时、成本,都会被自动写进一份 append-only 的审计日志(JSONL),省钱页面就是从这份日志确定性渲染出来的。这也是为什么我敢说那个 98.7% 可复现——它不是我手算的,是从原始数据机械生成的。

三、那么,真的"一行代码都不写"吗?

这是我觉得最该掰开讲的部分,也是我对那个热门说法最诚实的回应。我列两个我自己撞上的真相。

真相一:省钱的 98.7%,有一块大成本根本没算进去。

如果我把 98.7% 当成"用了 Maestro 你的总 AI 成本省 98.7%"来宣传,那是骗人的。真实情况是:这个数字只覆盖了被派出去那部分工作的成本。orchestrator 那一侧——也就是 Claude Code 主会话本身的推理、读代码、整合、写 PR——消耗的 Opus,完全没算进去,因为那部分在订阅账单里没法按 dispatch 归因。我在项目里专门写了一份 methodology,把这类"没算进去的成本"逐条列出来,并说明它们只会让数字更紧、不会更虚。我宁可报一个有窟窿但诚实的数,也不报一个好看但经不起扒的数。

真相二:"不写代码"是真的,但"不动脑"是假的。

我确实几乎没手敲业务代码,那些都是 coder 写的。但项目里最不可替代的活——架构怎么设计、产品往哪走、每个 spec 怎么写、甚至"哪些任务小到根本不值得派出去"(我早期就发现过,有些改动太小,拆给 worker 的协调开销比省下的还多)——这些判断全是我和最强模型一起做的。所以"开发者不用写代码"这句话,在我这儿的准确版本是:我从一个敲代码的人,变成了一个组织 AI 团队、并为每个关键判断负责的人。 手没怎么动,脑子比以前累多了。