AI 写代码开始按“油耗”收费,程序员的价值被重新算账

很多人这两年讨论 AI 编程,最常见的一句话是:
“以后代码都让 AI 写了,程序员是不是不值钱了?”
但最近行业里出现了一个很有意思的反转。
真正开始焦虑的,可能不是程序员,而是 CTO、研发负责人和财务部门。
因为 AI 编程工具正在从“包月随便用”,逐渐走向“按实际消耗计费”。GitHub 官方已经宣布,Copilot 将从 2026 年 6 月 1 日开始转向 usage-based billing,也就是基于 GitHub AI Credits 的使用量计费,消耗会和输入 token、输出 token、缓存 token 等实际用量挂钩。([The GitHub Blog][1])
这意味着一件事:
AI 写代码不再只是“买个会员”的问题,而是进入了工程成本管理阶段。
一、AI 编程的免费感,正在消失
过去很多人用 AI 写代码,会有一种错觉:
一个月几十块钱,就能让 AI 帮我写代码、改 bug、生成测试用例、解释报错、重构模块,甚至跑一段时间的 Agent。
这看起来很便宜。
但便宜的原因,并不是 AI 真的没有成本,而是平台在背后替用户承担了一部分成本。
原来的订阅制,本质上更像“平均分摊”:
-
有人每天高频使用 AI;
-
有人一周只问几次;
-
有人只是补全几行代码;
-
有人让 Agent 连续跑几个小时。
在同一个订阅价格下,高频用户的成本,会被低频用户和平台一起摊掉。
这种模式在早期很适合拉新,也很适合培养用户习惯。但当 AI 编程开始进入真实研发流程,尤其是 Agent 开始承担复杂任务之后,这个账就越来越难算了。
GitHub 在官方说明里也提到,一个简单聊天问题和一个长时间自主编码会话,在旧模式下可能消耗同样的请求额度,但背后的推理成本完全不是一个量级。([The GitHub Blog][1])
换句话说:
以前是按“问了几次”收费,未来更接近按“烧了多少算力”收费。
二、为什么 Agent 写代码会特别烧钱?
普通聊天模型的成本比较容易理解。
你问一句,它答一句。 输入多少,输出多少,大致还能估算。
但 AI Coding Agent 不一样。
你给它一个任务,比如:
““帮我分析这个项目,补一套接口自动化测试,并修复失败用例。”
表面上看,你只是输入了一句话。 但 Agent 在背后可能做了很多动作:

这里每一步都可能消耗 token。
更关键的是,Agent 并不是每一步都一定走对。
它可能读错文件、判断错依赖、生成无效代码、反复修改同一段逻辑,甚至为了确认一个问题连续调用工具多轮。
这就是 AI 编程成本最容易失控的地方:
用户看到的是一个结果,平台计算的是整个过程。
The Verge 在分析 AI 成本时也提到,Agent 和推理模型会消耗大量用户看不见的 token,包括后台推理、多步骤调用、工具交互和重复验证。([The Verge][2])
三、Token 账单到底烧在哪里?
很多人以为 AI 成本只来自“输出的那段代码”。
其实不是。
真正贵的地方,往往藏在这些位置。
|
成本来源 |
具体表现 |
为什么容易失控 |
|---|---|---|
|
输入 token |
需求、上下文、代码文件、日志、接口文档 |
项目越大,上下文越重 |
|
输出 token |
代码、解释、测试用例、报告 |
输出越长,成本越高 |
|
推理 token |
模型内部分析、规划、判断 |
用户通常看不见,但会计入成本 |
|
工具调用 token |
读取文件、执行命令、访问接口、解析结果 |
Agent 多轮循环时增长很快 |
|
缓存 token |
复用上下文、保留历史状态 |
长会话和大项目更明显 |
|
视觉/多模态 token |
截图、页面分析、图像理解 |
UI 测试、视觉回归成本更高 |
所以,AI 编程不是“让模型写一段代码”这么简单。
它更像一次自动化研发流程:
理解需求 → 读取上下文 → 推理方案 → 调用工具 → 执行验证 → 反复修正。
每多一轮,都是成本。
四、AI 不是不划算,而是不能再“无脑用”
这里要说清楚一点:
AI 编程工具涨价、转向用量计费,并不代表 AI 不值得用。
恰恰相反,这说明 AI 已经从“尝鲜工具”进入了“生产工具”阶段。
生产工具有一个特点:
不能只看功能强不强,还要看投入产出比。
比如,同样是让 AI 写代码,下面两种用法差别非常大。
第一种是低质量用法:
-
需求没说清楚;
-
上下文一次性塞太多;
-
让 AI 盲目改整个项目;
-
生成代码不做验证;
-
出错后继续让 AI 猜;
-
一个任务反复跑十几轮。
这种情况下,AI 消耗了大量 token,但产出未必稳定。
第二种是工程化用法:
-
先拆小任务;
-
明确输入、输出和边界;
-
控制上下文范围;
-
指定只改哪些文件;
-
让 AI 先生成方案再执行;
-
配合测试用例验证结果;
-
对失败原因做结构化反馈。
这时候,AI 才更像一个高效助手,而不是一个不受控的成本黑洞。
Anthropic 近期也提高了 Claude Code 使用成本预估,Business Insider 报道称,其公开说明中企业开发者平均活跃日成本约为 13 美元,90% 用户低于 30 美元/活跃日,这反映了更强模型和更复杂使用方式带来的成本变化。([Business Insider][3])
五、程序员的价值,不是被 AI 抹掉,而是被重新定义
以前很多人讨论 AI 替代程序员,总喜欢把问题简化成:
“AI 会不会写代码?
这个问题已经不够准确了。
现在更应该问:
“谁能把 AI 写代码这件事,用得更稳、更准、更省?
因为 AI 会写代码,不代表它知道该写什么。 AI 能生成方案,不代表方案一定符合业务。 AI 能修改项目,不代表修改后系统一定可靠。
真正有价值的人,反而是能把 AI 纳入工程流程的人。
比如:
-
能判断 AI 生成的代码是否合理;
-
能设计验证路径;
-
能控制上下文范围;
-
能拆解复杂任务;
-
能发现 AI 改错的地方;
-
能把 AI 输出接入 CI/CD;
-
能评估成本、效率和风险。
也就是说,程序员的价值不再只是“手写代码速度”,而是:
需求理解能力、系统设计能力、工程判断能力、质量保障能力、成本控制能力。
AI 提高的是编码速度。 但软件工程真正难的,从来不只是编码。
六、对测试开发来说,这是一个很重要的信号
这件事对测试同学尤其关键。
因为测试开发天然就处在一个交叉位置:
-
一边理解业务质量;
-
一边理解自动化工程;
-
一边还要理解工具平台;
-
现在还要理解 AI Agent 的使用边界。
未来做 AI 测试、AI 自动化、AI 质量平台,不能只会问 AI:
““帮我生成测试用例。”
更重要的是要知道:
-
哪类场景适合用 AI 生成?
-
哪类场景必须人工审核?
-
生成的用例如何去重?
-
AI 生成的断言是否可靠?
-
Agent 执行失败后如何定位?
-
多轮调用成本如何统计?
-
AI 测试平台如何做限额、审计和观测?
这就把测试开发带到了一个新位置:
测试不只是验证代码,也要验证 AI 生成过程本身是否可靠。
可以把 AI 测试平台理解成下面这个结构:

过去我们只看测试是否通过。 未来还要看:
AI 花了多少钱,生成了多少有效结果,节省了多少真实人力。
七、团队应该怎么用 AI 编程?
如果企业已经在使用 Copilot、Claude Code、Codex、Cursor 或其他 AI 编程工具,接下来要做的不是停用,而是建立使用规则。
1. 不要让 AI 无限读上下文
很多人喜欢把整个项目、整段日志、整份文档都塞给 AI。
这会让模型“看起来更懂”,但也会让成本快速上涨。
更好的方式是:
-
只给当前任务相关文件;
-
先让 AI 说明需要哪些上下文;
-
大文件先摘要再输入;
-
长日志先过滤关键错误;
-
接口文档按模块拆分。
2. 不要让 Agent 无限循环
Agent 最容易烧钱的地方,就是循环。
比如:

如果没有停止条件,它可能一轮又一轮地试。
团队应该设置:
-
最大执行轮次;
-
最大 token 预算;
-
最大文件修改范围;
-
失败后转人工确认;
-
关键任务必须生成变更摘要。
3. 模型要分层使用
不是所有任务都需要最贵的模型。
可以简单分成三层:
|
任务类型 |
推荐方式 |
|---|---|
|
简单解释、代码补全、语法转换 |
使用轻量模型 |
|
单文件修改、测试用例生成、日志分析 |
使用中等模型 |
|
架构设计、复杂 bug 定位、多文件重构 |
使用高阶推理模型 |
高阶模型应该用在真正复杂的任务上,而不是所有问题都默认调用最贵模型。
4. AI 输出必须进入测试闭环
AI 生成代码之后,不能只看“写得像不像”。
必须进入工程验证:
-
单元测试;
-
接口测试;
-
UI 自动化;
-
静态扫描;
-
代码 Review;
-
性能基线;
-
安全检查。
这也是测试开发的机会。
AI 写得越快,验证体系就越重要。
八、以后优秀工程师要多一个能力:会算 AI 成本
过去我们做工程,经常算这些账:
-
服务器成本;
-
数据库成本;
-
存储成本;
-
带宽成本;
-
人力成本;
-
测试成本。
现在还要多一个:
AI token 成本。
这不是财务部门一个人的事,而是研发团队必须理解的工程指标。
未来一个 AI 编程平台,至少要有这些看板:

不能只看“用了多少 AI”。
更要看:
-
这些 token 解决了什么问题?
-
是否减少了返工?
-
是否提升了交付速度?
-
是否降低了缺陷率?
-
是否真的替代了重复劳动?
否则,AI 用得越多,不一定代表团队越先进,也可能只是账单越高。
九、真正的变化:AI 编程从工具红利进入工程管理
这轮变化背后,其实是 AI 行业的一个转折点。
早期 AI 工具靠低价、免费额度、包月订阅快速扩张。 但随着用户规模增长、Agent 使用增加、推理模型变重,成本不可能永远由平台承担。
GitHub 转向用量计费,Anthropic 调整 Claude Code 成本预估,本质上都在说明同一件事:
AI 编程正在从“工具红利期”,进入“成本治理期”。
Gartner 也预测,虽然长期来看大模型推理成本会因芯片、基础设施和模型设计改进而下降,但 AI token 仍然是生成式 AI 系统处理数据的核心单位。([高德纳][4])
这意味着未来不是不用 AI,而是更专业地用 AI。
谁能把 AI 接进研发流程,谁就能提高效率。 谁能控制 AI 的成本和质量,谁才真正具备工程优势。
十、AI 不是程序员的替代品,而是工程能力的放大器
AI 写代码越来越强,这是事实。 AI 使用成本越来越透明,也是事实。
但这两个事实合在一起,反而说明:
真正值钱的,不是单纯会写代码的人,也不是盲目依赖 AI 的人,而是能驾驭 AI 完成高质量交付的人。
未来的研发团队,不会只比较谁用不用 AI。
而是比较:
-
谁的需求拆解更清楚;
-
谁的上下文管理更精确;
-
谁的自动化验证更完善;
-
谁的 AI 成本更可控;
-
谁能把 AI 产出变成稳定交付。
AI 可以帮你写代码。 但它不能替你承担工程判断。
这也正是程序员、测试开发和质量工程师在 AI 时代的新价值。
本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料,主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容,侧重测试实践、工具应用与工程经验整理。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)