很多人这两年讨论 AI 编程,最常见的一句话是:

“以后代码都让 AI 写了,程序员是不是不值钱了?”

但最近行业里出现了一个很有意思的反转。

真正开始焦虑的,可能不是程序员,而是 CTO、研发负责人和财务部门。

因为 AI 编程工具正在从“包月随便用”,逐渐走向“按实际消耗计费”。GitHub 官方已经宣布,Copilot 将从 2026 年 6 月 1 日开始转向 usage-based billing,也就是基于 GitHub AI Credits 的使用量计费,消耗会和输入 token、输出 token、缓存 token 等实际用量挂钩。([The GitHub Blog][1])

这意味着一件事:

AI 写代码不再只是“买个会员”的问题,而是进入了工程成本管理阶段。


一、AI 编程的免费感,正在消失

过去很多人用 AI 写代码,会有一种错觉:

一个月几十块钱,就能让 AI 帮我写代码、改 bug、生成测试用例、解释报错、重构模块,甚至跑一段时间的 Agent。

这看起来很便宜。

但便宜的原因,并不是 AI 真的没有成本,而是平台在背后替用户承担了一部分成本。

原来的订阅制,本质上更像“平均分摊”:

  • 有人每天高频使用 AI;

  • 有人一周只问几次;

  • 有人只是补全几行代码;

  • 有人让 Agent 连续跑几个小时。

在同一个订阅价格下,高频用户的成本,会被低频用户和平台一起摊掉。

这种模式在早期很适合拉新,也很适合培养用户习惯。但当 AI 编程开始进入真实研发流程,尤其是 Agent 开始承担复杂任务之后,这个账就越来越难算了。

GitHub 在官方说明里也提到,一个简单聊天问题和一个长时间自主编码会话,在旧模式下可能消耗同样的请求额度,但背后的推理成本完全不是一个量级。([The GitHub Blog][1])

换句话说:

以前是按“问了几次”收费,未来更接近按“烧了多少算力”收费。


二、为什么 Agent 写代码会特别烧钱?

普通聊天模型的成本比较容易理解。

你问一句,它答一句。 输入多少,输出多少,大致还能估算。

但 AI Coding Agent 不一样。

你给它一个任务,比如:

“帮我分析这个项目,补一套接口自动化测试,并修复失败用例。”

表面上看,你只是输入了一句话。 但 Agent 在背后可能做了很多动作:

图片

这里每一步都可能消耗 token。

更关键的是,Agent 并不是每一步都一定走对。

它可能读错文件、判断错依赖、生成无效代码、反复修改同一段逻辑,甚至为了确认一个问题连续调用工具多轮。

这就是 AI 编程成本最容易失控的地方:

用户看到的是一个结果,平台计算的是整个过程。

The Verge 在分析 AI 成本时也提到,Agent 和推理模型会消耗大量用户看不见的 token,包括后台推理、多步骤调用、工具交互和重复验证。([The Verge][2])


三、Token 账单到底烧在哪里?

很多人以为 AI 成本只来自“输出的那段代码”。

其实不是。

真正贵的地方,往往藏在这些位置。

成本来源

具体表现

为什么容易失控

输入 token

需求、上下文、代码文件、日志、接口文档

项目越大,上下文越重

输出 token

代码、解释、测试用例、报告

输出越长,成本越高

推理 token

模型内部分析、规划、判断

用户通常看不见,但会计入成本

工具调用 token

读取文件、执行命令、访问接口、解析结果

Agent 多轮循环时增长很快

缓存 token

复用上下文、保留历史状态

长会话和大项目更明显

视觉/多模态 token

截图、页面分析、图像理解

UI 测试、视觉回归成本更高

所以,AI 编程不是“让模型写一段代码”这么简单。

它更像一次自动化研发流程:

理解需求 → 读取上下文 → 推理方案 → 调用工具 → 执行验证 → 反复修正。

每多一轮,都是成本。


四、AI 不是不划算,而是不能再“无脑用”

这里要说清楚一点:

AI 编程工具涨价、转向用量计费,并不代表 AI 不值得用。

恰恰相反,这说明 AI 已经从“尝鲜工具”进入了“生产工具”阶段。

生产工具有一个特点:

不能只看功能强不强,还要看投入产出比。

比如,同样是让 AI 写代码,下面两种用法差别非常大。

第一种是低质量用法:

  • 需求没说清楚;

  • 上下文一次性塞太多;

  • 让 AI 盲目改整个项目;

  • 生成代码不做验证;

  • 出错后继续让 AI 猜;

  • 一个任务反复跑十几轮。

这种情况下,AI 消耗了大量 token,但产出未必稳定。

第二种是工程化用法:

  • 先拆小任务;

  • 明确输入、输出和边界;

  • 控制上下文范围;

  • 指定只改哪些文件;

  • 让 AI 先生成方案再执行;

  • 配合测试用例验证结果;

  • 对失败原因做结构化反馈。

这时候,AI 才更像一个高效助手,而不是一个不受控的成本黑洞。

Anthropic 近期也提高了 Claude Code 使用成本预估,Business Insider 报道称,其公开说明中企业开发者平均活跃日成本约为 13 美元,90% 用户低于 30 美元/活跃日,这反映了更强模型和更复杂使用方式带来的成本变化。([Business Insider][3])


五、程序员的价值,不是被 AI 抹掉,而是被重新定义

以前很多人讨论 AI 替代程序员,总喜欢把问题简化成:

AI 会不会写代码?

这个问题已经不够准确了。

现在更应该问:

谁能把 AI 写代码这件事,用得更稳、更准、更省?

因为 AI 会写代码,不代表它知道该写什么。 AI 能生成方案,不代表方案一定符合业务。 AI 能修改项目,不代表修改后系统一定可靠。

真正有价值的人,反而是能把 AI 纳入工程流程的人。

比如:

  • 能判断 AI 生成的代码是否合理;

  • 能设计验证路径;

  • 能控制上下文范围;

  • 能拆解复杂任务;

  • 能发现 AI 改错的地方;

  • 能把 AI 输出接入 CI/CD;

  • 能评估成本、效率和风险。

也就是说,程序员的价值不再只是“手写代码速度”,而是:

需求理解能力、系统设计能力、工程判断能力、质量保障能力、成本控制能力。

AI 提高的是编码速度。 但软件工程真正难的,从来不只是编码。


六、对测试开发来说,这是一个很重要的信号

这件事对测试同学尤其关键。

因为测试开发天然就处在一个交叉位置:

  • 一边理解业务质量;

  • 一边理解自动化工程;

  • 一边还要理解工具平台;

  • 现在还要理解 AI Agent 的使用边界。

未来做 AI 测试、AI 自动化、AI 质量平台,不能只会问 AI:

“帮我生成测试用例。”

更重要的是要知道:

  • 哪类场景适合用 AI 生成?

  • 哪类场景必须人工审核?

  • 生成的用例如何去重?

  • AI 生成的断言是否可靠?

  • Agent 执行失败后如何定位?

  • 多轮调用成本如何统计?

  • AI 测试平台如何做限额、审计和观测?

这就把测试开发带到了一个新位置:

测试不只是验证代码,也要验证 AI 生成过程本身是否可靠。

可以把 AI 测试平台理解成下面这个结构:

图片

过去我们只看测试是否通过。 未来还要看:

AI 花了多少钱,生成了多少有效结果,节省了多少真实人力。


七、团队应该怎么用 AI 编程?

如果企业已经在使用 Copilot、Claude Code、Codex、Cursor 或其他 AI 编程工具,接下来要做的不是停用,而是建立使用规则。

1. 不要让 AI 无限读上下文

很多人喜欢把整个项目、整段日志、整份文档都塞给 AI。

这会让模型“看起来更懂”,但也会让成本快速上涨。

更好的方式是:

  • 只给当前任务相关文件;

  • 先让 AI 说明需要哪些上下文;

  • 大文件先摘要再输入;

  • 长日志先过滤关键错误;

  • 接口文档按模块拆分。

2. 不要让 Agent 无限循环

Agent 最容易烧钱的地方,就是循环。

比如:

图片

如果没有停止条件,它可能一轮又一轮地试。

团队应该设置:

  • 最大执行轮次;

  • 最大 token 预算;

  • 最大文件修改范围;

  • 失败后转人工确认;

  • 关键任务必须生成变更摘要。

3. 模型要分层使用

不是所有任务都需要最贵的模型。

可以简单分成三层:

任务类型

推荐方式

简单解释、代码补全、语法转换

使用轻量模型

单文件修改、测试用例生成、日志分析

使用中等模型

架构设计、复杂 bug 定位、多文件重构

使用高阶推理模型

高阶模型应该用在真正复杂的任务上,而不是所有问题都默认调用最贵模型。

4. AI 输出必须进入测试闭环

AI 生成代码之后,不能只看“写得像不像”。

必须进入工程验证:

  • 单元测试;

  • 接口测试;

  • UI 自动化;

  • 静态扫描;

  • 代码 Review;

  • 性能基线;

  • 安全检查。

这也是测试开发的机会。

AI 写得越快,验证体系就越重要。


八、以后优秀工程师要多一个能力:会算 AI 成本

过去我们做工程,经常算这些账:

  • 服务器成本;

  • 数据库成本;

  • 存储成本;

  • 带宽成本;

  • 人力成本;

  • 测试成本。

现在还要多一个:

AI token 成本。

这不是财务部门一个人的事,而是研发团队必须理解的工程指标。

未来一个 AI 编程平台,至少要有这些看板:

图片

不能只看“用了多少 AI”。

更要看:

  • 这些 token 解决了什么问题?

  • 是否减少了返工?

  • 是否提升了交付速度?

  • 是否降低了缺陷率?

  • 是否真的替代了重复劳动?

否则,AI 用得越多,不一定代表团队越先进,也可能只是账单越高。


九、真正的变化:AI 编程从工具红利进入工程管理

这轮变化背后,其实是 AI 行业的一个转折点。

早期 AI 工具靠低价、免费额度、包月订阅快速扩张。 但随着用户规模增长、Agent 使用增加、推理模型变重,成本不可能永远由平台承担。

GitHub 转向用量计费,Anthropic 调整 Claude Code 成本预估,本质上都在说明同一件事:

AI 编程正在从“工具红利期”,进入“成本治理期”。

Gartner 也预测,虽然长期来看大模型推理成本会因芯片、基础设施和模型设计改进而下降,但 AI token 仍然是生成式 AI 系统处理数据的核心单位。([高德纳][4])

这意味着未来不是不用 AI,而是更专业地用 AI。

谁能把 AI 接进研发流程,谁就能提高效率。 谁能控制 AI 的成本和质量,谁才真正具备工程优势。


十、AI 不是程序员的替代品,而是工程能力的放大器

AI 写代码越来越强,这是事实。 AI 使用成本越来越透明,也是事实。

但这两个事实合在一起,反而说明:

真正值钱的,不是单纯会写代码的人,也不是盲目依赖 AI 的人,而是能驾驭 AI 完成高质量交付的人。

未来的研发团队,不会只比较谁用不用 AI。

而是比较:

  • 谁的需求拆解更清楚;

  • 谁的上下文管理更精确;

  • 谁的自动化验证更完善;

  • 谁的 AI 成本更可控;

  • 谁能把 AI 产出变成稳定交付。

AI 可以帮你写代码。 但它不能替你承担工程判断。

这也正是程序员、测试开发和质量工程师在 AI 时代的新价值。

本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料,主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容,侧重测试实践、工具应用与工程经验整理。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐