Token成本全面失控:从“用AI换人“到“给AI降本“只用了一年
🔥 扎心现实:去年还在全员大会上喊"谁不用AI谁走人",今年已经在财务会上拍桌子骂"谁再乱烧token谁滚蛋"。。
ps,主包是被主管笑着提醒的。主包的mt用的是主包的四倍,经常被念叨哈哈哈哈哈哈哈哈哈
短短一年时间,AI行业风向彻底逆转。以前我们说降本增效,是用AI替代人;现在反过来了——我们要开始给AI降本增效了。
一、全球企业集体陷入"token恐慌"
Token就像AI的汽油。以前这油便宜得像不要钱,大家随便踩油门;现在油价暴涨,而且消耗量还在指数级上升,老板们终于坐不住了。
最夸张的案例:Uber 4个月烧完全年预算
今年4月,Uber总裁公开抱怨:2026年全年的token预算,只用了4个月就花光了。
这不是个例。几乎所有走在AI前面的公司,都遇到了同样的问题:
- 某全球顶级云厂商:内部AI工具的月度开销突破1亿美元,而且还在以每月20%的速度增长
- 某国内互联网大厂:单个业务线的token月开销超过500万人民币,比整个团队的工资还高
- 某创业公司:上个月的OpenAI账单,比服务器和员工工资加起来还多

Anthropic营收暴涨的背后
Anthropic最近公布的财报亮瞎了所有人的眼睛:2026年Q1营收达到120亿美元,同比增长超过800%。
支撑这个恐怖增长的,是全球几乎所有顶级互联网巨头的集体买单。以前大家以为大厂会自己搞内部模型,不会用外部服务。但现实是:
除了极少数涉密部门,Claude Code已经在谷歌、微软、亚马逊这些巨头内部无差别使用了。
不是大厂不想自己做,而是真的打不过。Claude Code的编程能力领先太多,带来的效率提升,远远超过了token的成本。
但问题是,这个成本正在以所有人都没预料到的速度失控。
二、6个核心原因:为什么token突然就不够用了?
下面这张图直观展示了 token 消耗暴涨的六大核心原因及其传导关系:
token消耗暴涨,不是因为模型变贵了,而是因为我们用AI的方式彻底变了。
1.AI编程彻底成熟去年用AI写代码,还得是有多年经验的老程序员才能hold住,经常会陷入bug里鬼打墙。。
今年完全不一样了。哪怕是刚毕业的小白,只要会写prompt,就能用Claude Code写出完整的项目。
当所有人都开始重度依赖AI写代码,token消耗自然就爆炸了。
2. Agent爆发:指数级消耗的开始
如果说AI编程是线性增加token消耗,那Agent就是指数级。OpenClaw带火的自主智能体,会自己规划任务、自己调用工具自己反复迭代。。一个简单的任务,它可能会自己跑几十上百轮,每一轮都是一次完整的LLM调用。
有个云厂商的负责人说:
OpenClaw出来之前,我们还要推销算力现在是有多少算力卖多少根本不够卖。。
3. 畸形的考核:“用得越多越先进”
很多公司为了推AI,搞出了非常畸形的考核体系:
- 谁用AI用得多,谁就是先进生产力
- 不用AI的员工,绩效直接打C
结果就是,员工不管什么事都扔给AI,哪怕是算个1+1,也要用最贵的GPT-4o。反正买单的是老板,自己何必省这个钱。
4. 伪需求泛滥:试错成本为零
以前做一个需求,要排期、要找资源、要评估优先级,很多不靠谱的想法自己就砍掉了。
现在不一样了。一个脑洞想法,扔给AI两天就能做出来。反正成本低,试试看呗。
于是大量毫无价值的伪需求被做了出来,每一个都消耗了大量的token。
5. 公器私用:大厂token成了"免费福利"
这是一个所有人都心知肚明,但没人愿意说破的事实:
很多大厂员工,用公司配的无限制AI账号,干自己的私活。
- 上班用公司的Claude写自己的副业项目
- 用公司的GPT-4o生成小说、漫画、视频脚本
- 甚至有人把公司的AI账号拿出去卖钱
公司的token预算,就这样被偷偷消耗掉了。
6. 最根本的问题:员工没有成本意识
- 简单任务用国产模型,成本只有1/10
- 普通代码用Haiku,复杂逻辑才用Sonnet
- 能开缓存的绝对不开新调用
但员工可没这个意识。对他们来说,最贵的模型全搞定不香吗?反正又不用自己花钱。
三、巨头们已经开始行动了
下面这张图展示了从「token失控」到「AI成本管理」的完整解决方案链路:
当token账单开始超过工资单,再有钱的公司也扛不住了。。美国科技巨头已经集体转向,从"token max"变成了"token节流"。
美国巨头的三板斧
- 强制限额:给每个团队、每个员工设置每日和每月的token配额,用完就断
- 模型分级:禁止所有任务都用GPT-4o,简单任务必须用便宜的小模型
- 成本挂钩:把token消耗纳入团队成本考核,省下来的钱可以当奖金
国内企业的应对
国内虽然整体情况没那么严重,但走在前面的公司也已经开始行动了:
- 字节跳动:内部上线了统一的AI网关,所有大模型调用必须走网关,按团队配额
- 腾讯:推出了多模型混合调度平台,自动根据任务复杂度选择最合适的模型
- 阿里:强制开启语义缓存,所有内部AI工具必须优先走缓存
一个正在爆发的新赛道:AI成本管理
哪里有痛点,哪里就有机会。一个全新的赛道——AI成本管理工具,正在快速崛起。
现在已经有很多工具,可以帮你:
- 实时监控每个团队、每个员工的token消耗
- 自动识别并拦截无效调用和滥用
- 智能路由到最便宜的可用模型
- 优化prompt和上下文,减少token浪费
比较成熟的工具包括Langfuse、LangSmith、OpenLIT等,很多公司已经开始用这些工具,把token开销降了30%-50%。
四、未来半年的趋势:国产模型的历史性机会
下面这张图展示了未来多模型混合调度的决策流程:
现在所有人都在等一件事:国产模型什么时候能追上GPT-4o的编程能力,并且把价格打下来。
年底的关键节点
现在业内有一个共同的判断:
今年下半年,顶尖编程模型还会有一次巨大的跃升。到年底,国产大模型的编程能力,很可能会追平今天的GPT-4o,而成本只有它的1/10。
如果这个判断成真,那将是国产模型的历史性机会。现在很多老板都在憋着,先不过度控制token消耗,熬过这半年过渡期,然后全面切换到国产模型。
未来的常态:多模型混合调度
未来不会有一个模型通吃所有场景。所有公司都会采用多模型混合调度的策略:
| 任务类型 | 推荐模型 | 成本对比 |
|---|---|---|
| 简单问答、文本分类 | 国产小模型 | GPT-4o的1/20 |
| 普通代码编写 | Claude Haiku / 豆包4.0 | GPT-4o的1/10 |
| 复杂逻辑、架构设计 | Claude Sonnet / GPT-4o-mini | GPT-4o的1/3 |
| 极端复杂任务 | GPT-4o / Claude Opus | 基准 |
用最便宜的模型,完成90%的普通任务;只把最复杂的10%,交给最贵的模型。这才是未来AI使用的正确姿势。
五、结合业内给开发者和企业的7条实用建议
下面这张图总结了从「建立策略」到「落地执行」的完整 token 成本优化路线图:
不管你是开发者还是管理者,现在都必须开始重视token成本了。这里给大家7条经过验证的实用建议。
1. 建立严格的分级模型策略
✅ 必须做:禁止所有任务都用最贵的模型
❌ 不要做:为了省事,全局默认GPT-4o
最佳实践:90%的任务用国产模型或小模型,只有10%的复杂任务才用GPT-4o或Claude Opus
2. 强制开启语义缓存
语义缓存是性价比最高的优化手段,没有之一。对于客服、问答、文档检索这些场景,缓存命中率可以达到70%以上,直接省掉70%的token开销。
现在几乎所有的LLM网关都支持语义缓存,打开就是了,没有任何副作用。
3. 给每个团队设置独立配额
✅ 必须做:按团队、按项目分配token预算,用完就停
❌ 不要做:全公司共用一个账号,无限制使用
人性是经不起考验的。没有配额限制,token消耗永远会超出你的想象。
4. 建立完整的监控审计体系
你必须能回答这些问题:
- 哪个团队用的token最多?
- 哪个接口最烧钱?
- 有没有异常的调用模式?
没有监控,你永远不知道钱花在了哪里。
5. 优化prompt和上下文管理
很多人写prompt,喜欢把所有历史对话全塞进去,不管有用没用。
✅ 正确做法:定期压缩上下文,只保留最近几轮的关键信息
一个好的上下文管理策略,可以减少30%-50%的token消耗。
6. 提前布局国产模型
现在就开始测试国产模型,把一些非核心任务先切过去。
等年底国产模型能力上来的时候,你就可以无缝切换,把成本直接降一个数量级。
7. 建立成本激励机制
光有惩罚不够,还要有奖励。
可以规定:团队省下来的token预算,50%作为团队奖金。
这样员工才有动力去主动优化成本,而不是想方设法把预算花光。
总结:AI进入"精打细算"的新阶段
AI的野蛮生长时代结束了。
前两年,大家比拼的是谁用的模型更贵,谁的胆子更大,谁能更快地把AI用起来。
但现在,比拼的是谁能用最低的成本,创造最大的价值。
从"用AI换人"到"给AI降本",这个转变只用了一年。但这不是AI的倒退,而是AI真正走向成熟的标志。
只有当我们开始精打细算每一个token的时候,AI才真正变成了一个生产力工具,而不是一个昂贵的玩具。
如果你所在的公司现在还能随便用,没有任何限制,那真的要珍惜这段时间了。因为这样的好日子,真的不多了。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)