🔥 扎心现实:去年还在全员大会上喊"谁不用AI谁走人",今年已经在财务会上拍桌子骂"谁再乱烧token谁滚蛋"。。

ps,主包是被主管笑着提醒的。主包的mt用的是主包的四倍,经常被念叨哈哈哈哈哈哈哈哈哈

短短一年时间,AI行业风向彻底逆转。以前我们说降本增效,是用AI替代人;现在反过来了——我们要开始给AI降本增效了。


一、全球企业集体陷入"token恐慌"

Token就像AI的汽油。以前这油便宜得像不要钱,大家随便踩油门;现在油价暴涨,而且消耗量还在指数级上升,老板们终于坐不住了。

最夸张的案例:Uber 4个月烧完全年预算

今年4月,Uber总裁公开抱怨:2026年全年的token预算,只用了4个月就花光了

这不是个例。几乎所有走在AI前面的公司,都遇到了同样的问题:

  • 某全球顶级云厂商:内部AI工具的月度开销突破1亿美元,而且还在以每月20%的速度增长
  • 某国内互联网大厂:单个业务线的token月开销超过500万人民币,比整个团队的工资还高
  • 某创业公司:上个月的OpenAI账单,比服务器和员工工资加起来还多
    在这里插入图片描述

Anthropic营收暴涨的背后

Anthropic最近公布的财报亮瞎了所有人的眼睛:2026年Q1营收达到120亿美元,同比增长超过800%

支撑这个恐怖增长的,是全球几乎所有顶级互联网巨头的集体买单。以前大家以为大厂会自己搞内部模型,不会用外部服务。但现实是:

除了极少数涉密部门,Claude Code已经在谷歌、微软、亚马逊这些巨头内部无差别使用了。

不是大厂不想自己做,而是真的打不过。Claude Code的编程能力领先太多,带来的效率提升,远远超过了token的成本。

但问题是,这个成本正在以所有人都没预料到的速度失控。


二、6个核心原因:为什么token突然就不够用了?

下面这张图直观展示了 token 消耗暴涨的六大核心原因及其传导关系:

🔥 Token消耗暴涨

1. AI编程彻底成熟

2. Agent爆发

3. 畸形的考核体系

4. 伪需求泛滥

5. 公器私用

6. 员工无成本意识

小白也能写完整项目

全员重度依赖AI

自主规划任务

反复迭代调用

单任务几十上百轮LLM调用

'用得越多越先进'

1+1也用GPT-4o

试错成本为零

大量伪需求被实现

写副业项目

生成小说/漫画

倒卖账号

老板:抠抠搜搜

员工:最贵模型全搞定

token消耗暴涨,不是因为模型变贵了,而是因为我们用AI的方式彻底变了。

1.AI编程彻底成熟去年用AI写代码,还得是有多年经验的老程序员才能hold住,经常会陷入bug里鬼打墙。。

今年完全不一样了。哪怕是刚毕业的小白,只要会写prompt,就能用Claude Code写出完整的项目。
当所有人都开始重度依赖AI写代码,token消耗自然就爆炸了。

2. Agent爆发:指数级消耗的开始

如果说AI编程是线性增加token消耗,那Agent就是指数级。OpenClaw带火的自主智能体,会自己规划任务、自己调用工具自己反复迭代。。一个简单的任务,它可能会自己跑几十上百轮,每一轮都是一次完整的LLM调用。
有个云厂商的负责人说:

OpenClaw出来之前,我们还要推销算力现在是有多少算力卖多少根本不够卖。。

3. 畸形的考核:“用得越多越先进”

很多公司为了推AI,搞出了非常畸形的考核体系:

  • 谁用AI用得多,谁就是先进生产力
  • 不用AI的员工,绩效直接打C
    结果就是,员工不管什么事都扔给AI,哪怕是算个1+1,也要用最贵的GPT-4o。反正买单的是老板,自己何必省这个钱。

4. 伪需求泛滥:试错成本为零

以前做一个需求,要排期、要找资源、要评估优先级,很多不靠谱的想法自己就砍掉了。
现在不一样了。一个脑洞想法,扔给AI两天就能做出来。反正成本低,试试看呗。
于是大量毫无价值的伪需求被做了出来,每一个都消耗了大量的token。

5. 公器私用:大厂token成了"免费福利"

这是一个所有人都心知肚明,但没人愿意说破的事实:
很多大厂员工,用公司配的无限制AI账号,干自己的私活。

  • 上班用公司的Claude写自己的副业项目
  • 用公司的GPT-4o生成小说、漫画、视频脚本
  • 甚至有人把公司的AI账号拿出去卖钱

公司的token预算,就这样被偷偷消耗掉了。

6. 最根本的问题:员工没有成本意识

  • 简单任务用国产模型,成本只有1/10
  • 普通代码用Haiku,复杂逻辑才用Sonnet
  • 能开缓存的绝对不开新调用

但员工可没这个意识。对他们来说,最贵的模型全搞定不香吗?反正又不用自己花钱。


三、巨头们已经开始行动了

下面这张图展示了从「token失控」到「AI成本管理」的完整解决方案链路:

❌ 问题现状

💡 AI成本管理工具

实时监控消耗

自动拦截滥用

智能路由模型

优化prompt

🇨🇳 国内企业应对

字节:统一AI网关

腾讯:多模型调度

阿里:语义缓存

🇺🇸 美国巨头三板斧

强制限额

模型分级

成本挂钩

Token预算4个月烧完

账单超过工资单

消耗每月增长20%

✅ 成本降低30%-50%

当token账单开始超过工资单,再有钱的公司也扛不住了。。美国科技巨头已经集体转向,从"token max"变成了"token节流"。

美国巨头的三板斧

  1. 强制限额:给每个团队、每个员工设置每日和每月的token配额,用完就断
  2. 模型分级:禁止所有任务都用GPT-4o,简单任务必须用便宜的小模型
  3. 成本挂钩:把token消耗纳入团队成本考核,省下来的钱可以当奖金

国内企业的应对

国内虽然整体情况没那么严重,但走在前面的公司也已经开始行动了:

  • 字节跳动:内部上线了统一的AI网关,所有大模型调用必须走网关,按团队配额
  • 腾讯:推出了多模型混合调度平台,自动根据任务复杂度选择最合适的模型
  • 阿里:强制开启语义缓存,所有内部AI工具必须优先走缓存

一个正在爆发的新赛道:AI成本管理

哪里有痛点,哪里就有机会。一个全新的赛道——AI成本管理工具,正在快速崛起。

现在已经有很多工具,可以帮你:

  • 实时监控每个团队、每个员工的token消耗
  • 自动识别并拦截无效调用和滥用
  • 智能路由到最便宜的可用模型
  • 优化prompt和上下文,减少token浪费

比较成熟的工具包括Langfuse、LangSmith、OpenLIT等,很多公司已经开始用这些工具,把token开销降了30%-50%。


四、未来半年的趋势:国产模型的历史性机会

下面这张图展示了未来多模型混合调度的决策流程:

📊 任务占比

💰 成本对比

🎯 模型调度策略

🔍 任务智能分类

📥 任务输入

用户请求/任务

简单问答/文本分类

普通代码编写

复杂逻辑/架构设计

极端复杂任务

国产小模型

Claude Haiku / 豆包4.0

Claude Sonnet / GPT-4o-mini

GPT-4o / Claude Opus

GPT-4o的 1/20

GPT-4o的 1/10

GPT-4o的 1/3

基准成本

约 40%

约 30%

约 20%

约 10%

✅ 总成本降低 60%-80%

现在所有人都在等一件事:国产模型什么时候能追上GPT-4o的编程能力,并且把价格打下来。

年底的关键节点

现在业内有一个共同的判断:

今年下半年,顶尖编程模型还会有一次巨大的跃升。到年底,国产大模型的编程能力,很可能会追平今天的GPT-4o,而成本只有它的1/10。

如果这个判断成真,那将是国产模型的历史性机会。现在很多老板都在憋着,先不过度控制token消耗,熬过这半年过渡期,然后全面切换到国产模型。

未来的常态:多模型混合调度

未来不会有一个模型通吃所有场景。所有公司都会采用多模型混合调度的策略:

任务类型 推荐模型 成本对比
简单问答、文本分类 国产小模型 GPT-4o的1/20
普通代码编写 Claude Haiku / 豆包4.0 GPT-4o的1/10
复杂逻辑、架构设计 Claude Sonnet / GPT-4o-mini GPT-4o的1/3
极端复杂任务 GPT-4o / Claude Opus 基准

用最便宜的模型,完成90%的普通任务;只把最复杂的10%,交给最贵的模型。这才是未来AI使用的正确姿势。


五、结合业内给开发者和企业的7条实用建议

下面这张图总结了从「建立策略」到「落地执行」的完整 token 成本优化路线图:

🎯 预期成果

🔧 持续优化

📊 监控审计

📋 策略制定

1. 分级模型策略

2. 强制语义缓存

3. 独立团队配额

4. 监控审计体系

追踪团队消耗

识别异常调用

分析成本分布

5. 优化prompt

6. 布局国产模型

7. 成本激励机制

Token成本降低 50%+

模型利用率提升 3x

团队成本意识建立

不管你是开发者还是管理者,现在都必须开始重视token成本了。这里给大家7条经过验证的实用建议。

1. 建立严格的分级模型策略

必须做:禁止所有任务都用最贵的模型
不要做:为了省事,全局默认GPT-4o

最佳实践:90%的任务用国产模型或小模型,只有10%的复杂任务才用GPT-4o或Claude Opus

2. 强制开启语义缓存

语义缓存是性价比最高的优化手段,没有之一。对于客服、问答、文档检索这些场景,缓存命中率可以达到70%以上,直接省掉70%的token开销。
现在几乎所有的LLM网关都支持语义缓存,打开就是了,没有任何副作用。

3. 给每个团队设置独立配额

必须做:按团队、按项目分配token预算,用完就停
不要做:全公司共用一个账号,无限制使用

人性是经不起考验的。没有配额限制,token消耗永远会超出你的想象。

4. 建立完整的监控审计体系

你必须能回答这些问题:

  • 哪个团队用的token最多?
  • 哪个接口最烧钱?
  • 有没有异常的调用模式?
    没有监控,你永远不知道钱花在了哪里。

5. 优化prompt和上下文管理

很多人写prompt,喜欢把所有历史对话全塞进去,不管有用没用。
正确做法:定期压缩上下文,只保留最近几轮的关键信息

一个好的上下文管理策略,可以减少30%-50%的token消耗。

6. 提前布局国产模型

现在就开始测试国产模型,把一些非核心任务先切过去。
等年底国产模型能力上来的时候,你就可以无缝切换,把成本直接降一个数量级。

7. 建立成本激励机制

光有惩罚不够,还要有奖励。

可以规定:团队省下来的token预算,50%作为团队奖金。
这样员工才有动力去主动优化成本,而不是想方设法把预算花光。


总结:AI进入"精打细算"的新阶段

AI的野蛮生长时代结束了。

前两年,大家比拼的是谁用的模型更贵,谁的胆子更大,谁能更快地把AI用起来。
但现在,比拼的是谁能用最低的成本,创造最大的价值。

从"用AI换人"到"给AI降本",这个转变只用了一年。但这不是AI的倒退,而是AI真正走向成熟的标志。

只有当我们开始精打细算每一个token的时候,AI才真正变成了一个生产力工具,而不是一个昂贵的玩具。

如果你所在的公司现在还能随便用,没有任何限制,那真的要珍惜这段时间了。因为这样的好日子,真的不多了。
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐