你每天烧掉的 Token,有一半是废话

DeepSeek 再便宜,也架不住 AI 天天给你写论文。我写了个工具,一刀下去,Token 砍了 53%。


先问你一个问题。

你用 Cursor 写代码,跟 WorkBuddy 聊需求,拿 ChatGPT 查资料。每次对话,AI 都要先寒暄两句。「好的,我来帮你分析一下」「这是一个很好的问题」「希望对你有帮助」。

你猜这些废话占了你多少 Token?

我实打实测了一下。同一个任务,直连 DeepSeek 烧了 2,865 Token。把我的 tokensaver 挂上去之后,1,341 Token。

一刀砍了 53%。


这玩意儿干了什么

tokensaver 就是个本地 HTTP 代理。架在你的代码和 DeepSeek 之间,干三件事:

  1. 缓存:你昨天问过类似的问题?直接从内存返回,1ms 搞定。零 Token。
  2. 压缩输入:帮你把啰嗦的 Prompt 精简。默认不开,我怕丢信息。
  3. 压缩输出:往 System Prompt 里塞一条「像原始人一样说话」的指令。AI 收到后,废话全删,只说要点。

代码层面,改一行就够了:

# 之前
client = OpenAI(base_url="https://api.deepseek.com")

# 之后
client = OpenAI(base_url="http://localhost:8800/v1")

不改 SDK,不改调用逻辑,不改 Prompt。端口 8800 跑起来就行。

GitHub:github.com/luckychenxiaowen/tokensaver


实测数据

我拿了一个真实任务来跑。根据一篇微信公众号的调查报道,设计一个识别虚假信息的 AI 检测系统。

同一个 Prompt,三组对照:

组别 方式 压缩
A 直连 DeepSeek
B 走 tokensaver 代理 cn-full
C 走 tokensaver 代理 cn-ultra

跑完后的数据:

指标 直连 cn-full cn-ultra
输入 Token 408 586 586
输出 Token 2,457 755 755
总 Token 2,865 1,341 1,341
输出字数 4,587 1,202 1,202
耗时 312ms 12s 2.1s

三个发现。

第一,输出 Token 砍了 69%。直连时 AI 给我写了一篇 4500 字的小论文。压缩后只剩 1200 字。核心架构和逻辑全在,砍掉的都是铺陈和「好的,我来帮你分析一下」这类废话。

第二,输入 Token 多了 178 个。压缩指令的代价。但用 178 换 1,702,ROI 是 9.6 倍。不亏。

第三,缓存比压缩更狠。第三次调用命中了语义缓存,36ms 返回。不调 API,不烧 Token。日常用 AI,至少有 30% 的问题跟之前高度相似。缓存的收益被人严重低估了。


缺点

我先说缺点。

  1. 第一次慢。 代理要写缓存、注入 System Prompt,第一次调用比直连慢 10 秒。之后就好了。
  2. 要本地跑。 进程掉了就失效。设成开机自启。
  3. 短问题意义不大。 你问「1+1 等于几」,压缩指令本身比回答还长。
  4. 流式响应不压缩。 WorkBuddy 用 SSE 流式传输的时候只能透传。缓存照旧生效。

什么场景用

  • 日常查资料、快速问答,原地省 50%
  • 写代码、调 bug,用 lite 模式,只去语气词,代码不动
  • 反复问类似问题,缓存命中,零成本
  • 长对话,越聊越省,20 轮能省 60% 以上

不适合的场景就一个:你要让 AI 写完整文章或者报告。那种情况需要展开说。


怎么在你的 WorkBuddy 里用

最简单的方式:在 SOUL.md 里加一段指令,AI 默认闭嘴。

对话里随时切:

  • /caveman full,原始人模式
  • /normal,恢复

更彻底的方式:改 models.json 的 baseUrl 指向 localhost:8800,全量走代理。


一句话

AI 跟你说废话不是它的错。但你不必每次都听完。


数据来自真实 API 调用。tokensaver v2.0.0 + DeepSeek-chat。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐