你每天烧掉的 Token,有一半是废话
你每天烧掉的 Token,有一半是废话
DeepSeek 再便宜,也架不住 AI 天天给你写论文。我写了个工具,一刀下去,Token 砍了 53%。
先问你一个问题。
你用 Cursor 写代码,跟 WorkBuddy 聊需求,拿 ChatGPT 查资料。每次对话,AI 都要先寒暄两句。「好的,我来帮你分析一下」「这是一个很好的问题」「希望对你有帮助」。
你猜这些废话占了你多少 Token?
我实打实测了一下。同一个任务,直连 DeepSeek 烧了 2,865 Token。把我的 tokensaver 挂上去之后,1,341 Token。
一刀砍了 53%。
这玩意儿干了什么
tokensaver 就是个本地 HTTP 代理。架在你的代码和 DeepSeek 之间,干三件事:
- 缓存:你昨天问过类似的问题?直接从内存返回,1ms 搞定。零 Token。
- 压缩输入:帮你把啰嗦的 Prompt 精简。默认不开,我怕丢信息。
- 压缩输出:往 System Prompt 里塞一条「像原始人一样说话」的指令。AI 收到后,废话全删,只说要点。
代码层面,改一行就够了:
# 之前
client = OpenAI(base_url="https://api.deepseek.com")
# 之后
client = OpenAI(base_url="http://localhost:8800/v1")
不改 SDK,不改调用逻辑,不改 Prompt。端口 8800 跑起来就行。
GitHub:github.com/luckychenxiaowen/tokensaver
实测数据
我拿了一个真实任务来跑。根据一篇微信公众号的调查报道,设计一个识别虚假信息的 AI 检测系统。
同一个 Prompt,三组对照:
| 组别 | 方式 | 压缩 |
|---|---|---|
| A | 直连 DeepSeek | 无 |
| B | 走 tokensaver 代理 | cn-full |
| C | 走 tokensaver 代理 | cn-ultra |
跑完后的数据:
| 指标 | 直连 | cn-full | cn-ultra |
|---|---|---|---|
| 输入 Token | 408 | 586 | 586 |
| 输出 Token | 2,457 | 755 | 755 |
| 总 Token | 2,865 | 1,341 | 1,341 |
| 输出字数 | 4,587 | 1,202 | 1,202 |
| 耗时 | 312ms | 12s | 2.1s |
三个发现。
第一,输出 Token 砍了 69%。直连时 AI 给我写了一篇 4500 字的小论文。压缩后只剩 1200 字。核心架构和逻辑全在,砍掉的都是铺陈和「好的,我来帮你分析一下」这类废话。
第二,输入 Token 多了 178 个。压缩指令的代价。但用 178 换 1,702,ROI 是 9.6 倍。不亏。
第三,缓存比压缩更狠。第三次调用命中了语义缓存,36ms 返回。不调 API,不烧 Token。日常用 AI,至少有 30% 的问题跟之前高度相似。缓存的收益被人严重低估了。
缺点
我先说缺点。
- 第一次慢。 代理要写缓存、注入 System Prompt,第一次调用比直连慢 10 秒。之后就好了。
- 要本地跑。 进程掉了就失效。设成开机自启。
- 短问题意义不大。 你问「1+1 等于几」,压缩指令本身比回答还长。
- 流式响应不压缩。 WorkBuddy 用 SSE 流式传输的时候只能透传。缓存照旧生效。
什么场景用
- 日常查资料、快速问答,原地省 50%
- 写代码、调 bug,用 lite 模式,只去语气词,代码不动
- 反复问类似问题,缓存命中,零成本
- 长对话,越聊越省,20 轮能省 60% 以上
不适合的场景就一个:你要让 AI 写完整文章或者报告。那种情况需要展开说。
怎么在你的 WorkBuddy 里用
最简单的方式:在 SOUL.md 里加一段指令,AI 默认闭嘴。
对话里随时切:
/caveman full,原始人模式/normal,恢复
更彻底的方式:改 models.json 的 baseUrl 指向 localhost:8800,全量走代理。
一句话
AI 跟你说废话不是它的错。但你不必每次都听完。
数据来自真实 API 调用。tokensaver v2.0.0 + DeepSeek-chat。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)