你每天烧掉的 Token，有一半是废话

神助

401人浏览 · 2026-05-04 07:53:44

神助 · 2026-05-04 07:53:44 发布

你每天烧掉的 Token，有一半是废话

DeepSeek 再便宜，也架不住 AI 天天给你写论文。我写了个工具，一刀下去，Token 砍了 53%。

先问你一个问题。

你用 Cursor 写代码，跟 WorkBuddy 聊需求，拿 ChatGPT 查资料。每次对话，AI 都要先寒暄两句。「好的，我来帮你分析一下」「这是一个很好的问题」「希望对你有帮助」。

你猜这些废话占了你多少 Token？

我实打实测了一下。同一个任务，直连 DeepSeek 烧了 2,865 Token。把我的 tokensaver 挂上去之后，1,341 Token。

一刀砍了 53%。

这玩意儿干了什么

tokensaver 就是个本地 HTTP 代理。架在你的代码和 DeepSeek 之间，干三件事：

缓存：你昨天问过类似的问题？直接从内存返回，1ms 搞定。零 Token。
压缩输入：帮你把啰嗦的 Prompt 精简。默认不开，我怕丢信息。
压缩输出：往 System Prompt 里塞一条「像原始人一样说话」的指令。AI 收到后，废话全删，只说要点。

代码层面，改一行就够了：

# 之前
client = OpenAI(base_url="https://api.deepseek.com")

# 之后
client = OpenAI(base_url="http://localhost:8800/v1")

不改 SDK，不改调用逻辑，不改 Prompt。端口 8800 跑起来就行。

GitHub：github.com/luckychenxiaowen/tokensaver

实测数据

我拿了一个真实任务来跑。根据一篇微信公众号的调查报道，设计一个识别虚假信息的 AI 检测系统。

同一个 Prompt，三组对照：

组别	方式	压缩
A	直连 DeepSeek	无
B	走 tokensaver 代理	cn-full
C	走 tokensaver 代理	cn-ultra

跑完后的数据：

指标	直连	cn-full	cn-ultra
输入 Token	408	586	586
输出 Token	2,457	755	755
总 Token	2,865	1,341	1,341
输出字数	4,587	1,202	1,202
耗时	312ms	12s	2.1s

三个发现。

第一，输出 Token 砍了 69%。直连时 AI 给我写了一篇 4500 字的小论文。压缩后只剩 1200 字。核心架构和逻辑全在，砍掉的都是铺陈和「好的，我来帮你分析一下」这类废话。

第二，输入 Token 多了 178 个。压缩指令的代价。但用 178 换 1,702，ROI 是 9.6 倍。不亏。

第三，缓存比压缩更狠。第三次调用命中了语义缓存，36ms 返回。不调 API，不烧 Token。日常用 AI，至少有 30% 的问题跟之前高度相似。缓存的收益被人严重低估了。

缺点

我先说缺点。

第一次慢。 代理要写缓存、注入 System Prompt，第一次调用比直连慢 10 秒。之后就好了。
要本地跑。 进程掉了就失效。设成开机自启。
短问题意义不大。 你问「1+1 等于几」，压缩指令本身比回答还长。
流式响应不压缩。 WorkBuddy 用 SSE 流式传输的时候只能透传。缓存照旧生效。

什么场景用

日常查资料、快速问答，原地省 50%
写代码、调 bug，用 lite 模式，只去语气词，代码不动
反复问类似问题，缓存命中，零成本
长对话，越聊越省，20 轮能省 60% 以上

不适合的场景就一个：你要让 AI 写完整文章或者报告。那种情况需要展开说。

怎么在你的 WorkBuddy 里用

最简单的方式：在 SOUL.md 里加一段指令，AI 默认闭嘴。

对话里随时切：

/caveman full，原始人模式
/normal，恢复

更彻底的方式：改 models.json 的 baseUrl 指向 localhost:8800，全量走代理。

一句话

AI 跟你说废话不是它的错。但你不必每次都听完。

数据来自真实 API 调用。tokensaver v2.0.0 + DeepSeek-chat。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2024科技趋势：AI领跑，云边协同

2024年技术发展将围绕人工智能、云计算、边缘计算等核心领域展开，重点关注技术融合与实际应用场景的落地。技术发展将更强调“价值闭环”，即从技术创新到商业变现的路径缩短，同时跨领域协作（如AI+生物科技）可能催生突破性应用。

AtomGit开源社区

2024技术趋势：AI领跑，开发者必看22

强调技术快速迭代中持续学习的重要性，鼓励读者关注实践与理论结合。（注：可根据实际需求调整子标题深度或增删模块，如加入“行业案例”或“争议性技术讨论”等部分。

AtomGit开源社区

使用Koopman理论识别机器人动力学的非线性系统（Matlab代码实现）

实际中的大多数系统均为非线性系统，而Koopman算子可以描述非线性系统的可观测状态量在高维空间中的线性演化过程，可以将非线性问题转化为线性问题，对于非线性系统的研究有较大的价值。利用Koopman算子理论，可以仅依靠实验数据或系统仿真数据建立非线性系统的线性模型，基于该模型可实现对非线性系统的分析、预测和控制[6]。为了识别杜宾汽车模型的非线性动力学，我们使用Koopman算子理论首先从系统的仿