AI实践：在Token热之外，我们实验了一套“文言文压缩LLM”的架构

盈米AI开放平台

453人浏览 · 2026-03-27 14:35:30

盈米AI开放平台 · 2026-03-27 14:35:30 发布

最近，Token中文名定了的消息再次将这一AI时代的新概念推到大家的面前。Token（词元）作为模型处理信息最小计量单位，无论是我们平常向AI咨询提问，还是让 Agent 写代码、写报告，都离不开Token的消耗。

现在，人手一个或者多个AI助手已经成为了生成力的标配，从早期的 Cursor 到 Claude Code，再到最近大火的小龙虾 OpenClaw，工程师的 Work Flow 正在被重塑。

生产效率是起飞了，但成本也实实在在地摆在眼前——高质量的LLM模型真的很贵。

在盈米内部，我们全面拥抱 AI。且慢AI小顾现已服务数十万用户，盈米内部也运行着上千个 AI 工作流。随着规模增长，一个现实问题浮出水面：如何在保证输出质量的前提下，榨干每一个 Token 的价值？

是换便宜的模型？质量掉得厉害。还是做缓存？覆盖场景有限。又或者做 Prompt 优化？边际收益递减。

直到有一天，我们的工程师看到美国人也在学中文，脑子里突然蹦出一个“复古”的想法——文言文不就是一种天然的高密度的信息编码吗？何不试试做个文言文的压缩机？

01、为什么是文言文？

在按 Token 计费的 AI 时代，信息密度直接等同于“金钱”成本。举个很直观的例子：

白话文：我想吃点东西
英文：I want to eat something
文言文：吾欲食

从上面的对比不难看出，文言文仅需三个字，就能表达完整语义。文言文用极简的字符承载复杂语言逻辑的特性，天然具备超高信息密度，这是否能有效降低LLM的使用成本？

顺着这个思路，我们设计了一套低成本的推理方案：

第一步先用 Kimi、DeepSeek 等高性价比大模型，将长文本提示词压缩翻译成文言文；

第二步，我们把精简后的文言文提示词，输入到 Claude Opus、GPT‑5 等昂贵的顶级大模型，并让其同样以文言文回复；

最后一步，再次通过高性价比模型，结合原始提示词将文言结果 “解压缩”，翻译回正常语言，确保输出质量。

这样一来，我们既能保留顶级模型的推理质量，又能大幅压缩顶级模型的推理价格，有望真正实现“质量不变、成本减半”的效果。

（图片由AI生成）

02、方案实现：Token-Zip 三层模型架构

为了验证这个想法，我们在盈米 AI 开放平台设计并落地了 Token-Zip 架构，其核心逻辑是一套三层的模型阶梯机制：

1、核心思路

我们通过将具体的任务进行拆解，利用“模型阶梯”的形式来降低成本的消耗：

压缩层（L1 - 低成本、高速度）：接收用户原始输入（例如一条原本需消耗 520 Token 的复杂指令），通过调用 Kimi K2.5 这类中文理解能力强、性价比极高的模型，将内容压缩为高信息密度的文言提示词。

推理层（L2 - 高成本、高质量）：将压缩后的文言文提示词发送给 Claude Opus 4.6 等顶尖大模型，由于输入的 Token 大幅减少，该模型的推理成本显著下降，同时模型对高密度语义的理解依然保持精准。
还原层（L3）：由推理模型输出最终结果，可以根据场景需求将文言文的结果还原为白话文 / 英文等目标语言。

2、架构图示

      【Token-Zip 架构】            ▼      [ 用户输入 ]       "Explain TCP handshake"             │            ▼      [ 压缩模型：Kimi K2.5 ]  ──► (转化为高密度文言文)      (便宜/快)            │            ▼      [ 目标模型：Claude Opus 4.6 ] ──► (深度推理)      (贵/强)            │            ▼      [ 最终解压和输出 ]