推理服务为什么一上 Prompt 压缩就开始省成本却掉指令遵循：从 Token Pruning 到 Semantic Preservation 的工程实战

今日说"法"

326人浏览 · 2026-05-22 09:14:55

今日说"法" · 2026-05-22 09:14:55 发布

一、成本一压下来，很多团队先掉的却不是效果分，而是指令遵循

在长上下文问答、Agent 编排和代码审查场景里，输入 Token 往往比输出更贵。很多团队把 Prompt 压缩当成最直接的降本手段：上下文先裁一刀，再送进模型，账单立刻下降。📉

问题在于，线上最先掉下来的常常不是 Rouge、EM 这类离线分数，而是更难受的指令遵循。要求输出 JSON，结果开始混入解释文本；要求只依据给定材料回答，结果把被压掉的约束一起忘掉。表面看像模型不稳定，实质是压缩流程把“能省的上下文”和“不能动的约束”混在了一起。⚠️

data center cost

图 1：输入 Token 成本持续上升，让 Prompt 压缩成为推理系统的常见降本动作

二、问题拆解：为什么一做压缩，模型就开始选择性失忆

Prompt 压缩最常见的三类做法，分别是 token 剪枝、摘要压缩和语义去重。它们都能降输入长度，但风险点并不相同。🔍

方案	直接收益	线上常见问题
Token Pruning	压缩率高、实现快	否定词、格式标记、角色边界被剪掉
分层摘要	长对话降本明显	高层摘要吞掉细粒度约束
语义去重	文档冗余场景见效快	关键信息被当重复段落合并

很多工程事故并不是“信息不够”，而是信息的层级关系被打乱。系统指令、用户要求、外部证据原本分别承担约束、目标和事实来源；压缩后如果把三者混为一个扁平文本，模型收到的就不再是“带边界的上下文”，而是“少了一部分语义的碎片堆”。🧩

compression structure

图 2：压缩前后如果结构边界消失，模型最容易丢掉的是格式和角色约束

三、实战验证：压缩率不是越高越好，关键是保住不可裁剪区

生产里更稳的做法，不是先追求极限压缩率，而是先划出不可压缩区：系统指令、输出 Schema、引用边界、关键字段名都应被隔离保护。🛠️

3.1 先做结构感知，再做 Token Pruning

from llmlingua import PromptCompressor

compressor = PromptCompressor(
    model_name="microsoft/llmlingua-2-xlm-roberta-large-meetingbank"
)

PROTECTED = ["[SYSTEM]", "JSON", "title", "summary", "tags"]

def compress_prompt(system_part: str, context_part: str, rate: float):
    compressed = compressor.compress_prompt(
        context_part,
        rate=rate,
        force_tokens=PROTECTED,
    )
    return system_part + compressed["compressed_prompt"]

3.2 压缩后再做一次保真校验

guardrail:
  preserve_system_instruction: true
  preserve_output_schema: true
  validate_required_tokens: [JSON, title, summary, tags]
  fallback_on_missing_constraint: true
  max_compression_rate: 0.5