一、一个反直觉的现象:剪得越多,推理能力崩得越碎

2026年5月,模型压缩领域一篇入选ICML Spotlight的论文,揭示了一个被长期忽视的诡异现象。

大语言模型的推理能力,在结构剪枝面前表现出了一种"非线性的脆弱"。当你剪掉一个通用模型20%的参数,它的数学推理准确率可能只下降2-3个百分点——可接受。但当你把剪枝比例推到40%——一个在很多部署场景中极具商业吸引力的节点——模型在GSM8K这类多步数学推理题上的准确率会从55%+直接跳水到个位数,不是腰斩,是脚踝斩。

更诡异的是:这种崩盘不是渐进式的。它像水在零度以下突然结冰一样,在某个临界稀疏度附近发生"相变"。论文作者钱天浩将此命名为量级陷阱(magnitude trap)

这个陷阱的机制是:传统剪枝的评判标准是权重的绝对值大小——哪个参数的绝对值小,就认为它不重要,优先裁掉。这套逻辑在只做"下一词预测"的通用模型上运行得很好。但CoT推理激活的是一套完全不同的信息通路:那些在推理链条中负责逻辑跳跃、多步一致性维护的神经元,权重值往往不大——它们做的是"精细活",不是"力气活"。量级剪枝照裁不误,恰好把做精细活的那批神经元优先送走了。

等到模型被问到需要三步以上推理的问题,才发现逻辑路径已经被剪断了。此时再补救,为时已晚。

二、RKU的解题思路:把"剪谁"变成一道能量积分题

钱天浩提出的解决方案叫相对动能效用(Relative Kinetic Utility,RKU)。名字听起来唬人,核心思想却出奇优雅。

传统剪枝问的是:"这个参数的绝对值有多大?"——一个静态的、孤立的问题。

RKU问的是:"这个参数在模型从输入走到输出的全过程中,参与了多大的能量交换?"——一个动态的、全局的问题。

具体实现上,RKU做了两件事。

第一件事:用交替梯度流(Alternating Gradient Flow)在模型深度方向上做连续积分。 它不是看某一层某个参数独立的值,而是追踪信息从浅层流向深层时,哪些参数一直在"做功"——持续参与表征的旋转、缩放和变换。那些在深度方向上保持高动能(即梯度流积分较大)的神经元,即使单独看权重值不大,也被判定为关键结构通路。

第二件事:用Fisher迹归一化做曲率感知的权重修正。 模型参数空间中,"高曲率"的方向意味着决策边界在此处急剧弯曲——用大白话说,这是模型逻辑推理的"关节"所在。RKU在这一步识别的是参数空间中的"动能尖峰"(kinetic spikes)——那些在曲率变化剧烈处活跃的神经元。这些尖峰恰好对应了CoT推理中逻辑路由的结构化通路。

把两件事合在一起,RKU给出的不是一个静态的重要性分数,而是一张描述"信息在模型体内流动时谁在真正干活"的能量图谱。剪枝不再基于谁"块头大",而是基于谁"出力多"。

效果数据:在Qwen-2.5-7B和LLaMA-3-8B上,40%稀疏度下,RKU在GSM8K上保住了13.34%的准确率。绝对分数虽然不高(因为7-8B级别模型本身的推理能力上限就有限),但相比传统量级剪枝几乎归零的成绩,RKU在所有基线中排名最强。作者还验证了RKU在分布外评估中更好保留推理相关表征的能力。

三、更深一层的呼应:推理模型的剪枝,必须"推理感知"

RKU这篇工作的真正贡献,不在于它提出了一个新的剪枝公式,而在于它验证了一个对行业有直接指导意义的命题:对推理模型的压缩,必须使用推理感知的工具。

这个命题从何而来?

2025-2026年,CoT已经从论文里的技巧变成了所有推理模型的标配。但很少有人注意到,CoT改变了模型参数的"使用模式"。在通用模型中,大量参数参与的是"语言流畅性"的维护——选词、造句、保持语法。这些任务的信号集中在高频token上,因此量级大的参数确实贡献多。但在CoT推理中,被激活最频繁的不是那些"写漂亮句子"的神经元,而是那些负责"保持逻辑一致性"的精细结构。

这就是为什么量级剪枝在推理模型上翻车翻得这么彻底——它还在用通用模型的逻辑去裁推理模型。

钱天浩的RKU是第一个系统性地将"推理感知"引入结构剪枝的工作。这对正在部署推理模型到边缘端的企业来说,是一个重要的信号:你不能拿去年为通用模型准备的压缩方案,直接套在今年的推理模型上。部署技术栈也需要跟着模型能力一起升级。

四、产业连接:2026年5月,压缩加速成了整个行业的共同焦虑

RKU的入选不是孤例。如果把2026年5月的技术动态连成一片,会发现"让模型跑得更快、压得更小、成本更低"已经成为整个行业最密集的技术投入方向。

5月6日,谷歌为Gemma 4系列推出MTP起草器,基于推测解码架构,在不降低输出质量的前提下将推理速度最高提升3倍。值得注意的是,Gemma 4在发布仅数周内下载量已突破6000万次,说明开发者对"能在自己设备上跑起来的好模型"有着巨大的需求。而MTP解决的正是标准大模型推理中的内存带宽瓶颈——处理器需将数十亿参数从显存传输至计算单元,导致大量计算资源闲置。

5月9日,史蒂文斯理工学院的研究团队提出了MEERKAT框架,将联邦学习中的每次通信量削减超过1000倍——从GB级降到MB级,同时完全绕过了反向传播的能耗开销。

5月18日,摩尔线程在"词元时代,万物智能"年度发布会上展示了夸娥万卡级智算集群,Dense大模型训练的模型算力利用率达60%,MoE大模型上达40%,有效训练时长达90%。同时宣布MUSA生态全面兼容CUDA 12.8,为国产GPU上的模型推理提供原生加速支持。

这些来自芯片层、训练框架层、模型压缩层的努力,指向同一个结论:2026年,算力瓶颈已经从"能不能训得动"变成了"能不能跑得顺、压得小、省着用"。在这个背景下,RKU这类"推理感知"的压缩方法,不是锦上添花,而是行业需要的关键拼图。

五、技术局限与未竟之问

诚实地说,RKU目前仍然是一把"手术刀",而不是一条"流水线"。

第一,稀疏度的天花板依然存在。 即便用RKU,40%稀疏度下GSM8K的准确率也只有13.34%。这说明结构剪枝在推理任务上的能力边界远没有被突破——RKU是比传统方法好得多,但离"能用"还有距离。论文作者也坦言,更高稀疏度下推理能力依然会崩盘,只是崩盘点被推后了。

第二,方法目前只在7B-8B规模的模型上验证。 更大模型上的表现如何?临界稀疏度是否随模型规模移动?这些问题尚无答案。尤其是在百亿参数以上的推理模型(如DeepSeek-V4系列)上,RKU能否保持优势仍是未知数。

第三,RKU的计算开销本身也需要考量。 交替梯度流积分和Fisher迹归一化都需要额外的前向传播和梯度计算。虽然论文声称是"轻量级"的,但在生产环境中对千亿参数模型做全量RKU分析的成本有多高,目前没有公开数据。

六、结语

结构剪枝一直被视为模型压缩的"圣杯"——直接砍掉不重要的参数,不改变架构,不增加推理延迟。但2026年的这一波研究告诉我们,这把手术刀必须"看清楚再切"。

RKU的价值,正是给剪枝配上了一副眼镜。它让我们看到了模型内部的能量流动图景——哪些神经元在推理时真正发力,哪些只是"看起来很忙"。在这个从"能跑就行"到"又小又快又准"的产业转折点上,这样的洞察不再是学术圈的自娱自乐,而是决定着模型能否从云端走进手机、走进眼镜、走进工厂的真正门槛。

毕竟,一个跑不动的聪明模型,和一个跑得飞快的笨模型,用户都不会买单。RKU和它所代表的"推理感知压缩"路线,试图在这两者之间劈出一条新路。这条路才刚开工,但方向值得认真看。

补充视角:模型"瘦身不降智"的完整拼图

这篇文章写得非常精彩,精准地切中了当前大模型落地最痛的"最后一公里"——如何在保留推理能力(CoT)的前提下进行极致压缩。

你提到的RKU(相对动能效用)方法确实为行业提供了一副看清模型内部能量流动的"眼镜"。不过,针对标题中"为什么剪掉40%参数,精度反而能保住?"这个问题,结合2025到2026年的最新技术动态,其实还有几个更深层的视角可以补充,它们共同构成了让模型"瘦身不降智"的完整拼图:

1. 模型的"过参数化"与损失曲面的宽容度

RKU解决了"剪谁"的问题,但模型之所以能被剪,本质上是因为现代神经网络普遍存在 "过参数化" 现象。

  • 冗余即容错: 就像一个词汇量极大的人,哪怕忘掉一些生僻词依然能流畅交流。模型中大量的参数其实是冗余的,这为剪枝提供了天然的"容错空间"。
  • 平坦的损失曲面: 深度学习模型的损失函数往往包含大量连通的"好解"区域(像一个宽阔的山顶平台,而不是孤立的高峰)。这意味着即使我们移除了部分参数,只要核心通路还在,模型依然能停留在性能较好的区域内,而不会直接跌入谷底。

2. "剪后修复"哲学:不仅要会剪,还要会修

正如文章所言,激进剪枝会破坏模型的信息流动路径。因此,2025-2026年的另一大技术突破在于 "剪后的结构重建与参数重置" 。

  • 华为 Pangu Light 的启示: 华为诺亚方舟实验室提出的Pangu Light框架就深刻洞察到了这一点。它引入了跨层注意力剪枝(CLAP)和稳定化LayerNorm剪枝(SLNP)。简单来说,当决定剪掉某一层时,它不会直接丢弃,而是将该层的"精华"注意力权重巧妙地"缝合"并重新初始化到保留层中。
  • 意义: 这种"剪后即修复"的思路,确保了模型在"裁员"后,剩余的员工(参数)能迅速适应新的组织架构,维持信息流的通畅,从而避免了性能的断崖式下跌。

3. 校准数据的革命:用"推理轨迹"代替标准答案

对于推理模型(RLMs)而言,剪枝失败还有一个关键原因:校准数据与模型实际工作模式的不匹配。

  • RESP 框架的自我反思: arXiv在2025年底提出的RESP(Self-Reflective Structured Pruning)框架指出,传统的剪枝依赖人工标注的标签来评估参数重要性,但这无法反映模型在进行多步推理时的真实状态。RESP创新性地使用**模型自身生成的"推理轨迹"**作为校准信号。
  • 对齐推理动态: 通过捕捉模型在一步步思考过程中的激活状态,剪枝算法能够更精准地识别出那些负责逻辑连贯性的神经元,从而在高达40%的稀疏度下,依然能在GSM8K等数学推理数据集上保持接近密集模型的准确率。

传统剪枝 vs. 推理感知剪枝 (2026新范式)

维度

传统量级剪枝

推理感知剪枝 (如RKU, RESP)

评判标准

权重的绝对值大小(静态)

能量交换、推理轨迹贡献(动态)

对待逻辑神经元

易误伤(因其权重往往不大)

重点保护(识别其高频参与逻辑路由)

校准数据

静态的标准答案/标签

模型生成的思维链(CoT)轨迹

40%稀疏度表现

推理能力脚踝斩(相变式崩盘)

显著缓解崩溃,保住核心推理通路

总结来说,RKU确实是2026年极具代表性的突破,它让我们意识到不能用裁减"通用语言模型"的老逻辑去硬套"推理模型"。而配合上"剪后修复机制"以及"基于推理轨迹的校准",我们正在从单纯的"做减法",进化为对模型进行一场精密的"神经外科手术"。这不仅是为了省成本,更是为了让聪明的模型真正具备走进手机、工厂和边缘设备的门票。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐