大模型推理降本增效实战（非常详细），Token消耗优化从入门到精通，收藏这一篇就够了！

大靠山

156人浏览 · 2026-04-05 21:45:10

大靠山 · 2026-04-05 21:45:10 发布

一句话讲清楚👉🏻：大型推理模型其实已经"知道"什么时候该停止思考，只是现有的采样方式掩盖了这个能力——SAGE方法通过累积自置信度释放了这一潜力。

思考的困境：想得越多，未必越好

自从DeepSeek-R1和OpenAI o1/o3系列横空出世，Chain-of-Thought（CoT）推理成为了AI界的标配。这些大型推理模型（Large Reasoning Models, LRMs）通过"想得更长"来解决复杂问题，确实取得了惊艳的效果。

但问题来了：想得越长，答案就越准吗？

研究给出了一个出人意料的答案：

DeepSeek-R1在AIME 2025上的回答比Claude 3.7 Sonnet长5倍，但准确率相当
QwQ-32B在AIME和HMMT上，最短的回答比随机采样的回答准确率还高2个百分点，而且用的token少了31%
在AIME 2025上，72%的问题中，更长的回答反而更容易出错

这就像一个学生做数学题——写满三页草稿纸的不一定比写半页的正确。更糟糕的是，研究者发现模型往往在正确答案出现后，还会继续"废话"几百个token才停止。

在这里插入图片描述
SAGE释放了被pass@1掩盖的高效推理潜力，通过让LRM学习这些高效推理模式，SAGE-RL在多个挑战性数学基准上同时提升了推理能力和简洁性

惊人发现：模型"心里有数"

面对这个问题，来自北航和字节跳动的研究团队提出了一个大胆的假设：推理模型其实隐式地知道什么时候该停止思考，只是现有的采样范式掩盖了这个能力。

RFCS指标：量化"废话"程度

为了验证这个假设，研究者设计了一个巧妙的指标——RFCS（Ratio of the First Correct Step），即"首次正确答案出现的步骤索引 ÷ 总推理步骤数"。

如果RFCS = 1，说明模型一得到正确答案就停了；如果RFCS << 1，说明模型在得到正确答案后还"废话"了很久。

在这里插入图片描述
模型仅用500个token就得出了正确答案，却在当前采样策略下多用了452个冗余token才终止推理过程

统计结果显示，在MATH-500数据集上，所有模型超过一半的正确回答都存在显著的无效步骤。更令人担忧的是，经过更多后训练的模型（DeepScaleR）或更先进的推理模型（Qwen3-8B）在这个指标上并没有实质性改善。

在这里插入图片描述
MATH-500上各LRM的RFCS统计，RFCS(<< 1)表示RFCS不等于1的正确回答数量

SAGE：解锁模型的"自省"能力

基于上述发现，研究团队提出了SAGE（Self-Aware Guided Efficient Reasoning）——一种无需训练的采样范式，通过利用模型的累积自置信度来发现简洁且正确的推理链。

核心思想：累积置信度 vs 下一个token概率

传统采样关注的是"下一个token的概率"，而SAGE关注的是"整个推理链的累积置信度"。

累积置信度分数定义为：

其中是第个token的对数概率。

简单来说，衡量的是模型对整个推理链的平均信心程度。

SAGE算法流程

SAGE的工作流程如下：

（1）候选序列扩展：维护top-个候选序列，每步从每个序列扩展出个最可能的下一个token，得到个候选。

（2）置信度筛选：使用累积置信度保留top-个最高分的序列。

（3）适时终止：当模型对停止信号</think>有高置信度时，终止推理链。

（4）答案生成：从发现的推理链中贪心解码出最终答案。

在这里插入图片描述
当根据模型置信度保留推理分支时，模型能够以强置信度终止思考；而累积置信度筛选的推理链更短且更准确

关键发现：高置信度路径导致高效推理

研究者发现了一个有趣的现象：

观察1：使用累积置信度筛选的推理链，准确率和token效率都显著更高。

在这里插入图片描述
DS-7B在MATH-500子集上的对比实验，使用筛选的推理链明显优于仅使用单步概率

观察2：高置信度路径自然导向高置信度的结束。当推理链按累积置信度筛选时，模型对停止信号</think>的排名始终位于前列。

在这里插入图片描述
累积置信度筛选的推理链中，停止信号的平均排名比例

观察3：随着探索宽度增加，模型收敛到更高的准确率和更短的回答。这证明了模型普遍具有高效的推理能力，只是被现有采样范式"锁住"了。

在这里插入图片描述
SAGE在各次运行中的Token效率对比

SAGE-RL：让模型学会高效思考

SAGE虽然有效，但需要较大的探索空间。如何将这种高效推理能力固化到模型中？

研究团队提出了SAGE-RL——将SAGE作为混合采样集成到基于组的强化学习（如GRPO、GSPO）中。

训练方式

在标准RLVR框架中，每组采样个回答。SAGE-RL的改进很简单：

个样本使用标准随机采样
2个样本使用SAGE采样

这种"混搭"方式让模型在训练过程中接触到高效推理链，从而学习到更精确的推理模式。

在这里插入图片描述
RLVR与SAGE-RL的训练动态对比。SAGE-RL在保持较低熵和KL散度的同时，实现了更高的准确率和更短的响应长度

实验结果：又快又准

在6个挑战性数学基准（MATH-500、AIME 2024/2025、AMC23、OlympiadBench、Minerva）上的实验结果令人印象深刻：

主要结果

方法	MATH-500	AIME 2024	AIME 2025	AMC23
DS-1.5B Baseline	78.4%	13.3%	6.7%	72.5%
+ GRPO	80.6%	16.7%	10.0%	77.5%
+ SAGE-GRPO	82.6%	20.0%	13.3%	82.5%

核心数据：

平均准确率提升 +2.1%
Token消耗降低 44.1%
MATH-500上Token效率提升最高达 105.3%
AMC23上Token效率提升最高达 114.7%

在这里插入图片描述
SAGE-RL调优后各模型的RFCS统计，冗余推理步骤大幅减少

深度分析

RFCS指标显著改善：SAGE-RL训练后的模型，正确答案出现后立即停止的比例大幅提高，证明模型确实学会了"适时止损"。

难任务表现更优：在MATH数据集的Level 4-5高难度题目上，SAGE-GRPO相比普通GRPO提升更为明显。

在这里插入图片描述
SAGE-GRPO在不同难度级别上的训练动态

技术细节：SAGE vs Beam Search

虽然SAGE基于beam search思想，但有两个关键区别：

区别1：评分函数不同

Beam Search使用累积概率
SAGE使用累积置信度（平均对数概率），避免了长度偏见

区别2：终止机制不同

Beam Search通常在固定长度或EOS token处停止
SAGE根据模型对</think>的置信度动态终止

在这里插入图片描述
TSearch w/ 与vanilla beam search的两个关键区别

展望与思考

SAGE揭示了一个深刻的事实：AI模型可能比我们想象的更"聪明"——它们知道何时该停止，只是我们没有给它们表达这种"自知之明"的机会。

这项工作的意义不仅在于提升了推理效率，更重要的是为理解和改进AI推理过程提供了新视角：

效率与准确性并非零和博弈：通过正确的采样策略，可以同时提升两者
模型的"元认知"能力：模型对自己的推理过程有一定的"自知之明"
训练范式的反思：现有的pass@1训练方式可能抑制了模型的某些潜在能力

未来，这种"自省式"的推理方式可能会成为AI系统的重要特征——不仅知道如何思考，还知道何时该停止思考。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

深入Android Framework：从核心原理到面试实战

AtomGit开源社区

【腾讯位置服务开发者征文大赛】WorkBuddy + tencentmap skill 打造从“查地图“到“对话地图“—— AI 赋能 + 腾讯地图 API 打造智能出行规划助手

AtomGit开源社区

C/C++内存管理

代码段（Text Segment）内容：编译后的机器指令（如函数 main()、printf() 的代码）。属性：只读（防止程序意外修改指令），可被多个进程共享（节省内存）。数据段（Data Segment）初始化数据：显式初始化的全局/静态变量。代码语言：javascriptAI代码解释代码语言：javascriptAI代码解释堆（Heap）动态内存：通过分配，需。代码语言：javascr