一句话讲清楚👉🏻:大型推理模型其实已经"知道"什么时候该停止思考,只是现有的采样方式掩盖了这个能力——SAGE方法通过累积自置信度释放了这一潜力。


思考的困境:想得越多,未必越好

自从DeepSeek-R1和OpenAI o1/o3系列横空出世,Chain-of-Thought(CoT)推理成为了AI界的标配。这些大型推理模型(Large Reasoning Models, LRMs)通过"想得更长"来解决复杂问题,确实取得了惊艳的效果。

但问题来了:想得越长,答案就越准吗?

研究给出了一个出人意料的答案:

  • DeepSeek-R1在AIME 2025上的回答比Claude 3.7 Sonnet长5倍,但准确率相当
  • QwQ-32B在AIME和HMMT上,最短的回答比随机采样的回答准确率还高2个百分点,而且用的token少了31%
  • 在AIME 2025上,72%的问题中,更长的回答反而更容易出错

这就像一个学生做数学题——写满三页草稿纸的不一定比写半页的正确。更糟糕的是,研究者发现模型往往在正确答案出现后,还会继续"废话"几百个token才停止。

在这里插入图片描述
SAGE释放了被pass@1掩盖的高效推理潜力,通过让LRM学习这些高效推理模式,SAGE-RL在多个挑战性数学基准上同时提升了推理能力和简洁性

惊人发现:模型"心里有数"

面对这个问题,来自北航和字节跳动的研究团队提出了一个大胆的假设:推理模型其实隐式地知道什么时候该停止思考,只是现有的采样范式掩盖了这个能力。

RFCS指标:量化"废话"程度

为了验证这个假设,研究者设计了一个巧妙的指标——RFCS(Ratio of the First Correct Step),即"首次正确答案出现的步骤索引 ÷ 总推理步骤数"。

如果RFCS = 1,说明模型一得到正确答案就停了;如果RFCS << 1,说明模型在得到正确答案后还"废话"了很久。

在这里插入图片描述
模型仅用500个token就得出了正确答案,却在当前采样策略下多用了452个冗余token才终止推理过程

统计结果显示,在MATH-500数据集上,所有模型超过一半的正确回答都存在显著的无效步骤。更令人担忧的是,经过更多后训练的模型(DeepScaleR)或更先进的推理模型(Qwen3-8B)在这个指标上并没有实质性改善。

在这里插入图片描述
MATH-500上各LRM的RFCS统计,RFCS(<< 1)表示RFCS不等于1的正确回答数量

SAGE:解锁模型的"自省"能力

基于上述发现,研究团队提出了SAGE(Self-Aware Guided Efficient Reasoning)——一种无需训练的采样范式,通过利用模型的累积自置信度来发现简洁且正确的推理链。

核心思想:累积置信度 vs 下一个token概率

传统采样关注的是"下一个token的概率",而SAGE关注的是"整个推理链的累积置信度"。

累积置信度分数 定义为:

其中 是第 个token的对数概率。

简单来说, 衡量的是模型对整个推理链的平均信心程度。

SAGE算法流程

SAGE的工作流程如下:

(1)候选序列扩展:维护top-个候选序列,每步从每个序列扩展出个最可能的下一个token,得到个候选。

(2)置信度筛选:使用累积置信度保留top-个最高分的序列。

(3)适时终止:当模型对停止信号</think>有高置信度时,终止推理链。

(4)答案生成:从发现的推理链中贪心解码出最终答案。

在这里插入图片描述
当根据模型置信度保留推理分支时,模型能够以强置信度终止思考;而累积置信度筛选的推理链更短且更准确

关键发现:高置信度路径导致高效推理

研究者发现了一个有趣的现象:

观察1:使用累积置信度筛选的推理链,准确率和token效率都显著更高。

在这里插入图片描述
DS-7B在MATH-500子集上的对比实验,使用筛选的推理链明显优于仅使用单步概率

观察2:高置信度路径自然导向高置信度的结束。当推理链按累积置信度筛选时,模型对停止信号</think>的排名始终位于前列。

在这里插入图片描述
累积置信度筛选的推理链中,停止信号的平均排名比例

观察3:随着探索宽度增加,模型收敛到更高的准确率和更短的回答。这证明了模型普遍具有高效的推理能力,只是被现有采样范式"锁住"了。

在这里插入图片描述
SAGE在各次运行中的Token效率对比

SAGE-RL:让模型学会高效思考

SAGE虽然有效,但需要较大的探索空间。如何将这种高效推理能力固化到模型中?

研究团队提出了SAGE-RL——将SAGE作为混合采样集成到基于组的强化学习(如GRPO、GSPO)中。

训练方式

在标准RLVR框架中,每组采样个回答。SAGE-RL的改进很简单:

  • 个样本使用标准随机采样
  • 2个样本使用SAGE采样

这种"混搭"方式让模型在训练过程中接触到高效推理链,从而学习到更精确的推理模式。

在这里插入图片描述
RLVR与SAGE-RL的训练动态对比。SAGE-RL在保持较低熵和KL散度的同时,实现了更高的准确率和更短的响应长度

实验结果:又快又准

在6个挑战性数学基准(MATH-500、AIME 2024/2025、AMC23、OlympiadBench、Minerva)上的实验结果令人印象深刻:

主要结果

方法 MATH-500 AIME 2024 AIME 2025 AMC23
DS-1.5B Baseline 78.4% 13.3% 6.7% 72.5%
+ GRPO 80.6% 16.7% 10.0% 77.5%
+ SAGE-GRPO 82.6% 20.0% 13.3% 82.5%

核心数据

  • 平均准确率提升 +2.1%
  • Token消耗降低 44.1%
  • MATH-500上Token效率提升最高达 105.3%
  • AMC23上Token效率提升最高达 114.7%

在这里插入图片描述
SAGE-RL调优后各模型的RFCS统计,冗余推理步骤大幅减少

深度分析

RFCS指标显著改善:SAGE-RL训练后的模型,正确答案出现后立即停止的比例大幅提高,证明模型确实学会了"适时止损"。

难任务表现更优:在MATH数据集的Level 4-5高难度题目上,SAGE-GRPO相比普通GRPO提升更为明显。

在这里插入图片描述
SAGE-GRPO在不同难度级别上的训练动态

技术细节:SAGE vs Beam Search

虽然SAGE基于beam search思想,但有两个关键区别:

区别1:评分函数不同

  • Beam Search使用累积概率
  • SAGE使用累积置信度(平均对数概率),避免了长度偏见

区别2:终止机制不同

  • Beam Search通常在固定长度或EOS token处停止
  • SAGE根据模型对</think>的置信度动态终止

在这里插入图片描述
TSearch w/ 与vanilla beam search的两个关键区别

展望与思考

SAGE揭示了一个深刻的事实:AI模型可能比我们想象的更"聪明"——它们知道何时该停止,只是我们没有给它们表达这种"自知之明"的机会。

这项工作的意义不仅在于提升了推理效率,更重要的是为理解和改进AI推理过程提供了新视角:

  1. 效率与准确性并非零和博弈:通过正确的采样策略,可以同时提升两者
  2. 模型的"元认知"能力:模型对自己的推理过程有一定的"自知之明"
  3. 训练范式的反思:现有的pass@1训练方式可能抑制了模型的某些潜在能力

未来,这种"自省式"的推理方式可能会成为AI系统的重要特征——不仅知道如何思考,还知道何时该停止思考。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐