SFT 训练到头了？弱模型后训练实战指南（保姆级详解），性能提升从入门到精通，建议收藏！

小马不会过河

316人浏览 · 2026-04-07 19:33:57

小马不会过河 · 2026-04-07 19:33:57 发布

一、SFT的天花板在哪里

做过SFT的人都有体感：前几个epoch效果飞速上涨，之后就开始"磨"了。loss还在降，评测指标却不动了，甚至回退。

这不是错觉。

上图是标准SFT在Qwen3-4B-Base上的logit动态。蓝色实线是target token的logit，红色虚线是non-target tokens的平均logit。两条线在Epoch 2之后几乎同时停滞——target logit卡在35.88，non-target logit卡在2.09。

回忆一下SFT的梯度。对于任意non-target token ，交叉熵损失对其logit的梯度为：

梯度大小就等于模型分配给这个token的概率。当模型已经把target token的概率推到接近1，所有non-target token的概率都趋近于零，梯度自然消失。决策边界被"冻住"了——模型并没有完美，只是优化信号没了。

这就是优化饱和（optimization saturation）。继续SFT、做self-revision、reflection-based fine-tuning，本质上都在强化正确目标。但正确目标的logit已经够高了，再怎么推也没有信息增量。

二、反直觉的想法：用弱模型来驱动强模型

论文的洞察来自一个类比：一个能力很强的人和一个弱队友合作解题时，强者反而会被迫打磨自己的推理——提升来自观察和纠正弱者的错误，这些错误暴露了看似合理实际错误的路径，迫使强者更精确地区分对错。

形式化为Weak-Driven Learning（弱驱动学习）：

给定一个强模型和一个弱模型（比如历史checkpoint），弱驱动学习通过联合利用两者在数据集上的输出来构造训练信号，将强模型优化为更强的。

方向和知识蒸馏完全相反。蒸馏是"强→弱"，强teacher指导弱student。弱驱动学习是"弱→强"，用弱模型的不确定性激活强模型已经消失的梯度。

左侧对比了两种范式。蒸馏依赖更强的teacher（通常很贵或不可得），弱驱动学习只需要一个弱模型——自己的历史checkpoint就行。右侧雷达图：弱模型平均47.4%，强模型61.0%，弱驱动学习后达到69.1%，提升8.1个百分点。

三、WMSS：具体怎么做

论文的框架叫WMSS（Weak Agents Make Strong Agents Stronger），三个阶段。

3.1 Phase 1：初始化

从base模型出发，做一轮标准SFT得到。然后：

弱模型就是SFT之前的base checkpoint，强模型就是SFT之后的。不需要额外训练。

3.2 Phase 2：基于熵动态的课程数据激活

不是所有样本都值得继续学。WMSS用弱模型和强模型的熵差异来筛选。

对每个样本，计算熵变化：

然后按三个信号的加权混合来采样：

三个分量各有用途：

• 基础难度（）：弱模型本身就觉得难的样本，概念有挑战性，需要持续关注
• 巩固（）：说明强模型比弱模型更确定了，但大幅下降可能是脆弱的快速学习，需要回访巩固
• 回归修复（）：说明强模型反而比弱模型更不确定——弱模型处理得更好，意味着这个样本是可学的（不是噪声），强模型出现了遗忘，需要重点修复

超参选择，巩固信号占主导。

3.3 Phase 3：Logit Mixing联合训练

核心操作。对于每个训练样本，分别用弱模型和强模型做前向传播得到logits，线性混合：

用混合后的logits计算softmax分布，做标准交叉熵训练：

梯度通过反传到强模型参数上。弱模型在联合训练中也会被更新（也接收梯度），但最终部署的只有强模型。

整个流程可以迭代：每轮结束后，上一轮的强模型变成新的弱模型，新训出的模型作为强模型，再来一轮。

伪代码：

输入：数据集D，base模型M_0，迭代次数K，混合系数λPhase 1: M_1 = SFT(M_0, D)for t = 1 to K:    # 课程数据激活    ΔH = H(M_t) - H(M_{t-1})    D_active = WeightedSample(D, 基于ΔH的采样权重)        # 弱驱动联合训练    M_θ = M_t    for batch (x, y) in D_active:        z_weak = Forward(M_{t-1}, x)        z_strong = Forward(M_θ, x)        z_mix = λ * z_strong + (1-λ) * z_weak        更新M_θ via ∇CE(z_mix, y)    M_{t+1} = M_θ返回 M_{K+1}

四、为什么Logit Mixing能打破饱和

这是论文最扎实的部分。从梯度层面给出了严格分析，不只是"混合一下就好了"的直觉。

4.1 Margin收缩与Hard Negative重激活

定义target margin为，衡量target token和某个non-target token 之间的logit差距。

弱模型没怎么训练过，margin普遍比强模型小（更"困惑"）。定义hard-negative集合：

这些token在弱模型眼中和正确答案的区分度更低。混合logits后，margin变成凸组合：

对于，混合后的margin严格小于强模型单独的margin。Margin缩小，这些hard negatives在softmax中获得更多概率质量，梯度被放大。

4.2 总负概率质量增加

论文证明了一个干净的结论（Theorem 5.1）：如果弱模型在所有non-target token上的margin都不大于强模型（实践中几乎总成立），那么：

混合后target token的概率下降，non-target tokens的总概率上升。对应到梯度：non-target方向的梯度被放大，target方向的上推力也增强了（因为变大了）。

4.3 "压制主导"机制

实验数据验证了理论。下表是Qwen3-4B-Base在Epoch 3时的logit统计：

指标	SFT	WMSS	变化
Target Logit ()	35.88	36.10	+0.6%
Non-target均值 ()	2.09	0.90	-56.9%
Target-Background间距 ()	33.79	35.20	+4.2%
Logit方差 ()	2.93	3.45	+17.7%

提升主要不是来自把target logit推得更高（只涨了0.6%），而是大幅压制non-target logits（降了56.9%）。这是一种"压制主导"机制——让干扰项安静下来，而非让正确答案更突出。由于softmax的指数性质，logit空间的线性间距扩大在概率空间被指数放大，决策边界变得更锐利。

4.4 三阶段动态

论文给出了联合训练的三阶段机制解读：

Stage I：饱和区域放大。 训练早期，弱模型在很多non-target token上更困惑，混合后总负概率质量增加，偏向hard negatives，强模型主导有效更新。

Stage II：梯度屏蔽。 随着强模型变得自信，softmax Hessian收缩（时），弱模型和强模型之间的交叉Hessian也趋零。弱模型的影响自然减弱——它不会在强模型已经学好的地方制造干扰。

Stage III：零空间漂移。 softmax对全局logit平移不变（），loss在均值方向上没有曲率。梯度很小时，随机更新在这个零空间里漂移，产生logit均值的漂移但不改变centered sharpness。这解释了弱模型logit均值大幅上升（+158.1%）但centered norm反而下降的现象。

五、实验结果

5.1 主实验

论文在Qwen3-4B-Base、Qwen3-8B-Base、Qwen2.5-3B三个模型上实验，训练数据来自AM-1.4M（经质量过滤后约215K样本），对比SFT、UNDIAL、NEFTune三个基线。

Qwen3-4B-Base：

方法	数学平均	代码平均
SFT	64.1	63.1
UNDIAL	61.2	63.0
NEFTune	65.0	64.7
WMSS	69.1	66.8

Qwen3-8B-Base：

方法	数学平均	代码平均
SFT	66.7	71.2
UNDIAL	67.7	70.4
NEFTune	68.5	72.4
WMSS	72.9	77.6

几个关键发现：

难题提升最显著。 AIME2025上，4B模型从12.2%到20.0%（+64%相对提升），8B模型从15.6%到20.0%。AMC23上8B从45.0%到52.5%，AQUA上8B从63.0%到77.3%。越难的题，WMSS越有优势。

简单题没退化。 MAWPS上4B达到96.2%，8B达到97.8%，接近饱和但没有灾难性遗忘。

UNDIAL反而有害。 UNDIAL通过随机高斯噪声惩罚target logit来抑制过拟合，但在数学推理上平均掉了1.4%。直接打压正确答案的logit会破坏主训练信号，策略本身就有问题。WMSS不碰target logit，通过抬升hard negatives的概率来间接增强梯度，温和且有效。

NEFTune不够。 NEFTune在embedding层注入随机噪声，是一种盲目的正则化——不知道模型在哪些token上犯错。WMSS利用弱模型的历史困惑构造结构化纠正信号，在数学推理上高出NEFTune 4.1%（4B）和4.4%（8B）。本质上，随机扰动和结构化纠正的差距就在这里。

5.2 收敛分析

训练轨迹是典型的"快速获取+渐近稳定"两阶段。前3个epoch增益明显，第4个epoch开始有过拟合迹象——AMC2023在Epoch 3之后急剧回退，GSM8K出现波动。Epoch 3-4是停训的最佳窗口。

5.3 消融实验

方法	AIME	MATH500	GSM8K	平均
Baseline (SFT)	12.2	66.1	83.9	54.1
+ CEDA	13.3	69.4	86.2	56.3
+ JTWS	16.7	70.2	87.6	58.2
WMSS (完整)	20.0	71.3	88.5	59.9

CEDA（课程数据激活）提供了+2.2%的基础增益，来自更好的数据筛选。JTWS（弱强联合训练）带来关键突破，AIME从13.3%跳到16.7%。两者结合后AIME达到20.0%，接近baseline的两倍。

数据筛选是必要基础，但打破推理瓶颈的核心是logit mixing。

5.4 混合系数的敏感性

控制强弱模型在混合logits中的权重，论文在范围内做了扫描：

	0.1	0.3	0.42	0.5	0.6	0.8	0.9
数学平均	71.7	72.7	75.5	74.4	69.7	70.9	67.6

呈倒U形，最优区间在。太大，混合logits退化为强模型自己的logits，弱模型的补偿消失。太小，弱模型主导分布，有效的target学习被削弱。

理论上也能验证这个最优区间。从logit统计估算强弱模型的centered norm比值，代入梯度份额交叉公式得到，落在经验最优区间内。

六、和相关工作的关系

6.1 vs. 知识蒸馏

传统蒸馏（Hinton et al., 2015）和LLM蒸馏（GKD、MiniLLM）的核心是模仿——让student的分布逼近teacher的分布。WMSS不做模仿，弱模型不是target，而是一个"梯度放大器"。它在强模型已经饱和的区域重新注入不确定性，让优化可以继续。

蒸馏需要一个比当前模型更强的teacher。如果你已经是最强的了呢？WMSS只需要自己的历史checkpoint，几乎零成本。

6.2 vs. Weak-to-Strong Generalization

OpenAI的Burns et al.（2023）提出"弱到强泛化"：用弱模型的标签训练强模型，强模型能泛化到超越弱标签的水平。但那个工作关注的是缺乏ground truth时如何利用弱监督。

WMSS解决的问题不同：在有ground truth的全监督设定下，如何突破SFT的优化饱和。弱模型的logits不是作为"标签"使用，而是作为"纠正信号"使用。

6.3 vs. 课程学习

传统课程学习（Bengio et al., 2009）按难度排序，从易到难训练。WMSS的CEDA模块也有课程的味道，但排序标准不是固定的难度，而是弱模型和强模型之间的动态熵差异。课程会随着训练自适应调整——上一轮学好的样本权重下降，出现遗忘的样本权重上升。

七、局限与思考

结果亮眼，但有几个点得注意。

复现性。 这是2026年2月的arXiv预印本，还没有外部独立复现。代码仓库已公开，但在更多模型和数据上的泛化性有待验证。

弱模型的选择。 论文用的弱模型就是SFT前的base checkpoint，最简单也最便宜。但如果base模型本身很差（比如在某个领域没有预训练数据），它的"不确定性"可能不是结构化的——不是"在几个合理选项之间犹豫"，而是完全随机的困惑。这种情况下logit mixing的效果可能打折扣。

和RL的关系。 论文没有和GRPO、PPO等RL方法做对比。WMSS本质上还是SFT范式内的改进，RL通过探索发现新策略，WMSS通过梯度放大精炼已有决策边界，机制不同。两者能否叠加，是一个有意思的开放问题。

训练开销。 推理阶段零额外开销没问题，但训练阶段需要同时维护弱模型和强模型的前向传播，显存和计算量大约翻倍。论文没怎么讨论这个trade-off。

的选择。 最优在0.42-0.48之间，论文给了一个基于centered norm比值的启发式估算。但这个比值会随训练变化，固定可能不是最优的。动态调整值得探索。

八、总结

WMSS的想法简洁：SFT饱和的根源是梯度消失，弱模型的logits恰好能在饱和区域重新注入概率质量，放大梯度信号。不需要更强的teacher，不需要RL探索，不需要额外推理开销——只需要训练过程中本来就会产生的历史checkpoint。

从更大的视角看，这篇论文质疑了一个默认假设：学习信号必须来自"更好的"来源。蒸馏需要更强的teacher，RLHF需要人类偏好，SFT需要高质量标注。但训练过程中的"废料"——历史checkpoint的困惑和错误——本身就蕴含有价值的训练信号。

这个思路能走多远，现在还不好说。但至少在数学推理和代码生成上，它证明了自己。对于已经把SFT做到头、又没有更强teacher可用的团队，翻出旧checkpoint试一试，可能是一个零成本的选择。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～