后训练：大模型能力提升秘籍，小白程序员必收藏！带你玩转微调和对齐

咔咔学姐kk

482人浏览 · 2026-03-25 14:25:59

咔咔学姐kk · 2026-03-25 14:25:59 发布

本文深入探讨了后训练在预训练模型基础上的重要性与方法，涵盖微调与对齐技术。文章不仅分析理论，还提供Llama 3等模型的实际操作指南，适合开发者深入了解并应用。后训练通过调整模型参数适应新任务，其扩展律和RL训练成为关键。文章详细解析了SFT微调、对齐技术及RLHF的训练流程，并对比了不同强化学习策略优化算法，旨在帮助读者掌握提升大模型性能的核心技术。

什么是后训练？

后训练（Post-Training）是指在预训练模型的基础上，针对特定的任务或数据集进行额外的训练。这个阶段通常涉及到微调（Fine-tuning）和对齐（Alignment），即调整预训练模型的参数以适应新的任务。

黑色：预训练阶段

红色：后训练阶段

紫色：推理测试阶段

为什么要进行后训练？

Post-training重要性-后训练扩展律Post-training scaling laws 已经出现

Pre-traing阶段的scaling law

计算量C，模型参数量N ,数据大小D，当不受其它两个因素制约时，模型性能与每个因素均呈幂等关系，三者满足；

随着模型尺寸的逐渐增大，预训练阶段参数扩展带来的边际收益开始递减，基于RL的post-trainging将会成为下一个突破点；
自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正，仅依靠生成式方法和扩大参数规模，收益有限，需要寻找额外的Scaling Laws；

GPT（Generative Pretrained Transformer）系列是典型的自回归语言模型。在 GPT 模型中，它的生成过程是基于自回归机制。例如，在文本生成任务中，给定一个初始的输入文本序列（可以是一个单词、一个句子或一段话），模型会预测下一个单词出现的概率分布。假设输入序列是 “The cat”，模型会计算在这个序列之后不同单词（如 “runs”“jumps”“sleeps” 等）出现的概率，然后从这个概率分布中采样一个单词作为下一个生成的单词。

新的扩展维度：Al能力的提升不再局限于预训练阶段，还可以通过在 Post-Training 阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升，即Post-Training Scaling Laws 以及 Test-time scaling Resoning ；

随着训练时的计算量和测试时的计算量的增加，模型性能也会随之提升。

常见大模型后训练流程

这里以Llama 3来示例：

1.持续通过人工标注或机造方式生成偏好pair样本，训练Reward Model；

2.基于当前能力最好的模型，随机采集一批 {Prompt} ，每个Prompt拿最好的模型做 K 次数据生成采样，每个Prompt就得到 K 条 <Prompt,Responsek> 数据；

3.拒绝采样：对第2步采样 K 个 <Prompt,Responsek> 数据，用Reward Model打分，并从中选取打分最高 topN 条样本。作为指令微调的精选样本，训练SFT Model；

4.训完SFT Model，再通过持续收集的偏好对样本（同步骤1）做对齐学习（Llama使用的是DPO）。最终得到了一个比当前模型更好的模型；

5.持续做步骤1~步骤4，飞轮迭代优化模型。

训练数据

SFT data

采样模型多次，让RM选出最好的回复，作为SFT data的一部分。部分细节如下：

采样什么模型？两种情况。迭代中表现Avg score最好的模型，或者在某个particular capability上表现最好的模型。
采样多少次？K=10~30，即一般采样10-30次。
prompt哪来？人工标注的prompts。并在后训练迭代后期引入特殊的system prompts。

Preference data

采样什么模型？部署多个不同数据配比和对齐方法训练的模型，针对每个prompt选取两个不同的模型进行采样。原因：不同模型能够在不同的能力维度上表现出差异，数据质量和多样性更好。
偏好等级？四个等级：显著更好（significantly better），更好（better），稍微更好（slightly better），略微更好（marginally better）。
允许修改：标注同学可以进一步优化chosen response，最后edited > chosen > rejected。
迭代式难度：最后随着模型改进逐步提高prompt复杂度。

微调 Fine-tuning

微调是指在预训练模型的基础上，使用特定任务的数据集进行进一步训练，以使模型适应特定任务或领域。其目的是优化模型在特定任务上的性能，使模型能够更好地适应和完成特定领域的任务。

SFT (Supvised Fine tuning ) 微调方法

全量微调 VS 部分微调

全量微调 Full Fine-Tuning，FFT

是指在预训练模型的基础上，使用特定任务的数据集对模型的所有参数进行进一步训练，以使模型更好地适应特定任务或领域的过程。

部分微调 PEFT（parameter-efficient fine-tuning）参数高效微调

一种针对大型预训练模型的微调技术，旨在减少训练参数的数量，从而降低计算和存储成本，同时保持或提升模型性能仅微调模型中的一小部分参数，常见方法如下：

选择参数子集
重新参数化
LoRA（Low-Rank Adaptation）使用低秩表示重新参数化模型权重
核心思想是将权重矩阵 W 分解为两个低秩矩阵 A 和 B 的乘积，即：

其中：

是预训练模型的原始权重矩阵。

A 和 B 是两个低秩矩阵，其维度远小于 W。

通过这种方式，LoRA 只需要更新 A 和 B 的参数，而不是整个 W。这显著减少了需要更新的参数数量，从而提高了微调的效率。

添加额外的可训练的token
Prompt-tuning

对齐 Alignment

对齐是指通过各种技术手段，使模型的输出与人类的偏好和价值观对齐，确保模型的行为和决策符合人类社会的期望和标准。对齐技术旨在解决模型可能带来的潜在问题，如生成有害内容、不符合伦理的输出等。强化学习是实现模型对齐的核心工具，即可通过人类反馈强化学习（RLHF）（Reinforcement Learning from Human Feedback）的方式，通过训练奖励模型对齐模型输出与人类偏好，强化学习中需要用到的关键组成部分如下

带有人类偏好反馈的标签数据

<input,accept,reject>

奖励模型（Reward Model）-> 奖励信号

Rule-based RM
Model-based RM

强化学习策略优化算法

DPO (Direct Preference Optimization) 直接偏好优化
PPO （Proximal Policy Optimization）近端策略优化
GRPO（Group Relative Policy Optimization）组内相关策略优化算法

强化学习策略优化算法 DPO VS PPO VS GRPO

RHLF即基于人类反馈的强化学习的训练流程中的涉及到的策略优化算法，常见的有以下几种：

PPO（Proximal Policy Optimization）近端策略优化
是 OpenAI 在2017年提出的一种基于策略梯度（Policy Gradient）的强化学习算法。
优化过程是构建一个损失函数，需要根据奖励模型的奖励信号和新旧策略差异计算损失函数，并且会限制策略更新的幅度，保证了模型的稳定性。
损失函数：

其中是新旧策略概率之比，反映新旧策略的改进情况。

是优势估计值，反映智能体选择某个动作的好坏。

clip是剪辑机制，反映经过剪辑后的改进结果，防止进步过快或退步过多，保待稳定的训练过程。

选择最小值： 1）基于新策略直接计算出来的值，2）经过剪辑后的值，保持训练的稳定性。

DPO(Direct Preference Optimization)直接偏好优化
优化过程相对直接。不需要训练一个单独的奖励模型。直接利用人类偏好排序数据（概率比）来构建目标函数并优化策略；
目标：最大化用户偏好数据的生成概率，同时减少用户非偏好数据的生成概率；
无需明确的奖励模型，更多依赖于用户提供的偏好排序或比较数据，不需要同环境进行交互，适用于需要从静态数据（如用户的偏好反馈）中学习的任务，并且高度依赖用户反馈的数据质量；
GRPO（Group Relative Policy Optimization）组内相关策略优化算法

与PPO相比，无需额外训练价值模型，通过从同一问题的多个输出中计算平均奖励来替代价值函数的作用，从而减少了显存和计算负担，但依赖于奖励模型的评分来区分输出的好坏，这对于奖励模型的设计也提出了更高的要求。

强化学习 RM（Reward Model）奖励模型的优化思路

在传统的强化学习RL框架中，智能体通过与环境的交互来学习，以最大化累积奖励。但这种方法有时会面临奖励设计困难和学习效率低下的问题。为了解决这些难题，RLHF (Reinforcement Learning from Human Feedback)引入人类作为奖励信号的来源。人类反馈可以采取多种形式，包括直接的奖励信号、排名反馈、偏好比较等。

LLM as a judge：判别式的RM的准确率不足，可以用于事实性，输出风格等的判定；
Generative RM：先CoT自然语言推断的，再给出奖励信号，Let’s verfify step by step ；
Critic Model：随着大模型的不断迭代，其输出的内容越来越准确，错误也变得更加隐蔽，就算是专业的AI训练师也很难察觉那些错误所在，open ai训练了CriticGPT这种谈论家模型，用于加强RLHF，但注意用model去建模reward，可能会因为过度对齐人类的偏好而引入bias；
Outcome-based Reward Model（ORM）到 Process-based Reward Model（PRM）向着模型能生成正确的推理能力的方式去优化
PRM：过程奖励模型，是在生成过程中，分步骤，对每一步进行打分，是更细粒度的奖励模型。
ORM：结果奖励模型，是不管推理有多少步，对完整的生成结果进行一次打分，是一个反馈更稀疏的奖励模型。

注意reward model可能会被hacking的问题，可以将不同的reward model混在一起训练，让模型训多轮后也比较难找到RM的漏洞。

推理阶段（Test-time computation）的优化思路：

快思考 -> 慢思考

系统1思维：一次性生成完整解法的方法
Next Token Prediction 缺乏详细的中间推理步骤，模型一开始可能会犯错，错误会传播导致最终生成的答案也是错的；
系统2思维：模仿人类通过更慢，更深的思考过程进行推理
CoT: Training-Free的方式，通过分步的方式生成一系列中间推理步骤，从而提升模型推理能力；
Let’s think step by step ；
Best of N ；
MCTS （Monte Carlo Tree Search 蒙特卡洛树搜索） : 在Token或字句级别分解建模成节点后提供奖励信息（Process-based-Reward-Model）；
Token级别的节点：每个节点对应生成序列中的一个Token。通过MCTS，模型可以探索不同的Token序列，最终生成更连贯的响应；
句子级别的节点：在复杂推理任务中，每个节点可以代表一个完整的句子或推理步骤，帮忙模型更好地处理多步推理任务；
STaR（Self - Taught Reasoner）：教会模型从内部深入思考问题与答案的关联；
STaR 的核心思路是利用 LLM 已有的推理能力，迭代式的引导模型产生合理推理过程 (Rationales) 的能力，井将 Rationales 融入到训练过程内，让模型学会进行推理；
通过few shot example 来prompt模型生成答案和推理过程，过滤出正确的数据集生成微调数据集来微调；

deepseek-R1 强化学习训练时使用的prompt格式，要求模型将推理的过程的思路输出到标签中，引导模型进行慢思考；

Quiet-STaR (Self - Taught Reasoner)
通过控制模型在生成文本时自动生成推理步骤（即理由或rationales），从而提高模型的预测能力和推理性能；
在训练阶段，先基于前序token停下，进行think阶段，产出从多个thought，选择某一个thought加上前序token，进行预测下一个token，然后经过奖励模型的评判，进行反馈学习；
在推理阶段，利用think及talk对应的prompt来引导进入慢思考，在think结束后，再进行talk；

微调（SFT） VS 强化学习（RL）

SFT->示范给模型怎么样做是对的

RL->在环境中不断的试错，累积奖励，理论上RL能榨干模型，能突破人类的上限，但reward要能写好

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

RL 在泛化方面的优势：RL，特别是在基于结果的奖励下进行训练时，能够在基于规则的文本和视觉变体中实现泛化。这表明强化学习在处理不同情境和变化时具有更强的适应能力。强化学习通过与环境的交互不断调整策略，从而能够学习到更通用的知识和行为模式。
SFT 在记忆方面的倾向：SFT 则倾向于记忆训练数据，在分布外的场景中难以很好地泛化。这是因为监督微调主要是通过最小化预测与真实标签之间的误差来调整模型参数，容易使模型过度拟合训练数据。

SFT 对 RL 训练的重要性：尽管 RL 在泛化方面表现出色，但文章指出 SFT 对于有效的 RL 训练仍然至关重要。SFT 能够稳定模型的输出格式，为后续的 RL 训练奠定基础。没有经过 SFT 的模型可能在输出格式上不稳定，导致 RL 训练难以收敛或效果不佳。

以DeepSeek R1示例后训练

DeepSeek-R1

对于test-time阶段的处理，提及对于RPM及MCTS等手段，未被证实有效果；
R1-ZERO仅使用RL，未使用SFT；
Reward Model未使用RPM等相对复杂的模型，而是仅使用的了rule-based的RM；
强化学习算法使用的自家的GPPO，相对于PPO等，更加的简单，也更考验RM的设计能力；

给后续的推理模型后训练很多启发，仅RL也可以得到非常好的推理效果。

总结

RL -> deepseek R1 zreo
SFT+RL -> deepseek R1 llama3
SFT -> 蒸馏的一些小模型
test-time scaling -> openai o1

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于深度确定性策略梯度算法（DDPG）强化学习的滑模控制（SMC）自适应调参优化算法Simulink仿真

在复杂非线性系统控制领域，单一控制算法往往难以兼顾控制精度、鲁棒性与自适应能力，因此算法融合成为提升控制性能的重要方向。深度确定性策略梯度算法（DDPG）作为强化学习领域中经典的基于策略的算法，其核心优势在于能够适配连续动作空间的决策问题，无需依赖系统精确模型，具备自主探索与学习优化的能力，可通过与环境的实时交互不断调整策略，实现目标优化。