大模型后训练大比拼：SFT、RLHF、PPO、DPO、GRPO、AsymRE、OD，哪个才是你的“神技”？

乔代码嘚

388人浏览 · 2026-05-19 15:37:54

乔代码嘚 · 2026-05-19 15:37:54 发布

本文对比了六种主流大模型后训练算法：SFT（监督微调）、RFT（拒绝采样微调）、PPO（近端策略优化）、GRPO（组相对策略优化）、AsymRE（非对称REINFORCE）和OD（同策略蒸馏）。SFT和RFT属于纯监督派，PPO和GRPO是同策略强化学习派，而AsymRE和OD则属于异策略与蒸馏派。文章分析了每种算法的核心逻辑、优缺点及适用场景，强调了没有一种算法是万能的，实际应用中往往需要组合使用。

最近看到了SDPO和AsymRE这两篇论文，对于后训练技术区别有点混淆，所以正好总结一下和各个主流算法的区别，给自己做一个笔记。

如果你在过去一年里关注过大语言模型（LLM）的训练，你一定被满天飞的缩写词轰炸过：SFT、RLHF、PPO、DPO、GRPO……最近又冒出了 AsymRE 和各类蒸馏（Distillation）大法。

如果把预训练（Pre-training）比作让模型“博览群书获取知识”，那么后训练（Post-training）就是“教它如何懂礼貌、有逻辑地回答问题”。今天，我们就来扒一扒，目前主流后训练与对齐算法，到底都在玩什么套路，它们之间又有什么爱恨情仇。

第一梯队：纯监督派

1. SFT (Supervised Fine-Tuning / 监督微调)

核心逻辑：“照我说的做，死记硬背。”
怎么玩：人类或强模型写好高质量的“问题-答案”对，强迫模型逐字逐句地模仿（交叉熵损失）。
优点：简单、直接、稳定。只要数据质量极高，模型很快就能学会特定格式（比如 JSON 输出、礼貌用语）。
致命伤：分布偏移与上限锁死。模型只是在“模仿”表面规律，并不知道“为什么”好。一旦遇到没见过的问题，容易胡言乱语（幻觉）；而且上限被人类标注者/数据集的水平死死卡住。

2. RFT (Rejection Sampling Fine-Tuning / 拒绝采样微调)

核心逻辑：“海选大比拼，只留状元郎。”
怎么玩：面对一个问题，让模型自己生成 N 个不同的回答，用奖励模型（Reward Model）或规则打分，把低分的直接扔进垃圾桶，只留下最高分的回答，拿最高分的回答做 SFT。
优点：极其适合起步！它是很多开源大模型（如 Llama 早期版本）极爱用的 Baseline，能迅速提升模型下限。
致命伤：数据极度浪费且缺乏梯度感知。生成 100 个回答扔掉 99 个，算力在燃烧！更惨的是，80分和100分的回答在 SFT 损失函数里权重一模一样，模型学不到“更好”和“一般好”的连续差异。

第二梯队：同策略强化学习派

为了突破 SFT 的天花板，强化学习（RL）登场了。模型不再死记硬背，而是通过不断试错，根据环境给的“分数（Reward）”来调整自己的策略（Policy）。这一派的特点是 On-policy（同策略），即必须用当前自己最新生成的答案来更新自己。

3. PPO (Proximal Policy Optimization)

核心逻辑：“稳扎稳打的六边形战士。”
怎么玩：OpenAI 掀起 RLHF 浪潮的绝对核心。引入了一个庞大的系统：Actor（生成网络）、Critic（打分网络，预测当前状态有多好）、Reward Model（奖励模型）和 Reference Model（参考模型，防止学偏）。
优点：数学基础扎实，上限极高，能真正激发模型的涌现能力和探索精神。
致命伤：显存杀手，极其难调。要同时在显存里塞下 4 个模型！而且超参数极多，奖励稍微崩坏一点，模型就会变成只会钻系统漏洞的“刷分狂魔”。

4. GRPO (Group Relative Policy Optimization)

核心逻辑：“同侪压力下的内卷之王。”
怎么玩：DeepSeek Math 和 R1 将其发扬光大。砍掉了极其占显存的 Critic 模型。面对一个问题，模型生成一组（Group）回答（比如 8 个），然后在这 8 个回答内部算平均分。比平均分高的给正反馈，低的给负反馈。
优点：极度省显存！计算逻辑极其优雅，非常适合做数学、代码这种有明确客观标准的任务。
致命伤：高度依赖 On-policy。这组回答必须是模型“刚刚”生成的。如果模型变强了，你拿它三天前生成的旧数据喂给 GRPO，算出来的新旧策略概率比值会爆炸，直接把训练搞崩。

第三梯队：异策略与蒸馏派

On-policy 强化学习好是好，但每次更新都要让模型实时生成一大堆数据，推理算力成本高得吓人。于是，近两年前沿研究开始探索如何高效利用旧数据和外部力量。

5. AsymRE (Asymmetric REINFORCE)

核心逻辑：“淘金旧日记忆，无视过往败绩。”
怎么玩：引入经验回放（Experience Replay）缓冲区。把模型历史生成的旧数据存起来循环利用。为了解决旧数据带来的方差爆炸，它扔掉了 GRPO/PPO 里的重要性采样比率，并设置了一个“刻意压低的及格线 V”。
优点：省下海量推理算力！模型不再需要频繁实时生成数据，而是可以不断“反刍”历史高分错题本。它不对旧日的低分失败经验进行严厉惩罚（非对称），只强化那些突破阈值的成功轨迹。
定位：它是为了解决大规模 RL 训练成本过高而诞生的工程补丁，也是RFT的精神继承，或许对现在的Agent和长程（Long-Horizon）任务有帮助。

6. OD（On-policy Distillation/同策略蒸馏)

核心逻辑：“名师不仅给标准答案，还要亲自批改你的作业。”
怎么玩：传统的 SFT 蒸馏（用 GPT-4 生成数据喂给小模型）会有分布差异（GPT-4 的说话习惯小模型学不来）。On-policy 蒸馏是让小模型（Student）自己生成回答，然后让大模型（Teacher）对小模型生成的特定轨迹进行打分或提供 Logits 引导。最近提出的SDFT和SDPO算法通过Prompt工程构造自教师（Self-Teacher）省去了教师模型的束缚。
优点：完美弥合了分布鸿沟。小模型是在自己的能力边界（自己的生成分布）内，接受最强老师的“手把手定向辅导”。这是目前将复杂推理能力下放给小参数模型最有效的手段。
定位：仍然处于探索阶段，比如GLM-5中用到了OD来蒸馏不同阶段的能力。

什么是AI大模型应用开发工程师？

如果说AI大模型是蕴藏着巨大能量的“后台超级能力”，那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。

AI大模型应用开发工程师是基于AI大模型，设计开发落地业务的应用工程师。

这个职业的核心价值，在于打破技术与用户之间的壁垒，把普通人难以理解的算法逻辑、模型参数，转化为人人都能轻松操作的产品形态。

无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能，还是办公场景中的自动记账工具、会议记录用的语音转文字APP，这些看似简单的应用背后，都是应用开发工程师在默默搭建技术与需求之间的桥梁。

他们不追求创造全新的大模型，而是专注于让已有的大模型“听懂”业务需求，“学会”解决具体问题，最终形成可落地、可使用的产品。

CSDN粉丝独家福利

给大家整理了一份AI大模型全套学习资料，这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

在这里插入图片描述

AI大模型应用开发工程师的核心职责

需求分析与拆解是工作的起点，也是确保开发不偏离方向的关键。

应用开发工程师需要直接对接业务方，深入理解其核心诉求——不仅要明确“要做什么”，更要厘清“为什么要做”以及“做到什么程度算合格”。

在此基础上，他们会将模糊的业务需求拆解为具体的技术任务，明确每个环节的执行标准，并评估技术实现的可行性，同时定义清晰的核心指标，为后续开发、测试提供依据。

这一步就像建筑前的图纸设计，若出现偏差，后续所有工作都可能白费。

技术选型与适配是衔接需求与开发的核心环节。

工程师需要根据业务场景的特点，选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同，选型的合理性直接影响最终产品的表现。

同时，他们还要对行业相关数据进行预处理，通过提示词工程优化模型输出，或在必要时进行轻量化微调，让基础模型更好地适配具体业务。

此外，设计合理的上下文管理规则确保模型理解连贯需求，建立敏感信息过滤机制保障数据安全，也是这一环节的重要内容。

应用开发与对接则是将方案转化为产品的实操阶段。

工程师会利用选定的开发框架构建应用的核心功能，同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通，确保数据流转顺畅。

在这一过程中，他们还需要配合设计团队打磨前端交互界面，让技术功能以简洁易懂的方式呈现给用户，实现从技术方案到产品形态的转化。

测试与优化是保障产品质量的关键步骤。

工程师会开展全面的功能测试，找出并修复开发过程中出现的漏洞，同时针对模型的响应速度、稳定性等性能指标进行优化。

安全合规性也是测试的重点，需要确保应用符合数据保护、隐私安全等相关规定。

此外，他们还会收集用户反馈，通过调整模型参数、优化提示词等方式持续提升产品体验，让应用更贴合用户实际使用需求。

部署运维与迭代则贯穿产品的整个生命周期。

工程师会通过云服务器或私有服务器将应用部署上线，并实时监控运行状态，及时处理突发故障，确保应用稳定运行。

随着业务需求的变化，他们还需要对应用功能进行迭代更新，同时编写完善的开发文档和使用手册，为后续的维护和交接提供支持。

薪资情况与职业价值

市场对这一职业的高度认可，直接体现在薪资待遇上。

据猎聘最新在招岗位数据显示，AI大模型应用开发工程师的月薪最高可达60k。

在AI技术加速落地的当下，这种“技术+业务”的复合型能力尤为稀缺，让该职业成为当下极具吸引力的就业选择。

AI大模型应用开发工程师是AI技术落地的关键桥梁。

他们用专业能力将抽象的技术转化为具体的产品，让大模型的价值真正渗透到各行各业。

随着AI场景化应用的不断深化，这一职业的重要性将更加凸显，也必将吸引更多人才投身其中，推动AI技术更好地服务于社会发展。

CSDN粉丝独家福利

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

用户在命令行上发出了EULAS AGREED=1,表示不接受许可协议（虚拟机没卸载干净）

AtomGit开源社区

SD.Next：AI 图片生成的全能 WebUI

SD.Next是一款支持多平台硬件的AI图片生成WebUI工具，基于Stable Diffusion模型开发，拥有7,124 GitHub星标。它通过自研SDNQ量化引擎和动态卸载技术，显著降低显存占用，支持NVIDIA、AMD、Intel和Apple Silicon等多种硬件。功能涵盖文生图、图生图、视频生成，内置150+OpenCLIP模型和多种打标工具，提供图像校色功能。安装简单，支持15种