SFT、RLHF、DPO、RL 的区别与选择

起舞的皮卡邱

167人浏览 · 2026-06-16 11:25:59

起舞的皮卡邱 · 2026-06-16 11:25:59 发布

RAG解决外部知识进入上下文的问题，微调解决模型行为模式被参数吸收的问题。
SFT，全称是 Supervised Fine-Tuning，监督微调。一句话解释：SFT 就是给模型看“输入应该怎么对应输出”的高质量示范，让模型模仿这种回答方式。
RLHF，全称 Reinforcement Learning from Human Feedback，基于人类反馈的强化学习。一句话解释：RLHF 不是给模型一个标准答案，而是告诉模型：多个候选答案里，人类更喜欢哪一个。
DPO，全称 Direct Preference Optimization，直接偏好优化。一句话解释：DPO 直接用“好回答 vs 差回答”的偏好对训练模型，让模型更倾向于好回答，不再单独训练 Reward Model，也不走复杂 PPO 流程。
RLHF 先把人类偏好学成 Reward Model，再通过 PPO 优化模型；DPO 直接从偏好对更新模型。两者都依赖偏好数据，区别在于中间有没有单独的奖励模型和强化学习阶段。
RL 是让模型在环境里做动作，环境给奖励，模型学会让长期奖励更高。它不一定要人类偏好。只要 reward 能定义，就可以有 RL。
总结：SFT 本质是监督微调，适合让模型学习高质量示范。它更适合固定输出格式、固定任务流程、工具调用范式、行业话术和小模型蒸馏，不适合把频繁变化的业务知识硬塞进模型。动态知识优先用 RAG 或工具查询。
RLHF 解决的是偏好对齐问题。它不是给模型唯一标准答案，而是通过人类偏好让模型知道多个候选答案里哪个更符合人类或业务偏好。传统流程通常会训练 Reward Model，再用 PPO 这类强化学习算法优化模型。DPO 也是偏好优化，但工程路径更轻。它直接用 chosen/rejected 这种偏好对训练模型，省掉单独训练 Reward Model 和 PPO 的复杂流程。所以如果团队已经有高质量偏好数据，优先考虑 DPO，而不是一上来做完整 RLHF。
更广义的 RL 只有在 reward 清楚时才值得做，比如代码单测、数学答案、Agent 工具调用成功率、任务完成率这类可验证目标。reward 模糊时强行上 RL，很容易训歪。
基模越来越强后，低质量垂类微调确实容易被抹平，但控行为、控偏好、控成本、控风险仍然有价值。最后是否值得做，要看评测集、线上指标、成本收益和风险指标，而不是靠主观感觉。”