Post-training（后训练）极简解释

不当菜鸡的程序媛 · 2026-06-08 21:52:26 发布

模型预训练（pre-training）做完基础学习后，再额外做一轮针对性微调训练，就叫 post-training。
简单分两类：

1. SFT 监督微调：用人写好的问答样本教模型听懂指令；

2. RLHF 人类反馈强化学习：用人类打分再优化，让回答更贴合人的偏好。

一句话总结：大模型基础预训练完，后续所有优化训练流程统称 post-training。

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

WalkingLab 组织入驻 AtomGit，释放高校智能体开源科研成果

全球首个！京东全栈开源JoyAI-VL-Interaction，让大模型从“一问一答”走向“边看边说”

海外动态代理行业彻底换代，AI 数据时代新标准已到来

查看更多评论

已为社区贡献2条内容

温馨提示：您尚未绑定手机号