Post-training(后训练)极简解释

模型预训练(pre-training) 做完基础学习后,再额外做一轮针对性微调训练,就叫 post-training。
简单分两类:

1. SFT 监督微调:用人写好的问答样本教模型听懂指令;

2. RLHF 人类反馈强化学习:用人类打分再优化,让回答更贴合人的偏好。

一句话总结:大模型基础预训练完,后续所有优化训练流程统称 post-training。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐