Policy model
·
Policy Model(策略模型)极简说
强化学习里负责输出动作/决策的网络就是policy model。
• 输入当前状态,输出该做什么动作、每个动作的概率;
• 大模型RLHF里,policy model就是主大模型,用来生成回答。
一句话:拿主意、输出行为的模型。
与backbone模型的关系:
1. Policy model(策略模型):RL里专门用来输出动作(LLM里就是生成文本)的模型,是RL流程里的决策主体。
2. Backbone(骨干/基座):模型底层基础权重,是policy model的载体。
直白讲:
RLHF里,SFT微调后的基座backbone,包装成policy model来做文本生成;
backbone是权重本体,policy model是它在强化学习里的角色叫法,二者不是完全同一个概念,但共用一套主干网络。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)