Policy Model(策略模型)极简说

强化学习里负责输出动作/决策的网络就是policy model。

• 输入当前状态,输出该做什么动作、每个动作的概率;

• 大模型RLHF里,policy model就是主大模型,用来生成回答。

一句话:拿主意、输出行为的模型。

与backbone模型的关系:

1. Policy model(策略模型):RL里专门用来输出动作(LLM里就是生成文本)的模型,是RL流程里的决策主体。

2. Backbone(骨干/基座):模型底层基础权重,是policy model的载体。

直白讲:
RLHF里,SFT微调后的基座backbone,包装成policy model来做文本生成;
backbone是权重本体,policy model是它在强化学习里的角色叫法,二者不是完全同一个概念,但共用一套主干网络。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐