Policy model

不当菜鸡的程序媛 · 2026-06-08 22:04:55 发布

Policy Model（策略模型）极简说

强化学习里负责输出动作/决策的网络就是policy model。

• 输入当前状态，输出该做什么动作、每个动作的概率；

• 大模型RLHF里，policy model就是主大模型，用来生成回答。

一句话：拿主意、输出行为的模型。

与backbone模型的关系：

1. Policy model（策略模型）：RL里专门用来输出动作（LLM里就是生成文本）的模型，是RL流程里的决策主体。

2. Backbone（骨干/基座）：模型底层基础权重，是policy model的载体。

直白讲：
RLHF里，SFT微调后的基座backbone，包装成policy model来做文本生成；
backbone是权重本体，policy model是它在强化学习里的角色叫法，二者不是完全同一个概念，但共用一套主干网络。

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

WalkingLab 组织入驻 AtomGit，释放高校智能体开源科研成果

全球首个！京东全栈开源JoyAI-VL-Interaction，让大模型从“一问一答”走向“边看边说”

海外动态代理行业彻底换代，AI 数据时代新标准已到来

查看更多评论

已为社区贡献2条内容

温馨提示：您尚未绑定手机号