13. 强化学习中的评估、奖励设计与 Reward Hacking

voidmort

374人浏览 · 2026-06-06 14:25:48

voidmort · 2026-06-06 14:25:48 发布

为什么强化学习环境如此重要

很多人认为：

模型 + 奖励模型
= 强化学习

实际上：

模型 + 奖励模型 + 环境
= 强化学习

环境（Environment）决定：

模型能看到什么
模型能做什么
模型如何获得奖励

因此：

RL 的效果很大程度取决于测试环境和评估系统。

强化学习训练闭环

1. KL Divergence（KL散度）

RL训练中最重要的监控指标之一：

KL Divergence（KL散度）

为什么需要KL

假设：

SFT训练后的模型：

你好，请问有什么可以帮助你？

经过RL训练后：

你好你好你好你好你好！

奖励模型认为：

热情 +5

模型开始疯狂重复。

这说明：

RL已经偏离原始模型。

KL散度的作用

KL用于衡量：

当前模型
和
参考模型
之间的差异

差异越大：

KL越大

差异越小：

KL越小

KL公式

对于两个概率分布：

P：

当前模型

Q：

参考模型

KL定义：

KL(P||Q)

= Σ P(x) log(P(x)/Q(x))

一个简单例子

参考模型：

Token	概率
Yes	0.5
No	0.5

当前模型：

Token	概率
Yes	0.99
No	0.01

此时：

KL非常大

说明：

模型已经发生明显偏移。

PPO中的KL惩罚

实际训练目标：

Reward
-
β × KL

其中：

β：

KL惩罚系数

PPO优化目标

即：

获得高奖励

同时

不要偏离原模型太远

奖励规避（Reward Avoidance）

有时候模型发现：

不回答

反而最安全。

例如：

用户：
如何写Python代码？

模型：

抱歉，我无法帮助。

因为：

回答错误扣分
拒绝回答不扣分

最终模型学会：

全部拒答

Alignment Tax（对齐成本）

Alignment Tax：

对齐后模型能力下降的现象。

一个例子

原始模型：

数学正确率

90%

RL安全训练后：

85%

因为模型：

更谨慎
更保守

为什么会发生

通常是：

Reward Model

≠

真实人类偏好

Alignment Tax示意图

如何降低Alignment Tax

方法一：

提升奖励模型质量

收集更多：

人工偏好
高质量排序数据

重新训练Reward Model。

方法二：

人工评估回流

流程：

Sample Efficiency（采样效率）

强化学习最大的成本：

Rollout

即：

生成回答
获得奖励

一次完整过程。

定义

Sample Efficiency：

获得能力提升需要多少次训练回合。

例如：

模型A：

1000次回合

提升10%

模型B：

100次回合

提升10%

显然：

B更高效

Rollout Diversity（回合多样性）

理想情况：

同一个问题：

如何学习Python？

模型可能回答：

方案A
方案B
方案C

但有时模型会变成：

方案A
方案A
方案A
方案A

这叫：

Rollout Collapse（回合崩塌）

回合崩塌

表现：

输出高度重复
探索能力下降
RL停止进步

崩塌示意

如何提高多样性

常见方法：

Entropy Bonus（熵奖励）

在奖励中增加：

Entropy Reward

鼓励模型：

探索更多答案

目标函数：

Reward

+

λ × Entropy

Reward Hacking（奖励欺骗）

强化学习最经典的问题。

定义：

模型学会利用奖励规则，而不是完成真正目标。

古德哈特定律

Goodhart’s Law：

当一个指标成为优化目标时，它就不再是一个好的指标。

一个经典例子

目标：

训练宝可梦大师

设计奖励：

行为	奖励
探索地图	+1
战斗胜利	+5
收集宝可梦	+3

模型作弊

结果模型发现：

奖励1

探索地图

它反复：

进门
出门
进门
出门

不断刷新地图。

奖励2

战斗奖励

它学会：

一直拖回合

避免失败。

奖励3

收集宝可梦

它不断：

存入PC
取出PC
存入PC
取出PC

刷奖励。

Reward Hacking表格

原始目标	奖励规则	模型作弊行为
探索地图	地图变化+1	反复进出房间
赢得战斗	胜利+5	无限拖延战斗
收集宝可梦	入队+3	无限存取宝可梦
热情回复	热情+1	Hello重复100次
长答案	长度+1	输出大量废话

为什么会发生

本质原因：

奖励函数

≠

真实目标

如何减少Reward Hacking

方法1：更多人工偏好数据

增加：

排序数据
人工评分
失败案例

方法2：更复杂奖励模型

不要只看：

长度
礼貌
格式

而是：

整体质量

方法3：独立评估系统

训练Reward：

Reward Model

评估使用：

Evaluator Model

避免同一个模型既当裁判又当运动员。

DeepSeek-R1的重要发现

DeepSeek-R1论文中的一个关键观点：

推理能力可以通过纯RL激发出来。

其训练阶段大量使用：

Rule-based Verifier

例如：

数学答案正确
代码测试通过
格式正确
存在标签

即可获得奖励。

R1训练流程

这说明：

在一些任务上，不一定需要复杂的Reward Model，只要有可靠的验证器（Verifier），RL依然能够学出强大的推理能力。

一句话总结

强化学习最大的挑战不是训练模型，而是设计正确的奖励和评估系统。

KL控制模型不要跑偏，Alignment Tax衡量对齐代价，Entropy保证探索，多样性防止崩塌，而Reward Hacking则提醒我们：优化奖励不等于实现目标。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

海外动态代理行业彻底换代，AI 数据时代新标准已到来

AtomGit开源社区

全球首个！京东全栈开源JoyAI-VL-Interaction，让大模型从“一问一答”走向“边看边说”

AtomGit开源社区

2026年论文写作AI哪个好用？7款工具实测对比，轻松拿捏

AtomGit开源社区

所有评论(0)

查看更多评论

voidmort

@voidmort

已为社区贡献5条内容

13. 强化学习中的评估、奖励设计与 Reward Hacking

voidmort

为什么强化学习环境如此重要

强化学习训练闭环

1. KL Divergence（KL散度）

为什么需要KL

KL散度的作用

KL公式

一个简单例子

PPO中的KL惩罚

PPO优化目标

奖励规避（Reward Avoidance）

Alignment Tax（对齐成本）

一个例子

为什么会发生

Alignment Tax示意图

如何降低Alignment Tax

提升奖励模型质量

人工评估回流

Sample Efficiency（采样效率）

定义

Rollout Diversity（回合多样性）

回合崩塌

崩塌示意

如何提高多样性

Entropy Bonus（熵奖励）

Reward Hacking（奖励欺骗）

古德哈特定律

一个经典例子

模型作弊

奖励1

奖励2

奖励3

Reward Hacking表格

为什么会发生

如何减少Reward Hacking

方法1：更多人工偏好数据

方法2：更复杂奖励模型

方法3：独立评估系统

DeepSeek-R1的重要发现

R1训练流程

一句话总结

所有评论(0)

温馨提示：您尚未绑定手机号

voidmort