本文摘要

1999 年,Andrew Ng、Daishi Harada 和 Stuart Russell 在 ICML 发表了经典论文 Policy Invariance Under Reward Transformations: Theory and Application to Reward Shaping。这篇工作讨论了一个非常根本的问题:我们能否修改奖励函数,让学习更快,但又不改变最优策略? 论文给出的核心答案是:除了正线性变换之外,若要“普遍地”保持最优策略不变,附加奖励必须具有一种特殊结构——potential-based reward shaping

很多强化学习实践者第一次接触 reward shaping 时,会把它理解成“多给点中间奖励”。这当然没错,但也不够。真正困难的是:中间奖励一旦设计不当,智能体就会学会刷分,而不是完成任务。论文中的结论之所以重要,正是因为它把“哪些奖励修改是安全的”说清楚了。

论文信息相关地址

参考文献:

【强化学习论文解读 2】 Theory and application to reward shaping
[伏羲讲堂]奖励设计相关论文介绍

原文下载链接:Theory and application to reward shaping


1. 从一个 5×5 网格世界开始:稀疏奖励的问题

先看一个简单环境。

环境设定

  • 状态空间:5×5 网格世界,坐标记为 $ (x,y) $,其中 $ x,y\in{1,2,3,4,5} $
  • 起点:默认设为 $ (1,1) $
  • 终点:$ (5,5) $
  • 动作:上移、右移、下移、左移
  • 终止条件:智能体到达目标位置 $ (5,5) $ 后终止

2. 案例 1:奖励太稀疏,学习很慢

奖励设计(案例 1)

  • 撞边界:奖励 $ -5 $
  • 到达目标:奖励 $ +5 $
  • 其他位置:奖励 $ 0 $

这是一种很常见的“目标奖励 + 违规惩罚”设计。它的优点是简单、直观,也确实表达了任务目标:不要撞墙,尽快到达终点。

但它的问题也非常明显:

2.1 奖励极其稀疏

在绝大多数状态转移中,奖励都是 0。也就是说,智能体只有在两类时刻能拿到明确反馈:

  1. 走到边界,得到 $ -5 $
  2. 终于走到目标,得到 $ +5 $

这意味着什么?意味着在训练初期,智能体很难判断“哪一步是在朝正确方向前进”。在从 $ (1,1) $ 到 $ (5,5) $ 的过程中,大量动作都不会立刻带来差异化反馈。于是,学习信号延迟、信用分配困难、探索效率低。

2.2 价值传播慢

即便目标奖励 $ +5 $ 很重要,它也只会在轨迹结束时出现。TD 学习或 Q-learning 需要许多轮更新,才能把这一终点价值逐步向前传播。状态越多、路径越长,这个问题越严重。

2.3 工程上的典型后果

  • 训练前期几乎像在“瞎走”
  • Q 值更新幅度小、区分度低
  • 算法需要更多采样才能形成稳定策略

所以,工程上很自然的想法是:能不能把奖励改得更密一点?


3. 案例 2:奖励更稠密了,但新的问题出现了

奖励设计(案例 2)

  • 撞边界:奖励 $ -10 $
  • 到达目标:奖励 $ +10 $
  • 其他位置:奖励 $ +1 $

和案例 1 相比,这个奖励函数明显“更积极”:

  • 只要不撞墙、不终止,几乎每一步都有 $ +1 $
  • 目标奖励更大,边界惩罚也更大
  • 从表面看,反馈更丰富了,训练似乎也更稳定

但这里恰恰埋下了一个经典陷阱。

3.1 为什么案例 2 会诱发奖励投机

如果每走一步都能得到 $ +1 $,那么智能体就可能学会这样一件事:

不要着急结束任务,而是在安全区域里尽量多走几步,持续刷取过程奖励。

这就是所谓的 reward hacking / reward exploitation / 奖励投机
智能体最大化的是你写下来的奖励函数,不是你心里真正想要的任务目标。

在这个例子里,人类真正想要的是:

“尽快到达 $ (5,5) $ 并结束任务。”

但案例 2 写下来的目标却更像是:

“在不撞墙的前提下,多活一会儿、多拿一些 $ +1 $。”

如果折扣因子接近 1,或者 episode 上限较长,那么绕路、循环、拖延终止,都可能变成高回报策略。

3.2 一个直观比较

假设从某状态出发:

  • 方案 A:4 步到达终点,总回报约为 $ 1+1+1+10=13 $
  • 方案 B:先绕 8 步,再到终点,总回报约为 $ 1\times 8 + 10=18 $

如果没有别的约束,绕路反而更优
这说明案例 2 虽然“奖励更稠密”,但它已经在悄悄改变任务本身了。


4. 什么是奖励投机,真正的问题又是什么

Reward Hacking奖励投机):是强化学习中的一个现象,指智能体通过利用奖励函数的设计缺陷或漏洞,采取非预期的策略来最大化奖励,而非真正完成设计者的目标任务

论文关注的问题可以表述为:

我们能对奖励函数做怎样的修改,使得奖励更稠密、学习效率更高,同时又保证最优策略不变?

这正是 reward shaping 的出发点。论文指出:随意加中间奖励是危险的;要想既加速学习又不改最优策略,需要对 shaping reward 的形式加以严格限制。


5. Reward Shaping:核心思想是什么

reward shaping 的想法很简单:

在原始环境奖励 $ R $ 之外,再加一个“引导性奖励” $ F $,构造新的奖励

$ R’(s,a,s’) = R(s,a,s’) + F(s,a,s’) $

其中 $ F $ 的作用不是改变任务目标,而是给学习过程“指路”。

比如,在网格世界中,我们希望:

  • 朝目标靠近时,额外给一点正反馈
  • 远离目标时,额外给一点负反馈
  • 但不能因为这些额外反馈,让“绕圈刷分”变成更优策略

论文的关键贡献就在于:它给出了 什么样的 $ F $ 才是安全的


6. 预备知识:理解 reward shaping 前需要什么

6.1 MDP

一个马尔可夫决策过程可以写成:

$ M=\langle S,A,T,\gamma,R\rangle $

其中:

  • $ S $:状态集合
  • $ A $:动作集合
  • $ T(s’|s,a) $:转移概率
  • $ \gamma\in[0,1] $:折扣因子
  • $ R(s,a,s’) $:奖励函数

给定策略 $ \pi $,状态价值函数为:

$ V\pi(s)=\mathbb{E}\left[\sum_{t=0}\infty \gamma^t r_{t+1}\mid s_0=s,\pi\right] $

动作价值函数为:

$ Q^\pi(s,a)=\mathbb{E}\left[r_{1}+\gamma V^\pi(s_1)\mid s_0=s,a_0=a\right] $

最优策略满足:

$ \pi^(s)=\arg\max_a Q^(s,a) $

这些就是后面所有推导的基础。

6.2 reward shaping 的形式

我们定义一个附加奖励函数 $ F $,得到新奖励:

$ R’(s,a,s’)=R(s,a,s’)+F(s,a,s’) $

问题是:什么样的 $ F $ 不会改变最优策略?


7. 核心定理:什么样的 shaping 不改变最优策略

论文给出的定义是:

若存在某个势函数 $ \Phi:S\to\mathbb{R} $,使得

$ F(s,a,s’)=\gamma \Phi(s’)-\Phi(s) $

则 $ F $ 称为 potential-based shaping

核心定理

如果 shaping reward 具有上式形式,那么在新 MDP

$ M’=\langle S,A,T,\gamma,R+F\rangle $

中,最优策略与原 MDP 完全一致;反过来也成立。论文还给出更强的结论:不仅最优策略保持不变,连任意策略 $ \pi $ 的 $ Q^\pi $ 与 $ V^\pi $ 都只会发生一个与状态有关的整体平移。

更具体地说:

$ Q_{M’}\pi(s,a)=Q_M\pi(s,a)-\Phi(s) $

$ V_{M’}\pi(s)=V_M\pi(s)-\Phi(s) $

由于对同一个状态 $ s $,所有动作的 Q 值都减去了同一个常数 $ \Phi(s) $,所以:

$ \arg\max_a Q_{M’}^\pi(s,a)=\arg\max_a Q_M^\pi(s,a) $

最优动作排序不变,最优策略自然不变。


8. 为什么这个形式有效:从 Bellman 方程看

论文中的证明思路很漂亮。先从原 MDP 的最优 Q 函数出发:

$ Q_M^(s,a)=\mathbb{E}{s’\sim P(\cdot|s,a)}
\left[
R(s,a,s’)+\gamma \max
{a’}Q_M^
(s’,a’)
\right] $

现在定义:

$ \hat Q(s,a)=Q_M^*(s,a)-\Phi(s) $

把它代进去:

$ \hat Q(s,a)
=\mathbb{E}\left[
R(s,a,s’)+\gamma\Phi(s’)-\Phi(s)
+\gamma \max_{a’}(Q_M^*(s’,a’)-\Phi(s’))
\right] $

注意到:

$ F(s,a,s’)=\gamma\Phi(s’)-\Phi(s) $

于是:

$ \hat Q(s,a)
=\mathbb{E}\left[
R(s,a,s’)+F(s,a,s’)
+\gamma \max_{a’}\hat Q(s’,a’)
\right] $

这恰好就是新 MDP $ M’ $ 的 Bellman 最优方程,所以:

$ \hat Q(s,a)=Q_{M’}^*(s,a) $

即:

$ Q_{M’}*(s,a)=Q_M*(s,a)-\Phi(s) $

这就证明了策略不变性。


9. 望远镜求和:为什么“整条轨迹上只差一个边界项”

上面的 Bellman 证明已经足够,但从轨迹回报的角度看,这个定理更容易直觉理解。

设原始回报为:

$ G=\sum_{t=0}{T-1}\gammat r_{t+1} $

加入 shaping 后:

$ G’=\sum_{t=0}{T-1}\gammat \big(r_{t+1}+F(s_t,a_t,s_{t+1})\big) $

如果

$ F(s_t,a_t,s_{t+1})=\gamma\Phi(s_{t+1})-\Phi(s_t) $

那么:

$ \sum_{t=0}{T-1}\gammat F(s_t,a_t,s_{t+1}) =
\sum_{t=0}{T-1}\gammat(\gamma\Phi(s_{t+1})-\Phi(s_t)) $

展开得:

$ =\sum_{t=0}{T-1}\gamma{t+1}\Phi(s_{t+1})-\sum_{t=0}{T-1}\gammat\Phi(s_t) $

把前几项写开:

$ =(\gamma\Phi(s_1)+\gamma2\Phi(s_2)+\cdots+\gammaT\Phi(s_T))
-(\Phi(s_0)+\gamma\Phi(s_1)+\gamma2\Phi(s_2)+\cdots+\gamma{T-1}\Phi(s_{T-1})) $

中间全部抵消,得到:

$ \sum_{t=0}{T-1}\gammat F(s_t,a_t,s_{t+1})
=-\Phi(s_0)+\gamma^T\Phi(s_T) $

因此:

$ G’=G-\Phi(s_0)+\gamma^T\Phi(s_T) $

这就是“望远镜求和”的本质:
整条轨迹上附加的 shaping 奖励,不是和路径细节强绑定,而只是把总回报改成了“原回报 + 一个起点项 + 一个终点项”。

这也是它不改变最优策略的根本原因。


10. 分别看 $ \gamma=1 $ 和 $ \gamma=0.9 $:望远镜求和怎么理解

10.1 当 $ \gamma=1 $

这时:

$ F(s,a,s’)=\Phi(s’)-\Phi(s) $

沿轨迹累加:

$ \sum_{t=0}^{T-1}F(s_t,a_t,s_{t+1})=\Phi(s_T)-\Phi(s_0) $

于是:

$ G’=G+\Phi(s_T)-\Phi(s_0) $

如果终止状态是吸收态,并且设 $ \Phi(s_T)=0 $,那么:

$ G’=G-\Phi(s_0) $

这表示:从同一个起点出发,所有轨迹总回报都统一平移了一个常数。
既然只是平移,轨迹优劣排序当然不变。

这也是为什么在 undiscounted setting 下,论文需要额外假设吸收终止态,并对终止态作特殊处理。

10.2 当 $ \gamma=0.9 $

这时:

$ F(s,a,s’)=0.9\Phi(s’)-\Phi(s) $

轨迹 shaping 总和为:

$ -\Phi(s_0)+0.9^T\Phi(s_T) $

如果终止态设 $ \Phi(s_T)=0 $,那么仍有:

$ G’=G-\Phi(s_0) $

和 $ \gamma=1 $ 的不同之处在于:

  • $ \gamma<1 $ 时,未来势能的影响会被折扣
  • shaping 的定义中必须乘上 $ \gamma $,否则望远镜结构会被破坏
  • 正是这个 $ \gamma\Phi(s’) $ 而不是单纯 $ \Phi(s’) $,保证了折扣回报下的策略不变性

这是很多人第一次接触 shaping 时最容易忽略的点。


11. 结合案例 1:构造一个安全的案例 3

现在我们回到你的 5×5 网格世界,在 案例 1 的基础上构造一个 符合 reward shaping 的案例 3

案例 3 的目标

我们希望:

  1. 保留案例 1 的任务目标
  2. 奖励更密,让智能体知道“靠近目标是好事”
  3. 仍然保证最优策略不变

原始奖励(仍然是案例 1)

$ R(s,a,s’)=
\begin{cases}
-5, & \text{如果撞边界} \
+5, & \text{如果到达目标 }(5,5) \
0, & \text{其他情况}
\end{cases} $

设折扣因子

$ \gamma=0.9 $

设计势函数:曼哈顿距离

令目标为 $ g=(5,5) $,定义曼哈顿距离:

$ d(s,g)=|x-5|+|y-5| $

定义势函数:

$ \Phi(s)=-d(s,g) $

这个选择非常自然:离目标越近,曼哈顿距离越小,$ \Phi(s) $ 越大。

shaping 奖励

$ F(s,a,s’)=0.9\Phi(s’)-\Phi(s) $

于是新的奖励函数为:

$ R_3(s,a,s’)=R(s,a,s’)+0.9\Phi(s’)-\Phi(s) $

这就是案例 3。


12. 案例 3 的直观含义

因为 $ \Phi(s)=-d(s,g) $,所以:

$ F(s,a,s’)=0.9(-d(s’))-(-d(s))
=d(s)-0.9d(s’) $

于是:

  • 如果朝目标前进,$ d(s’)=d(s)-1 $,则

$ F=d-0.9(d-1)=0.1d+0.9>0 $

  • 如果远离目标,$ d(s’)=d(s)+1 $,则

$ F=d-0.9(d+1)=0.1d-0.9 $

  • 在靠近目标区域通常为负
  • 如果撞边界导致原地不动,$ d(s’)=d(s) $,则

$ F=0.1d $

  • 但此时原始奖励里已经有 $ -5 $,总奖励仍强烈为负

所以案例 3 做到了:

  • 靠近目标:有额外正反馈
  • 远离目标:有额外负反馈或更小反馈
  • 撞边界:仍然明显不划算
  • 更关键的是:最优策略不变

13. 案例 3 的状态势能图示

下面给出 5×5 网格中各状态的曼哈顿距离和势函数值。为了方便展示,我把 $ y=5 $ 放在最上面。

13.1 网格世界势函数图 $ \Phi(s)=-d(s,g) $


14. 案例 3 的具体数值计算

14.1 从 $ (2,2) $ 向右走到 $ (3,2) $

  • 当前状态:$ (2,2) $,距离 $ d=6 , , \Phi=-6 $
  • 下一状态:$ (3,2) $,距离 $ d’=5 , , \Phi’=-5 $

shaping 奖励:

$ F=0.9\times(-5)-(-6)=1.5 $

若该步不是边界也不是终点,则案例 1 原始奖励为 0,所以:

$ R_3=0+1.5=1.5 $

说明:向目标靠近,立刻得到正反馈。

14.2 从 $ (2,2) $ 向左走到 $ (1,2) $

  • 当前距离 $ d=6 $
  • 下一距离 $ d’=7 $

$ F=0.9\times(-7)-(-6)=-0.3 $

原始奖励仍是 0,所以:

$ R_3=-0.3 $

说明:远离目标,立刻受到轻微惩罚。

14.3 从 $ (1,2) $ 再向左,撞边界

撞边界后仍停在 $ (1,2) $,于是:

  • $ d=d’=7 $
  • $ \Phi=\Phi’=-7 $

$ F=0.9\times(-7)-(-7)=0.7 $

但案例 1 中撞边界的原始奖励是 $ -5 $,所以:

$ R_3=-5+0.7=-4.3 $

说明:虽然 shaping 项本身可能为正,但总奖励仍然强烈惩罚撞墙。这也提醒我们:看 shaping 时必须看“总奖励”,而不是只看附加项。

14.4 终点附近的一步:$ (4,5)\to(5,5) $

  • $ (4,5) $ 距离 $ d=1 , , \Phi=-1 $
  • $ (5,5) $ 距离 $ d’=0 , , \Phi’=0 $

$ F=0.9\times 0 - (-1)=1 $

原始到达目标奖励为 $ +5 $,所以:

$ R_3=5+1=6 $

说明:最后一步会得到更强的正反馈,但它并没有改变“到终点最好”这件事。


15. 为什么案例 3 不会像案例 2 那样刷分

关键就在于:案例 2 给的是“每走一步固定 +1”,它和轨迹长度正相关,所以会鼓励拖延终止。

而案例 3 里,每一步额外奖励不是固定的,而是:

$ F(s,a,s’)=0.9\Phi(s’)-\Phi(s) $

沿一整条轨迹加总之后,它会坍缩成:

$ -\Phi(s_0)+0.9^T\Phi(s_T) $

如果终点势能取 0,那么总 shaping 回报就是:

$ -\Phi(s_0) $

它只由起点决定,与中间你是“直走”还是“绕圈”无关。
这就是为什么它不会系统性鼓励刷过程奖励。

一句话总结:

案例 2 奖励的是“走了多少步”,案例 3 奖励的是“状态势能的净变化”。

前者会诱导刷分,后者不会。


16. Reward shaping 成立的必要条件是什么

论文的结论不是“potential-based shaping 很好用”这么简单,而是更强:

在没有额外领域知识可利用时,若希望对任意 MDP 都保持最优策略不变,那么附加奖励必须是 potential-based 的;否则,总能构造出某些 MDP,使得这种奖励修改改变最优策略。

这就是“充要条件”里最重要的一半:
不是你恰好构造出了一个有效 shaping,而是只有这类结构,才有普适的安全保证。

这背后的直觉是什么

如果附加奖励不能写成势差,那么它对一条闭环轨迹的累计奖励一般就不为 0。
于是智能体可能通过反复绕圈,凭空制造额外回报。

这正是论文里“正向奖励循环”问题的本质,也是很多 reward hacking 的共同根源。


17. 一个重要旁支:它和 Q 值初始化有什么关系

后续工作进一步指出,potential-based shaping 与某种 Q 值初始化在更新轨迹上是等价的。直观讲:

  • 你可以把 shaping 看成“每一步都给额外奖励”
  • 也可以把它理解成“先验地告诉模型哪些状态更有前景”

这给工程实践一个启发:
有时你不一定非得改奖励函数,也可以通过 value initialization / Q initialization 注入相同偏好。


18. 在 RLHF 中,reward shaping 还成立吗

这是最值得讨论的问题之一。

我的结论是:

在“形式上”,reward shaping 的理论仍然成立;但在“现实的 RLHF 系统”里,它通常不能直接原样套用。

18.1 为什么说“形式上成立”

如果你把 RLHF 也写成一个标准 MDP:

$ M=\langle S,A,T,\gamma,R\rangle $

并且你真的往奖励里加入了一个严格满足

$ F(s,a,s’)=\gamma\Phi(s’)-\Phi(s) $

的 shaping 项,那么策略不变性的定理依然成立。
因为定理依赖的是 MDP 结构和 reward transformation 的形式,不依赖任务是不是语言模型。

18.2 为什么说“现实里往往不成立”

RLHF 有几个困难点:

第一,状态定义并不稳定

在语言生成里,“状态”通常是前缀 token 序列。理论上可以这么定义,但现实中:

  • 上下文极高维
  • 部分可观测性强
  • 截断、packing、batching、masking 会改变训练接口

于是想构造一个“真正只依赖状态的势函数 $ \Phi(s) $”并不容易。

第二,实际奖励常常不是环境真奖励

RLHF 里的奖励通常来自 reward model,它本身就是一个近似器。
一旦 reward model 有偏差,模型就可能学会 exploit 这个近似器,而不是满足真实人类偏好。

第三,训练目标往往不只是“总奖励”

现代大模型 RL 微调经常还包含:

  • KL 惩罚
  • 长度控制
  • 格式奖励
  • 安全惩罚
  • 拒答偏好
  • 参考模型约束

这些项混在一起后,整体优化目标已经不再是“原始奖励 + 一个纯势差项”这么简单。

第四,很多 shaping 是 action-dependent 或 sequence-level 的

例如:

  • “回答更长一点加分”
  • “出现某些关键词加分”
  • “给出链式推理格式加分”

这些往往不能写成 $ \gamma\Phi(s’)-\Phi(s) $ 的形式,因此没有策略不变性的理论保证。

18.3 所以 RLHF 中 reward shaping 的正确理解

在 RLHF 中,reward shaping 更现实的角色是:

  1. 改善优化稳定性
  2. 改善梯度尺度
  3. 减少 reward model 的局部漏洞被利用
  4. 不是严格保证 policy invariance,而是降低 reward hacking 风险

所以答案是:

  • 狭义理论上:成立
  • 广义工程上:通常不严格成立,只能部分借鉴其思想

19. 这篇论文对大模型强化学习微调有什么启示

这篇论文最大的启发不是“给奖励加个公式”,而是:

奖励设计不是只看训练快不快,更重要的是看它有没有偷偷改掉真正想优化的行为。

在大模型强化学习微调里,这一点尤其重要。因为模型能力越强,越擅长发现漏洞。

下面给出一些具体建议。


20. 给大模型 RL 微调奖励设计的 12 条建议:尽量避免奖励投机

1)先写“真实任务目标”,再写 reward

不要一上来就写一堆启发式奖励。先明确:

  • 你真正想优化的是正确性、帮助性、安全性,还是用户满意度?
  • 哪些只是代理指标?

很多奖励投机,根源是把代理指标误当目标本身。

2)避免“固定每步加分”式设计

类似案例 2 的“每生成一个 token 就加分”“回答越长越加分”,极易诱导拖长、重复、空话。

3)优先使用“进度差分”而不是“过程累计”

若要塑造过程奖励,尽量奖励“状态势能净变化”,不要奖励“停留时长”或“动作次数”。

4)把 shaping 设计成 state-based,而非 ad hoc 的 action bonus

如果奖励依赖某个动作模板、措辞模板、表面格式,很容易被语言模型模板化利用。

5)能写成 potential-based 的,尽量写成 potential-based

例如:

  • 更接近完成约束
  • 更接近正确答案
  • 更接近任务终止条件

这类“接近目标程度”的信号,比“出现某关键词加分”更稳健。

6)对终止奖励与过程奖励做量纲校准

要防止过程奖励总和盖过最终任务奖励。
否则模型会优化“看起来像在做任务”,而不是“真正完成任务”。

7)避免单一标量奖励承载太多目标

帮助性、安全性、事实性、简洁性常常冲突。
把它们粗暴塞进一个分数,容易让模型找到奇怪折中点。

8)给奖励做上界和裁剪

有界奖励有助于降低训练不稳定和 reward hacking 风险。

9)警惕“长度”“格式”“拒答率”成为刷分通道

任何可被模型低成本操控、却和真实任务质量不完全一致的指标,都可能被 exploit。

10)做 counterexample 测试

不要只看平均 reward,要专门构造对抗样本:

  • 冗长空洞回答
  • 套模板回答
  • 安全但没帮助的回答
  • 看似正确实则胡编的回答

如果这些样本得分偏高,你的奖励就有漏洞。

11)分开评估“reward 提升”和“真实质量提升”

训练日志里 reward 上升,不等于用户体验上升。
必须用独立评测、人工审查、偏好对比去验证。

12)能用初始化、约束、数据清洗解决的问题,不一定非要改 reward

类似地,在 LLM 中,很多“奖励修补”问题,其实更适合通过:

  • 更好的 SFT 数据
  • 更强的 reference/KL 约束
  • 更干净的 preference data

来解决。


21. 一句话总结这篇论文

这篇论文最值得记住的,不是某个公式,而是一条设计原则:

好的 reward shaping 不是“多给奖励”,而是“在不改变最优策略的前提下,让正确行为更容易被学到”。

在你的两个网格案例里:

  • 案例 1:目标明确,但奖励稀疏,学习慢
  • 案例 2:奖励更密,但引入了奖励投机
  • 案例 3:用

$ F(s,a,s’)=\gamma\Phi(s’)-\Phi(s) $

  • 这样的 potential-based shaping,在保留任务本意的同时,让“朝目标前进”获得了更密集的反馈

这就是 reward shaping 的精髓。


22. 结语

很多强化学习失败案例,看起来像是算法不够强,实际上是奖励函数写错了。
而这篇 1999 年的论文之所以经典,正是因为它把奖励工程从“经验技巧”提升成了“可证明的设计原则”。它告诉我们:

  • 奖励可以改
  • 学习可以加速
  • 但不是随便改
  • 一旦你修改奖励,就必须问:最优策略还在吗?

对传统 RL 是这样,对今天的大模型 RLHF 也是这样。区别只在于:LLM 更复杂,也更擅长钻空子,所以我们更需要这种“先保证目标不变,再谈训练效率”的思维方式。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐