强化学习[chapter8] [page21]Policy Gradient3

明朝百晓生 · 2026-03-11 22:42:39 发布

一 policy of actor

1 累计收益 R

假设策略由一个参数为 θ 的神经网络进行参数化。通过该策略与环境交互，我们收集到一个长度为 T的轨迹 $\tau$ ，其累积收益（总回报）为

$R =\sum_{t=1}^{T}r_t$

2 该轨迹 $\tau$ 的概率为

当给定策略后,agent 与环境交互会形成不同的轨迹

某个特定的轨迹出现的概率记为 $p_{\theta}(\tau)$ (也写作 $\pi_{\theta}$ )

3 Expected Reward

强化学习的目标就是使得该期望值最大。

$p_{\theta}(\tau)$ : 为轨迹 $\tau$ 出现的概率

4 求梯度

5 完整的实施方案

G: 等同于 $R(\tau^n)$

$\pi(A_t|s_t,\theta)$ : 等同于 $p_{\theta}(\alpha_t|s_t)$

二累计回报 R 对策略更新的影响

上面主要问题是在某些强化学习应用中,累积奖赏总是正的导致其对应的策略一直提升

例子:

在淘宝、抖音、YouTube 等平台的推荐系统中，强化学习旨在优化用户的长期留存。其奖励信号通常来源于用户的行为，如点击、点赞、收藏、完播和购买。

原因在于反馈信号的不对称性。这些信号（点击、购买）本身就代表着正反馈；而用户如果对内容不感兴趣，通常只是简单划过（即“无操作”）。系统很难直接获取明确的“负反馈”，除非用户主动点击“不感兴趣”。

三 Tip1: Add BaseLine

policy gradient 训练技巧1

引入基线（Baseline）的主要原因有两个：

降低梯度估计的方差：在策略梯度中，如果累计回报R 总为正，会导致所有被采样到的动作概率都被推动上升。这相当于让模型去“增强”所有见过的动作，而没有明确指出哪些动作是“更好”的，哪些是“更差”的。减去基线 b 后，R—b变为有正有负，清晰地区分了“好”动作（优势为正）和“差”动作（优势为负），从而在保证梯度无偏的同时，显著降低了估计的方差。
缓解因采样不全导致的训练不稳定：在实际训练中，由于策略的探索性，智能体不可能访问所有状态-动作对。如果 GG 总是为正，那些被频繁采样到的状态-动作对的概率会被一味地推高，而那些未被采样到的动作（即使它们可能是潜在的最优动作）概率则会因 softmax 归一化效应而被动下降。这会导致模型过早收敛到次优策略，训练过程变得极不稳定。引入基线可以有效缓解这一问题，让梯度更新更关注动作之间的相对优劣。

四 Tip2 :Assign suitable credit 分配适当的功劳

在强化学习中，尤其是在使用蒙特卡洛（Monte Carlo）采样进行策略梯度更新时，我们面临一个根本性问题：如何将整条轨迹的总回报合理地归因于每一个状态-动作对？

假设根据当前策略采样到两条轨迹：