深度强化学习与控制第二周课程报告
一、基于策略的方法
1. 基本思想
前面学过的 Q-learning、DQN 等方法属于基于价值的方法,即先学习价值函数,再由价值函数导出策略,例如
基于策略的方法则直接学习策略本身。若策略参数化为 $\pi_\theta(a\mid s)$,则目标是最大化其期望回报:
因此,这类方法的核心是直接对策略参数 做优化。
2. 策略梯度
策略梯度定理给出了目标函数对参数的梯度形式:
它的含义是:若某个动作带来的长期回报较高,就提高该动作在当前状态下的概率。于是参数可按梯度上升更新:
和 Q 学习相比,策略梯度是直接优化策略,而不是先优化价值函数。
3. REINFORCE
REINFORCE 用蒙特卡洛回报估计策略梯度。定义从时刻 $t$ 开始的回报为
则策略梯度可估计为
它的优点是形式直接,缺点是必须等回合结束后才能更新,而且方差较大。
4. Actor-Critic
REINFORCE 方差较大,因此引入 Actor-Critic 框架。
- Actor:策略网络
- Critic:价值网络 或
它的思想是:用 Critic 估计价值,用 Actor 更新策略。策略梯度可写成更一般的形式:
其中 $\psi_t$ 可以取回报、优势函数或 TD 误差。最常见的是一步 TD 误差:
于是 Actor 可按
来更新。
5. A2C 与 A3C
优势函数定义为
它表示动作相对当前平均水平的好坏。A2C 用优势函数或 TD 误差更新 Actor,用价值函数更新 Critic。Critic 的常见损失为
A3C 则是在 A2C 基础上采用多线程异步并行。PPT 中给出的 $k$ 步优势估计为
它的优点是并行采样快,且能降低样本相关性。
6. 确定性策略梯度
在连续动作空间中,随机策略可以写成分布,但也可以直接使用确定性策略
$a=\mu_\theta(s)$
这时目标函数可写为
对应的确定性策略梯度为
它避免了在连续动作空间中显式求 $\arg\max_a Q(s,a)$。
7. DDPG
DDPG 是深度确定性策略梯度方法,属于连续控制中的经典 Actor-Critic 算法。
- Actor:确定性策略
- Critic:动作价值函数
它使用经验回放、目标网络和动作噪声来提高稳定性。Critic 的目标值为
损失函数为
Actor 的更新方向为
由于确定性策略本身不探索,实际执行时通常加入噪声:
8. SAC
DDPG 虽然有效,但训练稳定性一般。SAC 是更稳定的离线策略算法,属于最大熵强化学习方法。
最大熵强化学习不仅最大化奖励,还最大化策略熵:
其中
Soft Bellman 方程为
SAC 使用两个 Q 网络缓解过估计。Q 网络目标通常写为
策略损失为
SAC 的特点是训练更稳定、样本效率更高,在连续控制中表现较好。
二、基于模型的方法
1. 基本思想
无模型方法不显式学习环境动态,而基于模型的方法会先学习环境模型,再利用模型辅助决策或训练。环境模型通常写为
必要时也可学习奖励模型。这样,智能体就可以在模型中“想象”未来轨迹。
2. 模型预测控制(MPC)
MPC 的思想是:在每一步都利用模型向前推演若干步,搜索未来一段动作序列,然后只执行最优序列的第一个动作。
在第 $k$ 步、预测时域为 $H$ 时,优化问题写为
MPC 不一定显式学习一个固定策略,而是反复进行“规划 - 执行一步 - 再规划”。
3. 随机打靶法与 CEM
MPC 的关键是如何生成候选动作序列。
随机打靶法的做法是:随机采样 $N$ 条长度为 $H$ 的动作序列,分别用模型评估回报,再选最优序列的第一个动作执行。
交叉熵方法(CEM)则更高效。它维护一个参数化分布,例如
每轮采样若干条序列,保留高回报的精英样本,再用它们更新分布参数:
因此,CEM 比纯随机打靶更能利用已有的好结果。
4. PETS
PETS(Probabilistic Ensembles with Trajectory Sampling)是典型的基于模型强化学习方法。它结合了概率模型、模型集成和 MPC。
PETS 认为系统中有两类不确定性:
- 偶然不确定性:环境本身随机
- 认知不确定性:模型因数据不足而不确定
为刻画偶然不确定性,PETS 将环境模型写成高斯分布:
其训练损失本质上来自高斯负对数似然:
其中第一项是加权平方误差,第二项限制协方差不能无节制增大。
为刻画认知不确定性,PETS 训练多个模型组成集成:
规划时,PETS 使用模型集成加 CEM 做 MPC 搜索。
5. MBPO
MBPO(Model-Based Policy Optimization)也是基于模型的方法,但它不主要依赖在线规划,而是利用模型生成额外训练样本,再结合无模型算法学习策略。
MBPO 的核心观察是:模型推演步数越长,误差累积越严重。因此它不从初始状态做长轨迹幻想,而是从真实经验中的状态出发,只做短分支推演:
其中 $k$ 通常较小。这样既能利用模型补充样本,又能控制累计误差。
PPT 中指出,MBPO 的无模型部分使用的是 SAC,因此它可以理解为:
$\text{模型学习}+\text{短分支推演}+\text{SAC 策略优化}$
6. 基于模型方法的特点
PETS 更偏向“在线规划”,即每次动作都依赖模型实时搜索;
MBPO 更偏向“模型辅助训练”,即先用模型扩充数据,再交给无模型算法优化策略。
二者共同说明:基于模型方法的核心不是单纯把环境拟合出来,而是高效利用模型提升样本效率和控制效果。
三、DRL 控制应用
1. 无人机自主导航与避障
该任务的状态通常包括位置、速度、姿态和环境感知信息,动作是连续控制指令。目标是学习策略 使无人机从起点到终点并避开障碍物。
奖励设计包括:
总奖励为
2. 机械臂轨迹跟踪
该任务使用 SAC 进行连续控制。若末端执行器误差记为 $error_{ee}$,控制力矩记为 $\tau$,则奖励函数可写为
第一项鼓励提高跟踪精度,第二项限制控制过大,提升平滑性与稳定性。
四、总结
1. 基于策略的方法直接优化策略,代表算法有 REINFORCE、Actor-Critic、DDPG 和 SAC。
2. 基于模型的方法先学习环境模型,再利用模型做规划或辅助训练,代表方法有 MPC、PETS 和 MBPO。
3. 在连续控制任务中,SAC 和基于模型的方法都很重要,前者强调稳定高效的策略学习,后者强调利用模型提高样本效率。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)