【强化学习系列·第 04 篇】深度 RL 进阶：从 SAC/TD3 到 Dreamer/MuZero——“高效稳定学习“的演进之路

拾-光

17人浏览 · 2026-05-28 17:00:00

拾-光 · 2026-05-28 17:00:00 发布

【强化学习系列·第 04 篇】深度 RL 进阶：从 SAC/TD3 到 Dreamer/MuZero——"高效稳定学习"的演进之路

系列回顾：第 01 篇我们绘制了强化学习的全景图，第 02 篇我们拆解了值函数方法，第 03 篇我们深入了策略梯度方法。本篇进入深度 RL 最前沿的进阶领域：Actor-Critic 集大成者与世界模型。值函数方法高效但只能处理离散动作，策略梯度方法通用但样本效率低——Actor-Critic 将两者结合，SAC 和 TD3 成为连续控制的两大标杆。更远的前方，世界模型（Dreamer/MuZero）正在重新定义 RL 的效率上限——先学世界，再做决策，在想象中训练，用规划做推理。从 2015 年 DDPG 的开创，到 2018 年 SAC/TD3 的成熟，到 2020-2023 年 Dreamer 的三代表率，到 MuZero 的学规则+会规划——深度 RL 正在从"试错学习"走向"理解世界"。今天，我们从 Actor-Critic 集大成者、世界模型到 MuZero，彻底拆解"高效稳定学习"的演进之路。

🎭 一、Actor-Critic 集大成者：SAC 与 TD3

在这里插入图片描述

1.1 从 DDPG 到连续控制的突破

DDPG（Deep Deterministic Policy Gradient, 2015）是第一个将 DQN 的思想扩展到连续动作空间的算法。核心思路：用 Actor 网络输出确定性动作，用 Critic 网络评估 Q 值，用经验回放和目标网络稳定训练。

DDPG 的三大贡献：证明了 Actor-Critic 框架可以处理连续控制、将 DQN 的经验回放+目标网络迁移到策略梯度、开启了深度连续控制 RL 的研究。

DDPG 的致命问题：Q 值过估计导致策略崩溃。Critic 高估 Q 值 → Actor 追求高估的动作 → Critic 进一步高估 → 恶性循环 → 训练崩溃。此外，DDPG 对超参数极其敏感——学习率、噪声强度、网络结构稍有不当就会失败。

1.2 TD3：三招解决过估计

TD3（Twin Delayed DDPG, 2018）用三个技巧解决 DDPG 的过估计问题：

技巧一：截断双 Q 学习（Clipped Double Q-Learning）。训练两个独立的 Q 网络 Q₁ 和 Q₂，用较小的那个来计算目标值：y = r + γ min(Q₁’(s’,a’), Q₂’(s’,a’))。直觉：如果两个 Q 网络都高估了某个动作，取较小值可以缓解过估计。这比 Double DQN 更保守——Double DQN 用一个网络选动作、另一个评估，TD3 直接取两个网络的最小值。

技巧二：延迟策略更新（Delayed Policy Updates）。Critic 更新多次后，Actor 才更新一次。典型设置：Critic 更新 2 次，Actor 更新 1 次。直觉：Critic 需要先学好，Actor 才能根据准确的 Q 值优化策略。如果 Critic 还没学好就更新 Actor，Actor 会追着错误的 Q 值跑——这就是 DDPG 训练不稳定的根源。

技巧三：目标策略平滑（Target Policy Smoothing）。在计算目标值时，给目标动作加噪声：a’ = π’(s’) + clip(ε, -c, c), ε~N(0,σ)。直觉：相似的动作应该有相似的 Q 值——加噪声让 Q 函数更平滑，防止 Actor 利用 Q 值的尖峰。

TD3 的效果：在 MuJoCo 连续控制基准上，TD3 显著优于 DDPG，训练更稳定，超参数更不敏感。TD3 证明了"解决过估计"是连续控制的关键。

1.3 SAC：最大熵框架的优雅

SAC（Soft Actor-Critic, 2018）是连续控制最优雅的算法。核心思想：最大熵强化学习——不仅追求高回报，还追求策略的随机性（熵）。

最大熵目标：J(π) = E[Σ γ^t (r_t + α·H(π(·|s_t)))]。其中 H(π) 是策略熵，α 是温度系数。直觉：在获得高回报的同时，保持策略尽可能随机——“既做好，又多试”。

为什么最大熵好？ 三个原因：第一，隐式探索——策略的随机性就是探索，不需要额外的 ε-greedy 或噪声注入。第二，鲁棒性——学到的策略对环境扰动更鲁棒，因为训练时就考虑了多种可能的行为。第三，多模态——当多个动作同样好时，最大熵策略会给它们相近的概率，而不是只选一个。

SAC 的三大创新：软 Q 函数（在 Q 值中加入熵项：Q_soft(s,a) = r + γ E[V_soft(s’)]，V_soft(s’) = E_a’[Q_soft(s’,a’) - α log π(a’|s’)]）、自动温度调节（α 作为可学习参数，自动平衡回报和熵——不确定时 α 大多探索，确定时 α 小多利用）、截断双 Q 学习（和 TD3 一样用两个 Q 网络取最小值）。

SAC vs TD3。SAC 用随机策略 + 策略熵探索，TD3 用确定性策略 + 噪声探索。SAC 更鲁棒（超参数不敏感），TD3 更稳定（确定性策略方差低）。实践中，SAC 是连续控制的通用首选——“简单、稳定、通用”，就像 PPO 之于策略梯度。

1.4 实战选型：什么时候用 SAC/TD3？

连续控制场景的选型指南：通用场景首选 SAC（鲁棒、自适应探索）、低噪声环境考虑 TD3（确定性策略更精准）、需要多模态策略必须 SAC（最大熵天然支持多模态）、超参数调参资源有限选 SAC（对超参最不敏感）。

🌍 二、世界模型：Dreamer 三代的想象学习

在这里插入图片描述

2.1 为什么需要世界模型？无模型 RL 的效率瓶颈

无模型 RL（DQN/PPO/SAC）的核心问题：样本效率极低。SAC 在 HalfCheetah 上需要 100 万步才能收敛，PPO 在人形机器人上需要上千万步——这在真实机器人上几乎不可行（每步可能需要几秒钟的物理交互）。

基于模型的 RL（Model-Based RL, MBRL）的核心思想：先学世界模型，再做决策。世界模型 P(s’|s,a) 学会预测"做了动作 a 后世界会变成什么样"，然后在世界模型上做规划或训练策略——在想象中学习，不需要真实交互。

基于模型 RL 的核心权衡：效率 vs 模型偏差。模型越准 → 想象越可靠 → 效率越高；模型越差 → 想象越离谱 → 策略越差。这就是"模型偏差"——模型误差会累积，导致策略在真实世界中表现差。

2.2 Dreamer（2020）：在想象中训练

Dreamer 的核心创新：在学到的世界模型中，用 Actor-Critic 在想象中训练策略。不需要真实环境交互，只需要世界模型的想象——样本效率提升 10-100 倍。

三步流程：第一步，学习世界模型——用 RSSM（循环状态空间模型）学习环境的潜在动力学，将高维观测压缩到低维隐空间，在隐空间中预测未来。第二步，在想象中训练 Actor-Critic——在世界模型生成的想象轨迹上，用 Actor-Critic 更新策略和值函数。第三步，在真实环境中执行——将想象中学到的策略部署到真实环境，收集新数据，回到第一步。

RSSM 世界模型。RSSM 是 Dreamer 的核心组件，结合了循环网络（记忆历史）和变分推断（处理不确定性）。RSSM 将观测 o_t 编码到隐状态 s_t，在隐空间中预测 s_{t+1}，再从 s_{t+1} 解码出观测 o_{t+1}。关键设计：确定性路径（用循环网络传递确定性信息）+ 随机性路径（用变分推断建模不确定性）——确定性路径保证长期记忆，随机性路径处理环境的不确定性。

2.3 DreamerV2（2021）：离散隐变量

DreamerV2 的核心改进：将连续隐变量替换为离散隐变量。连续隐变量用高斯分布表示，离散隐变量用分类分布表示。这个看似简单的改变带来了显著的性能提升——离散表示更适合捕捉环境的离散结构（如"门开/关"），训练更稳定。

DreamerV2 在 Atari 55 个游戏上达到了人类水平的中位数——这是基于模型 RL 首次在 Atari 上达到无模型方法的水平，证明了世界模型可以与无模型方法竞争。

2.4 DreamerV3（2023）：单一配置，150+ 任务

DreamerV3 是世界模型的里程碑。核心突破：单一超参数配置，在 150+ 多样化任务上超越专门方法。不需要为每个任务调参——同一个配置，从 MuJoCo 连续控制到 Atari 游戏到 DMC 视觉控制，全部适用。

DreamerV3 的关键改进：更深的网络、更稳定的训练技巧（自由比特、KL 平衡）、更鲁棒的超参数。DreamerV3 在 Nature 上发表，标志着基于模型 RL 从"研究兴趣"走向"实用方法"。

DreamerV3 的意义：证明了世界模型可以通用——不需要为每个任务设计专门的算法，一个通用世界模型就够了。这和 LLM 的"通用语言模型"思想一脉相承。

🏆 三、MuZero：学规则 + 会规划

在这里插入图片描述

3.1 AlphaZero 的局限：需要完美模型

AlphaZero（2017）用 MCTS + 自我对弈征服了围棋、国际象棋、将棋——但它有一个根本性局限：需要知道游戏规则。AlphaZero 的 MCTS 在真实游戏规则上搜索——它知道"马走日"、“象走田”。但真实世界的问题，规则是未知的——你不知道"推门后门会开"这种转移规则。

MuZero（2020）的核心突破：不需要知道规则，自己学规则。MuZero 学到一个隐式世界模型，在这个模型上做 MCTS——既保留了 AlphaZero 的规划能力，又不需要知道环境规则。

3.2 MuZero 的四大组件

MuZero 由四个网络组成：

表示网络 h(o)：将原始观测（如图像）映射到隐状态 s₀ = h(o)。表示网络的作用是降维和特征提取——忽略无关信息，保留决策相关信息。

动力学网络 g(s,a)：预测下一步隐状态和即时奖励——s’, r = g(s,a)。这就是 MuZero 的"世界模型"——不需要学真实的状态转移，只学"对决策有用的转移"。关键洞察：MuZero 不学真实世界，学的是"对下棋/玩游戏有用的抽象世界"。

预测网络 f(s)：从隐状态预测策略和值函数——p, v = f(s)。预测网络为 MCTS 提供先验——策略先验 p 缩小搜索空间，值估计 v 提供初始评估。

MCTS：在学到的模型上搜索最优动作。MuZero 的 MCTS 和 AlphaZero 类似：选择（UCB 选最有潜力的节点）→ 扩展（用动力学网络展开新节点）→ 评估（用预测网络评估）→ 回溯（更新值估计）。搜索 N 次后，选择访问次数最多的动作。

3.3 MuZero 的训练：自博弈 + 模型学习

MuZero 的训练过程：用当前策略收集数据 → 训练四个网络（表示、动力学、预测）→ 用 MCTS 改进策略 → 重复。损失函数包含三部分：策略损失（MCTS 搜索结果与预测策略的交叉熵）、值损失（MCTS 值估计与预测值的 MSE）、奖励损失（真实奖励与动力学预测的 MSE）。

MuZero 的效果：在围棋上匹配 AlphaZero 的水平，在 Atari 上显著优于 DQN——同一个算法，既会下棋，又会打游戏。MuZero 证明了"学规则+会规划"的通用性。

3.4 MuZero vs Dreamer：两种世界模型路线

MuZero 和 Dreamer 代表世界模型的两种路线：MuZero 用隐式模型 + MCTS（规划型，适合离散决策），Dreamer 用显式模型 + Actor-Critic（训练型，适合连续控制）。MuZero 的规划更深（MCTS 可以搜索几十步），Dreamer 的样本效率更高（想象训练不需要搜索）。两者正在融合——MuZero 的规划能力 + Dreamer 的效率 = 未来方向。

📊 全文速查表

Actor-Critic 对比

维度	DDPG	TD3	SAC
策略类型	确定性	确定性	随机
Q 网络	1 个	2 个(双Q)	2 个(双Q)
探索方式	噪声注入	噪声注入	策略熵
鲁棒性	差	中	好
推荐场景	-	低噪声环境	通用首选

世界模型对比

方法	模型类型	规划方式	样本效率	模型偏差	适用场景
Dreamer	潜在动力学	想象训练	极高	中	连续控制
MuZero	隐式模型	MCTS	高	低	棋类+Atari
无模型	无	无	低	无	SAC/PPO

一句话总结

深度 RL 进阶的核心是"值函数+策略梯度+世界模型"的融合。Actor-Critic 集大成者：SAC（最大熵框架，策略熵=隐式探索，自动温度调节，连续控制通用首选）和 TD3（三招解决过估计：截断双Q+延迟更新+目标平滑，确定性策略更精准）。世界模型三代：Dreamer（2020，RSSM潜在动力学，想象训练，效率提升10-100x）→ DreamerV2（2021，离散隐变量，Atari人类水平）→ DreamerV3（2023，单一配置150+任务，Nature发表，通用世界模型）。MuZero：学规则+会规划——表示网络h(o)+动力学网络g(s,a)+预测网络f(s)+MCTS，不需要知道规则也能下棋打游戏。深度 RL 进阶的融合趋势：SAC/TD3=值函数+策略梯度，Dreamer=世界模型+Actor-Critic，MuZero=世界模型+MCTS。选型指南：连续控制→SAC，极致效率→DreamerV3，棋类/离散→MuZero，通用首选→PPO。

参考链接：

系列预告：第 05 篇将深入前沿应用——从 AlphaGo 到 RLHF 到机器人，拆解 RL 在真实世界的落地之路。