【强化学习系列·第 04 篇】深度 RL 进阶:从 SAC/TD3 到 Dreamer/MuZero——“高效稳定学习“的演进之路
【强化学习系列·第 04 篇】深度 RL 进阶:从 SAC/TD3 到 Dreamer/MuZero——"高效稳定学习"的演进之路
系列回顾:第 01 篇我们绘制了强化学习的全景图,第 02 篇我们拆解了值函数方法,第 03 篇我们深入了策略梯度方法。本篇进入深度 RL 最前沿的进阶领域:Actor-Critic 集大成者与世界模型。值函数方法高效但只能处理离散动作,策略梯度方法通用但样本效率低——Actor-Critic 将两者结合,SAC 和 TD3 成为连续控制的两大标杆。更远的前方,世界模型(Dreamer/MuZero)正在重新定义 RL 的效率上限——先学世界,再做决策,在想象中训练,用规划做推理。从 2015 年 DDPG 的开创,到 2018 年 SAC/TD3 的成熟,到 2020-2023 年 Dreamer 的三代表率,到 MuZero 的学规则+会规划——深度 RL 正在从"试错学习"走向"理解世界"。今天,我们从 Actor-Critic 集大成者、世界模型到 MuZero,彻底拆解"高效稳定学习"的演进之路。
📑 文章目录
🎭 一、Actor-Critic 集大成者:SAC 与 TD3

1.1 从 DDPG 到连续控制的突破
DDPG(Deep Deterministic Policy Gradient, 2015)是第一个将 DQN 的思想扩展到连续动作空间的算法。核心思路:用 Actor 网络输出确定性动作,用 Critic 网络评估 Q 值,用经验回放和目标网络稳定训练。
DDPG 的三大贡献:证明了 Actor-Critic 框架可以处理连续控制、将 DQN 的经验回放+目标网络迁移到策略梯度、开启了深度连续控制 RL 的研究。
DDPG 的致命问题:Q 值过估计导致策略崩溃。Critic 高估 Q 值 → Actor 追求高估的动作 → Critic 进一步高估 → 恶性循环 → 训练崩溃。此外,DDPG 对超参数极其敏感——学习率、噪声强度、网络结构稍有不当就会失败。
1.2 TD3:三招解决过估计
TD3(Twin Delayed DDPG, 2018)用三个技巧解决 DDPG 的过估计问题:
技巧一:截断双 Q 学习(Clipped Double Q-Learning)。训练两个独立的 Q 网络 Q₁ 和 Q₂,用较小的那个来计算目标值:y = r + γ min(Q₁’(s’,a’), Q₂’(s’,a’))。直觉:如果两个 Q 网络都高估了某个动作,取较小值可以缓解过估计。这比 Double DQN 更保守——Double DQN 用一个网络选动作、另一个评估,TD3 直接取两个网络的最小值。
技巧二:延迟策略更新(Delayed Policy Updates)。Critic 更新多次后,Actor 才更新一次。典型设置:Critic 更新 2 次,Actor 更新 1 次。直觉:Critic 需要先学好,Actor 才能根据准确的 Q 值优化策略。如果 Critic 还没学好就更新 Actor,Actor 会追着错误的 Q 值跑——这就是 DDPG 训练不稳定的根源。
技巧三:目标策略平滑(Target Policy Smoothing)。在计算目标值时,给目标动作加噪声:a’ = π’(s’) + clip(ε, -c, c), ε~N(0,σ)。直觉:相似的动作应该有相似的 Q 值——加噪声让 Q 函数更平滑,防止 Actor 利用 Q 值的尖峰。
TD3 的效果:在 MuJoCo 连续控制基准上,TD3 显著优于 DDPG,训练更稳定,超参数更不敏感。TD3 证明了"解决过估计"是连续控制的关键。
1.3 SAC:最大熵框架的优雅
SAC(Soft Actor-Critic, 2018)是连续控制最优雅的算法。核心思想:最大熵强化学习——不仅追求高回报,还追求策略的随机性(熵)。
最大熵目标:J(π) = E[Σ γ^t (r_t + α·H(π(·|s_t)))]。其中 H(π) 是策略熵,α 是温度系数。直觉:在获得高回报的同时,保持策略尽可能随机——“既做好,又多试”。
为什么最大熵好? 三个原因:第一,隐式探索——策略的随机性就是探索,不需要额外的 ε-greedy 或噪声注入。第二,鲁棒性——学到的策略对环境扰动更鲁棒,因为训练时就考虑了多种可能的行为。第三,多模态——当多个动作同样好时,最大熵策略会给它们相近的概率,而不是只选一个。
SAC 的三大创新:软 Q 函数(在 Q 值中加入熵项:Q_soft(s,a) = r + γ E[V_soft(s’)],V_soft(s’) = E_a’[Q_soft(s’,a’) - α log π(a’|s’)])、自动温度调节(α 作为可学习参数,自动平衡回报和熵——不确定时 α 大多探索,确定时 α 小多利用)、截断双 Q 学习(和 TD3 一样用两个 Q 网络取最小值)。
SAC vs TD3。SAC 用随机策略 + 策略熵探索,TD3 用确定性策略 + 噪声探索。SAC 更鲁棒(超参数不敏感),TD3 更稳定(确定性策略方差低)。实践中,SAC 是连续控制的通用首选——“简单、稳定、通用”,就像 PPO 之于策略梯度。
1.4 实战选型:什么时候用 SAC/TD3?
连续控制场景的选型指南:通用场景首选 SAC(鲁棒、自适应探索)、低噪声环境考虑 TD3(确定性策略更精准)、需要多模态策略必须 SAC(最大熵天然支持多模态)、超参数调参资源有限选 SAC(对超参最不敏感)。
🌍 二、世界模型:Dreamer 三代的想象学习

2.1 为什么需要世界模型?无模型 RL 的效率瓶颈
无模型 RL(DQN/PPO/SAC)的核心问题:样本效率极低。SAC 在 HalfCheetah 上需要 100 万步才能收敛,PPO 在人形机器人上需要上千万步——这在真实机器人上几乎不可行(每步可能需要几秒钟的物理交互)。
基于模型的 RL(Model-Based RL, MBRL)的核心思想:先学世界模型,再做决策。世界模型 P(s’|s,a) 学会预测"做了动作 a 后世界会变成什么样",然后在世界模型上做规划或训练策略——在想象中学习,不需要真实交互。
基于模型 RL 的核心权衡:效率 vs 模型偏差。模型越准 → 想象越可靠 → 效率越高;模型越差 → 想象越离谱 → 策略越差。这就是"模型偏差"——模型误差会累积,导致策略在真实世界中表现差。
2.2 Dreamer(2020):在想象中训练
Dreamer 的核心创新:在学到的世界模型中,用 Actor-Critic 在想象中训练策略。不需要真实环境交互,只需要世界模型的想象——样本效率提升 10-100 倍。
三步流程:第一步,学习世界模型——用 RSSM(循环状态空间模型)学习环境的潜在动力学,将高维观测压缩到低维隐空间,在隐空间中预测未来。第二步,在想象中训练 Actor-Critic——在世界模型生成的想象轨迹上,用 Actor-Critic 更新策略和值函数。第三步,在真实环境中执行——将想象中学到的策略部署到真实环境,收集新数据,回到第一步。
RSSM 世界模型。RSSM 是 Dreamer 的核心组件,结合了循环网络(记忆历史)和变分推断(处理不确定性)。RSSM 将观测 o_t 编码到隐状态 s_t,在隐空间中预测 s_{t+1},再从 s_{t+1} 解码出观测 o_{t+1}。关键设计:确定性路径(用循环网络传递确定性信息)+ 随机性路径(用变分推断建模不确定性)——确定性路径保证长期记忆,随机性路径处理环境的不确定性。
2.3 DreamerV2(2021):离散隐变量
DreamerV2 的核心改进:将连续隐变量替换为离散隐变量。连续隐变量用高斯分布表示,离散隐变量用分类分布表示。这个看似简单的改变带来了显著的性能提升——离散表示更适合捕捉环境的离散结构(如"门开/关"),训练更稳定。
DreamerV2 在 Atari 55 个游戏上达到了人类水平的中位数——这是基于模型 RL 首次在 Atari 上达到无模型方法的水平,证明了世界模型可以与无模型方法竞争。
2.4 DreamerV3(2023):单一配置,150+ 任务
DreamerV3 是世界模型的里程碑。核心突破:单一超参数配置,在 150+ 多样化任务上超越专门方法。不需要为每个任务调参——同一个配置,从 MuJoCo 连续控制到 Atari 游戏到 DMC 视觉控制,全部适用。
DreamerV3 的关键改进:更深的网络、更稳定的训练技巧(自由比特、KL 平衡)、更鲁棒的超参数。DreamerV3 在 Nature 上发表,标志着基于模型 RL 从"研究兴趣"走向"实用方法"。
DreamerV3 的意义:证明了世界模型可以通用——不需要为每个任务设计专门的算法,一个通用世界模型就够了。这和 LLM 的"通用语言模型"思想一脉相承。
🏆 三、MuZero:学规则 + 会规划

3.1 AlphaZero 的局限:需要完美模型
AlphaZero(2017)用 MCTS + 自我对弈征服了围棋、国际象棋、将棋——但它有一个根本性局限:需要知道游戏规则。AlphaZero 的 MCTS 在真实游戏规则上搜索——它知道"马走日"、“象走田”。但真实世界的问题,规则是未知的——你不知道"推门后门会开"这种转移规则。
MuZero(2020)的核心突破:不需要知道规则,自己学规则。MuZero 学到一个隐式世界模型,在这个模型上做 MCTS——既保留了 AlphaZero 的规划能力,又不需要知道环境规则。
3.2 MuZero 的四大组件
MuZero 由四个网络组成:
表示网络 h(o):将原始观测(如图像)映射到隐状态 s₀ = h(o)。表示网络的作用是降维和特征提取——忽略无关信息,保留决策相关信息。
动力学网络 g(s,a):预测下一步隐状态和即时奖励——s’, r = g(s,a)。这就是 MuZero 的"世界模型"——不需要学真实的状态转移,只学"对决策有用的转移"。关键洞察:MuZero 不学真实世界,学的是"对下棋/玩游戏有用的抽象世界"。
预测网络 f(s):从隐状态预测策略和值函数——p, v = f(s)。预测网络为 MCTS 提供先验——策略先验 p 缩小搜索空间,值估计 v 提供初始评估。
MCTS:在学到的模型上搜索最优动作。MuZero 的 MCTS 和 AlphaZero 类似:选择(UCB 选最有潜力的节点)→ 扩展(用动力学网络展开新节点)→ 评估(用预测网络评估)→ 回溯(更新值估计)。搜索 N 次后,选择访问次数最多的动作。
3.3 MuZero 的训练:自博弈 + 模型学习
MuZero 的训练过程:用当前策略收集数据 → 训练四个网络(表示、动力学、预测)→ 用 MCTS 改进策略 → 重复。损失函数包含三部分:策略损失(MCTS 搜索结果与预测策略的交叉熵)、值损失(MCTS 值估计与预测值的 MSE)、奖励损失(真实奖励与动力学预测的 MSE)。
MuZero 的效果:在围棋上匹配 AlphaZero 的水平,在 Atari 上显著优于 DQN——同一个算法,既会下棋,又会打游戏。MuZero 证明了"学规则+会规划"的通用性。
3.4 MuZero vs Dreamer:两种世界模型路线
MuZero 和 Dreamer 代表世界模型的两种路线:MuZero 用隐式模型 + MCTS(规划型,适合离散决策),Dreamer 用显式模型 + Actor-Critic(训练型,适合连续控制)。MuZero 的规划更深(MCTS 可以搜索几十步),Dreamer 的样本效率更高(想象训练不需要搜索)。两者正在融合——MuZero 的规划能力 + Dreamer 的效率 = 未来方向。
📊 全文速查表
Actor-Critic 对比
| 维度 | DDPG | TD3 | SAC |
|---|---|---|---|
| 策略类型 | 确定性 | 确定性 | 随机 |
| Q 网络 | 1 个 | 2 个(双Q) | 2 个(双Q) |
| 探索方式 | 噪声注入 | 噪声注入 | 策略熵 |
| 鲁棒性 | 差 | 中 | 好 |
| 推荐场景 | - | 低噪声环境 | 通用首选 |
世界模型对比
| 方法 | 模型类型 | 规划方式 | 样本效率 | 模型偏差 | 适用场景 |
|---|---|---|---|---|---|
| Dreamer | 潜在动力学 | 想象训练 | 极高 | 中 | 连续控制 |
| MuZero | 隐式模型 | MCTS | 高 | 低 | 棋类+Atari |
| 无模型 | 无 | 无 | 低 | 无 | SAC/PPO |
一句话总结
深度 RL 进阶的核心是"值函数+策略梯度+世界模型"的融合。Actor-Critic 集大成者:SAC(最大熵框架,策略熵=隐式探索,自动温度调节,连续控制通用首选)和 TD3(三招解决过估计:截断双Q+延迟更新+目标平滑,确定性策略更精准)。世界模型三代:Dreamer(2020,RSSM潜在动力学,想象训练,效率提升10-100x)→ DreamerV2(2021,离散隐变量,Atari人类水平)→ DreamerV3(2023,单一配置150+任务,Nature发表,通用世界模型)。MuZero:学规则+会规划——表示网络h(o)+动力学网络g(s,a)+预测网络f(s)+MCTS,不需要知道规则也能下棋打游戏。深度 RL 进阶的融合趋势:SAC/TD3=值函数+策略梯度,Dreamer=世界模型+Actor-Critic,MuZero=世界模型+MCTS。选型指南:连续控制→SAC,极致效率→DreamerV3,棋类/离散→MuZero,通用首选→PPO。
参考链接:
- DDPG (Lillicrap et al., 2016)
- TD3 (Fujimoto et al., 2018)
- SAC (Haarnoja et al., 2018)
- Dreamer (Hafner et al., 2020)
- DreamerV3 (Hafner et al., 2023)
- MuZero (Schrittwieser et al., 2020)
系列预告:第 05 篇将深入前沿应用——从 AlphaGo 到 RLHF 到机器人,拆解 RL 在真实世界的落地之路。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)