学习过程文档(Diffusion Policy → Diffuser → Planning 过渡)

一、学习目标

本次学习的目标是完成从:

  • Diffusion Policy(动作生成) → Diffuser(轨迹级规划) → Planning 统一视角

的关键过渡,并建立如下能力:

  • 理解 trajectory distribution 建模

  • 理解 BC 与 diffusion 的本质差异

  • 理解为什么需要 diffusion 做 planning

  • 理解 Diffuser 的基本机制(sampling + guidance)


二、核心知识结构梳理


1. 行为建模方式的演化

(1)Behavior Cloning(BC)

目标函数:

 \mathcal{L} = \mathbb{E}_{(s,a)\sim D} |a - \hat{a}(s)|^2 

关键结论:

\hat{a}(s) = \mathbb{E}[a|s]


本质问题(Multi-modal)

当:
[ p(a|s) ]

是多峰分布时:

  • BC 输出的是条件期望

  • 会产生“平均动作”


2. Diffusion Policy 的本质


Forward 过程:

a^k = \sqrt{\alpha_k} a^0 + \sqrt{1-\alpha_k},\epsilon


关键性质:

  • ( a^0 \leftrightarrow \epsilon) 可逆

  • 预测噪声 ⇔ 预测原始数据


训练目标:

 \mathcal{L} = \mathbb{E}|\epsilon - \epsilon_\theta|^2 


核心能力:

p(\mathbf{a}_{0:T} | s)

👉 直接建模动作序列分布


3. BC vs Diffusion(本质对比)

维度 BC Diffusion
输出 单点 分布采样
本质 条件期望 条件分布
multi-modal ✔️
规划能力 ✔️

三、Diffuser(核心内容)


1. 建模目标

\mathbf{a}*{0:T} \sim p*\theta(\mathbf{a}_{0:T} | s_0)

或:
\tau \sim p_\theta(\tau)


2. Planning 目标

\max_{\mathbf{a}*{0:T}} R(z*{0:T})


3. 为什么不能直接优化?


(1)高维问题

\mathbf{a}_{0:T} \in \mathbb{R}^{dT}

(2)reward 不可导

$$
[ \nabla R \text{ 不稳定或不存在} ]
$$


(3)可行解极少


[ \mathcal{A}_{valid} \ll \mathbb{R}^{dT} ]


4. Diffuser 的核心思想


用 diffusion 限制搜索空间:

[ \mathbf{a} \sim p_\theta(\mathbf{a}|s) ]


引入 reward:


[ p(\tau) \propto p_\theta(\tau), \exp(\lambda R(\tau)) ]
 


5. Guidance 机制

在去噪过程中加入:
[ \nabla_{\mathbf{a}} R ]


更新:


[ \mathbf{a}^{k-1} = f_\theta(\mathbf{a}^k) + \lambda \nabla R ]
 


6. 本质理解

Diffuser = 在“合理轨迹分布”中进行优化


四、World Model vs Diffuser


1. World Model


[ z_{t+1} = f(z_t, a_t) ]

  • 显式预测未来

  • step-by-step 推演


2. Diffuser

[ \tau \sim p_\theta(\tau) ]

  • 直接生成完整轨迹

  • 不显式预测


核心区别

World Model Diffuser
时间处理 递推 一次生成
本质 预测未来 生成未来
建模对象 dynamics trajectory

五、关键概念深化


1. “未来”的不同含义

  • World Model:计算未来

  • Diffuser:采样未来


2. 分布支持(Support)


限制:


[ \tau \in \text{support}(p_{data}) ]
 


结论:

  • 可以局部泛化 ✔️

  • 难以生成全新策略 ❌


3. Reward 权重 λ 的作用


[ p(\tau) \propto p_\theta(\tau), \exp(\lambda R) ]
 


当 λ 过大:

  • 偏离数据分布

  • 产生不合理轨迹

  • 出现 reward hacking


六、关键认知跃迁


你已经完成从:


1️⃣ 逐步决策(RL / BC)

[ a_t = \pi(s_t) ]


→ 2️⃣ 序列建模(Diffusion Policy)

[ p(\mathbf{a}_{0:T} | s) ]


→ 3️⃣ 轨迹优化(Diffuser)

[ \max R(\tau) ]
 


七、当前能力评估


已掌握

  • diffusion 噪声建模

  • 噪声预测等价性

  • trajectory distribution

  • BC 的期望问题

  • guidance 本质

  • λ 的影响


仍需加强

  • 概率分布(support / density)

  • optimization 统一视角

  • trajectory-level thinking 的熟练度


八、下一步学习方向


推荐进入:

→ VLA(Vision-Language-Action)


将要学习内容:

  • 条件生成:

    $$
    [ p(a_{0:T} | \text{image}, \text{text}) ]
    $$

  • 多模态条件融合

  • diffusion 在 VLA 中的作用

  • 与 world model / planning 的结合


九、一句话总结


本次学习完成了从“动作预测”到“轨迹分布建模”,再到“基于分布的规划”的核心跃迁,为进入 VLA 奠定了理论基础。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐