记录每天的学习内容2026.3.26--diffuser(AI总结),与ai问答全部对话在https://github.com/101per/learning.git

101%87

322人浏览 · 2026-03-26 21:09:27

101%87 · 2026-03-26 21:09:27 发布

学习过程文档（Diffusion Policy → Diffuser → Planning 过渡）

一、学习目标

本次学习的目标是完成从：

Diffusion Policy（动作生成） → Diffuser（轨迹级规划） → Planning 统一视角

的关键过渡，并建立如下能力：

理解 trajectory distribution 建模
理解 BC 与 diffusion 的本质差异
理解为什么需要 diffusion 做 planning
理解 Diffuser 的基本机制（sampling + guidance）

二、核心知识结构梳理

1. 行为建模方式的演化

（1）Behavior Cloning（BC）

目标函数：

$\mathcal{L} = \mathbb{E}_{(s,a)\sim D} |a - \hat{a}(s)|^2$

关键结论：

$\hat{a}(s) = \mathbb{E}[a|s]$

本质问题（Multi-modal）

当：
$[ p(a|s) ]$

是多峰分布时：

BC 输出的是条件期望
会产生“平均动作”

2. Diffusion Policy 的本质

Forward 过程：

$a^k = \sqrt{\alpha_k} a^0 + \sqrt{1-\alpha_k},\epsilon$

关键性质：

( $a^0 \leftrightarrow \epsilon$ ) 可逆
预测噪声 ⇔ 预测原始数据

训练目标：

$\mathcal{L} = \mathbb{E}|\epsilon - \epsilon_\theta|^2$

核心能力：

$p(\mathbf{a}_{0:T} | s)$

👉 直接建模动作序列分布

3. BC vs Diffusion（本质对比）

维度	BC	Diffusion
输出	单点	分布采样
本质	条件期望	条件分布
multi-modal	❌	✔️
规划能力	❌	✔️

三、Diffuser（核心内容）

1. 建模目标

$\mathbf{a}*{0:T} \sim p*\theta(\mathbf{a}_{0:T} | s_0)$

或：
$\tau \sim p_\theta(\tau)$

2. Planning 目标

$\max_{\mathbf{a}*{0:T}} R(z*{0:T})$

3. 为什么不能直接优化？

（1）高维问题

$\mathbf{a}_{0:T} \in \mathbb{R}^{dT}$

（2）reward 不可导

$$
[ \nabla R \text{ 不稳定或不存在} ]
$$

（3）可行解极少

$[ \mathcal{A}_{valid} \ll \mathbb{R}^{dT} ]$

4. Diffuser 的核心思想

用 diffusion 限制搜索空间：

$[ \mathbf{a} \sim p_\theta(\mathbf{a}|s) ]$

引入 reward：

$[ p(\tau) \propto p_\theta(\tau), \exp(\lambda R(\tau)) ]$

5. Guidance 机制

在去噪过程中加入：
$[ \nabla_{\mathbf{a}} R ]$

更新：

$[ \mathbf{a}^{k-1} = f_\theta(\mathbf{a}^k) + \lambda \nabla R ]$

6. 本质理解

Diffuser = 在“合理轨迹分布”中进行优化

四、World Model vs Diffuser

1. World Model

$[ z_{t+1} = f(z_t, a_t) ]$

显式预测未来
step-by-step 推演

2. Diffuser

$[ \tau \sim p_\theta(\tau) ]$

直接生成完整轨迹
不显式预测

核心区别

	World Model	Diffuser
时间处理	递推	一次生成
本质	预测未来	生成未来
建模对象	dynamics	trajectory

五、关键概念深化

1. “未来”的不同含义

World Model：计算未来
Diffuser：采样未来

2. 分布支持（Support）

限制：

$[ \tau \in \text{support}(p_{data}) ]$

结论：

可以局部泛化 ✔️
难以生成全新策略 ❌

3. Reward 权重 λ 的作用

$[ p(\tau) \propto p_\theta(\tau), \exp(\lambda R) ]$

当 λ 过大：

偏离数据分布
产生不合理轨迹
出现 reward hacking

六、关键认知跃迁

你已经完成从：

1️⃣ 逐步决策（RL / BC）

$[ a_t = \pi(s_t) ]$

→ 2️⃣ 序列建模（Diffusion Policy）

$[ p(\mathbf{a}_{0:T} | s) ]$

→ 3️⃣ 轨迹优化（Diffuser）

$[ \max R(\tau) ]$

七、当前能力评估

已掌握

diffusion 噪声建模
噪声预测等价性
trajectory distribution
BC 的期望问题
guidance 本质
λ 的影响

仍需加强

概率分布（support / density）
optimization 统一视角
trajectory-level thinking 的熟练度

八、下一步学习方向

→ VLA（Vision-Language-Action）

将要学习内容：

条件生成：

$$
[ p(a_{0:T} | \text{image}, \text{text}) ]
$$
多模态条件融合
diffusion 在 VLA 中的作用
与 world model / planning 的结合

九、一句话总结

本次学习完成了从“动作预测”到“轨迹分布建模”，再到“基于分布的规划”的核心跃迁，为进入 VLA 奠定了理论基础。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 时代前端生存与破局：从焦虑到核心竞争力构建

AtomGit开源社区

IDEA 不只接 Claude 和 Codex：本地模型和第三方 API 也能直接用

AtomGit开源社区

Java并发编程:ConcurrentLinkedQueue设计与实现

AtomGit开源社区

所有评论(0)

查看更多评论

101%87

@2403_88318326

已为社区贡献12条内容

记录每天的学习内容2026.3.26--diffuser(AI总结),与ai问答全部对话在https://github.com/101per/learning.git

101%87

学习过程文档（Diffusion Policy → Diffuser → Planning 过渡）

一、学习目标

二、核心知识结构梳理

1. 行为建模方式的演化

（1）Behavior Cloning（BC）

关键结论：

本质问题（Multi-modal）

2. Diffusion Policy 的本质

Forward 过程：

关键性质：

训练目标：

核心能力：

3. BC vs Diffusion（本质对比）

三、Diffuser（核心内容）

1. 建模目标

2. Planning 目标

3. 为什么不能直接优化？

（1）高维问题

（2）reward 不可导

（3）可行解极少

4. Diffuser 的核心思想

用 diffusion 限制搜索空间：

引入 reward：

5. Guidance 机制

6. 本质理解

四、World Model vs Diffuser

1. World Model

2. Diffuser

核心区别

五、关键概念深化

1. “未来”的不同含义

2. 分布支持（Support）

限制：

结论：

3. Reward 权重 λ 的作用

当 λ 过大：

六、关键认知跃迁

1️⃣ 逐步决策（RL / BC）

→ 2️⃣ 序列建模（Diffusion Policy）

→ 3️⃣ 轨迹优化（Diffuser）

七、当前能力评估

已掌握

仍需加强

八、下一步学习方向

推荐进入：

→ VLA（Vision-Language-Action）

将要学习内容：

九、一句话总结

所有评论(0)

温馨提示：您尚未绑定手机号

101%87