记录每天的学习内容2026.3.26--diffuser(AI总结),与ai问答全部对话在https://github.com/101per/learning.git
学习过程文档(Diffusion Policy → Diffuser → Planning 过渡)
一、学习目标
本次学习的目标是完成从:
-
Diffusion Policy(动作生成) → Diffuser(轨迹级规划) → Planning 统一视角
的关键过渡,并建立如下能力:
-
理解 trajectory distribution 建模
-
理解 BC 与 diffusion 的本质差异
-
理解为什么需要 diffusion 做 planning
-
理解 Diffuser 的基本机制(sampling + guidance)
二、核心知识结构梳理
1. 行为建模方式的演化
(1)Behavior Cloning(BC)
目标函数:
关键结论:
本质问题(Multi-modal)
当:
是多峰分布时:
-
BC 输出的是条件期望
-
会产生“平均动作”
2. Diffusion Policy 的本质
Forward 过程:
关键性质:
-
(
) 可逆
-
预测噪声 ⇔ 预测原始数据
训练目标:
核心能力:
👉 直接建模动作序列分布
3. BC vs Diffusion(本质对比)
| 维度 | BC | Diffusion |
|---|---|---|
| 输出 | 单点 | 分布采样 |
| 本质 | 条件期望 | 条件分布 |
| multi-modal | ❌ | ✔️ |
| 规划能力 | ❌ | ✔️ |
三、Diffuser(核心内容)
1. 建模目标
或:
2. Planning 目标
3. 为什么不能直接优化?
(1)高维问题
(2)reward 不可导
$$
[ \nabla R \text{ 不稳定或不存在} ]
$$
(3)可行解极少
4. Diffuser 的核心思想
用 diffusion 限制搜索空间:
引入 reward:
5. Guidance 机制
在去噪过程中加入:
更新:
6. 本质理解
Diffuser = 在“合理轨迹分布”中进行优化
四、World Model vs Diffuser
1. World Model
-
显式预测未来
-
step-by-step 推演
2. Diffuser
-
直接生成完整轨迹
-
不显式预测
核心区别
| World Model | Diffuser | |
|---|---|---|
| 时间处理 | 递推 | 一次生成 |
| 本质 | 预测未来 | 生成未来 |
| 建模对象 | dynamics | trajectory |
五、关键概念深化
1. “未来”的不同含义
-
World Model:计算未来
-
Diffuser:采样未来
2. 分布支持(Support)
限制:
结论:
-
可以局部泛化 ✔️
-
难以生成全新策略 ❌
3. Reward 权重 λ 的作用
当 λ 过大:
-
偏离数据分布
-
产生不合理轨迹
-
出现 reward hacking
六、关键认知跃迁
你已经完成从:
1️⃣ 逐步决策(RL / BC)
→ 2️⃣ 序列建模(Diffusion Policy)
→ 3️⃣ 轨迹优化(Diffuser)
七、当前能力评估
已掌握
-
diffusion 噪声建模
-
噪声预测等价性
-
trajectory distribution
-
BC 的期望问题
-
guidance 本质
-
λ 的影响
仍需加强
-
概率分布(support / density)
-
optimization 统一视角
-
trajectory-level thinking 的熟练度
八、下一步学习方向
推荐进入:
→ VLA(Vision-Language-Action)
将要学习内容:
-
条件生成:
$$
[ p(a_{0:T} | \text{image}, \text{text}) ]
$$ -
多模态条件融合
-
diffusion 在 VLA 中的作用
-
与 world model / planning 的结合
九、一句话总结
本次学习完成了从“动作预测”到“轨迹分布建模”,再到“基于分布的规划”的核心跃迁,为进入 VLA 奠定了理论基础。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)