记录每天的学习内容2026.3.25--diffusion policy(AI总结),与ai问答全部对话在https://github.com/101per/learning.git
下面是针对你今天学习内容的系统总结与学习过程文档,用形式化语言整理,便于复盘和后续学习。
今日学习内容总结 — VLA 与 Diffusion Policy 学习文档
日期:2026-03-25
学习目标:
-
深入理解 Diffusion Policy 在视觉-语言-动作(VLA)系统中的原理
-
理解 BC(Behavior Cloning)与 Diffusion Policy 的关系
-
理解时间一致性与多模态问题
-
将 BC、Diffusion Policy 与 RL(Dreamer)统一到策略学习框架中
一、Diffusion Policy 原理
1. 前向过程(Forward Diffusion)
-
定义:
-
$$
[ q(a^k \mid a^{k-1}) = \mathcal{N}\big(a^k; \sqrt{1-\beta_k} a^{k-1}, \beta_k I\big) ]
$$等价展开:
$$
[ a^k = \sqrt{\bar{\alpha}_k} a^0 + \sqrt{1 - \bar{\alpha}_k},\epsilon, \quad \epsilon \sim \mathcal{N}(0, I) ]
$$
-
说明:将原始轨迹加入噪声,逐步变为高斯噪声
2. 反向过程(Reverse Diffusion)
-
训练目标:学习从噪声回到原始动作轨迹
$$
[ p_\theta(a^{k-1} \mid a^k, o_t) ]
$$
-
通过预测噪声
$$
(\epsilon_\theta)
$$来实现:
$$
[ \epsilon = \frac{a^k - \sqrt{\bar{\alpha}_k} a^0}{\sqrt{1 - \bar{\alpha}_k}} \quad \Rightarrow \quad a^0 = \frac{a^k - \sqrt{1 - \bar{\alpha}*k}, \epsilon*\theta(a^k)}{\sqrt{\bar{\alpha}_k}} ]
$$
-
损失函数(MSE):
$$
[ \mathcal{L} = \mathbb{E}*{a^0, \epsilon, k} \big[ | \epsilon - \epsilon*\theta(a^k, o_t, k) |^2 \big] ]
$$
-
核心理解:预测噪声 = 学习如何还原真实动作轨迹
3. 时间一致性(Temporal Consistency)
-
每个 (a^k) 表示整个动作轨迹,不是单步动作
-
去噪每一步都对整条轨迹进行调整
-
模型结构(Temporal U-Net / Transformer)允许跨时间步信息交互 → 自动学到平滑、连续、动力学合理的动作序列
4. Diffusion Policy 与 Transformer 的对比
| 方法 | 输出形式 | 优势 | 劣势 |
|---|---|---|---|
| BC / Transformer | 单步预测 / one-shot | 简单监督学习 | 均值效应、无法纠错、忽略多模态和时间一致性 |
| Diffusion Policy | 迭代生成轨迹 | 保留多模态、逐步优化、时间一致性 | 训练复杂,计算量大 |
-
类比:
-
Transformer = 一次性写答案
-
Diffusion = 从错误答案逐步改正到正确答案
-
二、BC(Behavior Cloning)理解
-
本质:监督学习拟合专家动作
$$
[ \mathcal{L}*{BC} = \mathbb{E}*{(o,a)\sim \mathcal{D}} | a - \pi_\theta(o) |^2 ]
$$
-
问题:多模态动作会被压成平均动作 → “压点”现象
$$
[ a_{BC} = \mathbb{E}*{a\sim p*{data}}[a] ]
$$
-
对比 Diffusion Policy:可以保留整个动作分布 (p(a \mid o))
三、统一策略学习视角
| 方法 | 策略学习目标 | 核心机制 | 特性 |
|---|---|---|---|
| BC | 拟合专家分布的均值 | MSE 监督学习 | 单点输出,易崩溃,多模态无法表达 |
| Diffusion Policy | 拟合专家分布或轨迹分布 | 逐步去噪生成 | 保留多模态,时间一致性,逐步优化 |
| Dreamer / RL | 高 reward 区域分布 | world model + RL | 依赖 reward,训练复杂,探索成本高 |
-
统一理解:三者都是学习策略分布的不同近似方式
四、核心结论
-
Diffusion Policy 处理的是整个动作轨迹,每一步去噪都是在优化全局轨迹而非单步动作
-
预测噪声 = 预测轨迹偏差 → 从噪声恢复正确轨迹
-
BC 是 Diffusion 的“简化版” → 压缩多模态分布到一个点
-
时间一致性来自于:轨迹级别建模 + 每步迭代调整整个序列
-
Transformer 一次性预测难以保证多模态、平滑和可执行性,而 diffusion 通过迭代生成自然解决
五、下一步学习建议
-
深入 Diffusion Policy 的 latent action 概念
-
探索 Diffusion Policy 如何结合视觉 + 语言输入 → VLA 系统中的 RT-2 / OpenVLA
-
理解 Diffusion Policy 如何隐式学到动力学约束
这份文档总结了今天的核心概念、数学推导与机制对比,适合复盘与后续深入。
如果你需要,我可以帮你画一张图示化的三种策略学习方法对比图,把 BC、Diffusion、RL 的多模态分布和输出差异可视化,这样理解会更直观。
你希望我画吗?
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)