记录每天的学习内容2026.3.25--diffusion policy(AI总结),与ai问答全部对话在https://github.com/101per/learning.git

101%87

341人浏览 · 2026-03-25 21:56:04

101%87 · 2026-03-25 21:56:04 发布

下面是针对你今天学习内容的系统总结与学习过程文档，用形式化语言整理，便于复盘和后续学习。

今日学习内容总结 — VLA 与 Diffusion Policy 学习文档

日期：2026-03-25

学习目标：

深入理解 Diffusion Policy 在视觉-语言-动作（VLA）系统中的原理
理解 BC（Behavior Cloning）与 Diffusion Policy 的关系
理解时间一致性与多模态问题
将 BC、Diffusion Policy 与 RL（Dreamer）统一到策略学习框架中

一、Diffusion Policy 原理

1. 前向过程（Forward Diffusion）

定义：
$$
[ q(a^k \mid a^{k-1}) = \mathcal{N}\big(a^k; \sqrt{1-\beta_k} a^{k-1}, \beta_k I\big) ]
$$

等价展开：

$$
[ a^k = \sqrt{\bar{\alpha}_k} a^0 + \sqrt{1 - \bar{\alpha}_k},\epsilon, \quad \epsilon \sim \mathcal{N}(0, I) ]
$$

说明：将原始轨迹加入噪声，逐步变为高斯噪声

2. 反向过程（Reverse Diffusion）

训练目标：学习从噪声回到原始动作轨迹

$$
[ p_\theta(a^{k-1} \mid a^k, o_t) ]
$$

通过预测噪声

$$
(\epsilon_\theta)
$$

来实现：

$$
[ \epsilon = \frac{a^k - \sqrt{\bar{\alpha}_k} a^0}{\sqrt{1 - \bar{\alpha}_k}} \quad \Rightarrow \quad a^0 = \frac{a^k - \sqrt{1 - \bar{\alpha}*k}, \epsilon*\theta(a^k)}{\sqrt{\bar{\alpha}_k}} ]
$$

损失函数（MSE）：

$$
[ \mathcal{L} = \mathbb{E}*{a^0, \epsilon, k} \big[ | \epsilon - \epsilon*\theta(a^k, o_t, k) |^2 \big] ]
$$

核心理解：预测噪声 = 学习如何还原真实动作轨迹

3. 时间一致性（Temporal Consistency）

每个 (a^k) 表示整个动作轨迹，不是单步动作
去噪每一步都对整条轨迹进行调整
模型结构（Temporal U-Net / Transformer）允许跨时间步信息交互 → 自动学到平滑、连续、动力学合理的动作序列

4. Diffusion Policy 与 Transformer 的对比

方法	输出形式	优势	劣势
BC / Transformer	单步预测 / one-shot	简单监督学习	均值效应、无法纠错、忽略多模态和时间一致性
Diffusion Policy	迭代生成轨迹	保留多模态、逐步优化、时间一致性	训练复杂，计算量大

类比：
- Transformer = 一次性写答案
- Diffusion = 从错误答案逐步改正到正确答案

二、BC（Behavior Cloning）理解

本质：监督学习拟合专家动作

$$
[ \mathcal{L}*{BC} = \mathbb{E}*{(o,a)\sim \mathcal{D}} | a - \pi_\theta(o) |^2 ]
$$

问题：多模态动作会被压成平均动作 → “压点”现象

$$
[ a_{BC} = \mathbb{E}*{a\sim p*{data}}[a] ]
$$

对比 Diffusion Policy：可以保留整个动作分布 (p(a \mid o))

三、统一策略学习视角

方法	策略学习目标	核心机制	特性
BC	拟合专家分布的均值	MSE 监督学习	单点输出，易崩溃，多模态无法表达
Diffusion Policy	拟合专家分布或轨迹分布	逐步去噪生成	保留多模态，时间一致性，逐步优化
Dreamer / RL	高 reward 区域分布	world model + RL	依赖 reward，训练复杂，探索成本高

统一理解：三者都是学习策略分布的不同近似方式

四、核心结论

Diffusion Policy 处理的是整个动作轨迹，每一步去噪都是在优化全局轨迹而非单步动作
预测噪声 = 预测轨迹偏差 → 从噪声恢复正确轨迹
BC 是 Diffusion 的“简化版” → 压缩多模态分布到一个点
时间一致性来自于：轨迹级别建模 + 每步迭代调整整个序列
Transformer 一次性预测难以保证多模态、平滑和可执行性，而 diffusion 通过迭代生成自然解决

五、下一步学习建议

深入 Diffusion Policy 的 latent action 概念
探索 Diffusion Policy 如何结合视觉 + 语言输入 → VLA 系统中的 RT-2 / OpenVLA
理解 Diffusion Policy 如何隐式学到动力学约束

这份文档总结了今天的核心概念、数学推导与机制对比，适合复盘与后续深入。

如果你需要，我可以帮你画一张图示化的三种策略学习方法对比图，把 BC、Diffusion、RL 的多模态分布和输出差异可视化，这样理解会更直观。

你希望我画吗？

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

人工智能时代，程序员一定要收藏的3个零门槛AI工具

很多人已经开始感觉到不对劲了。上个月我还在和团队调试一个持续集成环境，隔壁组的前端已经用AI工具把一个两周的页面改版压缩到三天。不是他变强了，是他手里的工具变了。不是AI取代人，是会用AI的人取代不会用的人。这句话我在过去半年至少说了二十遍，每一次都是在对着一脸焦虑的工程师说。这篇文章不聊概念，直接给能落地的东西。三个工具，零门槛，今天装完今天能用。一、不是AI取代你，是会用AI的人取代你二、代码