下面是针对你今天学习内容的系统总结与学习过程文档,用形式化语言整理,便于复盘和后续学习。


今日学习内容总结 — VLA 与 Diffusion Policy 学习文档

日期:2026-03-25

学习目标

  • 深入理解 Diffusion Policy 在视觉-语言-动作(VLA)系统中的原理

  • 理解 BC(Behavior Cloning)与 Diffusion Policy 的关系

  • 理解时间一致性与多模态问题

  • 将 BC、Diffusion Policy 与 RL(Dreamer)统一到策略学习框架中


一、Diffusion Policy 原理

1. 前向过程(Forward Diffusion)

  • 定义:

  • $$
    [ q(a^k \mid a^{k-1}) = \mathcal{N}\big(a^k; \sqrt{1-\beta_k} a^{k-1}, \beta_k I\big) ]
    $$

     

    等价展开:

$$
[ a^k = \sqrt{\bar{\alpha}_k} a^0 + \sqrt{1 - \bar{\alpha}_k},\epsilon, \quad \epsilon \sim \mathcal{N}(0, I) ]
$$

  • 说明:将原始轨迹加入噪声,逐步变为高斯噪声


2. 反向过程(Reverse Diffusion)

  • 训练目标:学习从噪声回到原始动作轨迹

$$
[ p_\theta(a^{k-1} \mid a^k, o_t) ]
$$

  • 通过预测噪声

    $$
    (\epsilon_\theta)
    $$

     

    来实现:

$$
[ \epsilon = \frac{a^k - \sqrt{\bar{\alpha}_k} a^0}{\sqrt{1 - \bar{\alpha}_k}} \quad \Rightarrow \quad a^0 = \frac{a^k - \sqrt{1 - \bar{\alpha}*k}, \epsilon*\theta(a^k)}{\sqrt{\bar{\alpha}_k}} ]
$$

  • 损失函数(MSE):

$$
[ \mathcal{L} = \mathbb{E}*{a^0, \epsilon, k} \big[ | \epsilon - \epsilon*\theta(a^k, o_t, k) |^2 \big] ]
$$

  • 核心理解:预测噪声 = 学习如何还原真实动作轨迹


3. 时间一致性(Temporal Consistency)

  • 每个 (a^k) 表示整个动作轨迹,不是单步动作

  • 去噪每一步都对整条轨迹进行调整

  • 模型结构(Temporal U-Net / Transformer)允许跨时间步信息交互 → 自动学到平滑、连续、动力学合理的动作序列


4. Diffusion Policy 与 Transformer 的对比

方法 输出形式 优势 劣势
BC / Transformer 单步预测 / one-shot 简单监督学习 均值效应、无法纠错、忽略多模态和时间一致性
Diffusion Policy 迭代生成轨迹 保留多模态、逐步优化、时间一致性 训练复杂,计算量大
  • 类比:

    • Transformer = 一次性写答案

    • Diffusion = 从错误答案逐步改正到正确答案


二、BC(Behavior Cloning)理解

  • 本质:监督学习拟合专家动作

$$
[ \mathcal{L}*{BC} = \mathbb{E}*{(o,a)\sim \mathcal{D}} | a - \pi_\theta(o) |^2 ]
$$

  • 问题:多模态动作会被压成平均动作 → “压点”现象

$$
[ a_{BC} = \mathbb{E}*{a\sim p*{data}}[a] ]
$$

  • 对比 Diffusion Policy:可以保留整个动作分布 (p(a \mid o))


三、统一策略学习视角

方法 策略学习目标 核心机制 特性
BC 拟合专家分布的均值 MSE 监督学习 单点输出,易崩溃,多模态无法表达
Diffusion Policy 拟合专家分布或轨迹分布 逐步去噪生成 保留多模态,时间一致性,逐步优化
Dreamer / RL 高 reward 区域分布 world model + RL 依赖 reward,训练复杂,探索成本高
  • 统一理解:三者都是学习策略分布的不同近似方式


四、核心结论

  1. Diffusion Policy 处理的是整个动作轨迹,每一步去噪都是在优化全局轨迹而非单步动作

  2. 预测噪声 = 预测轨迹偏差 → 从噪声恢复正确轨迹

  3. BC 是 Diffusion 的“简化版” → 压缩多模态分布到一个点

  4. 时间一致性来自于:轨迹级别建模 + 每步迭代调整整个序列

  5. Transformer 一次性预测难以保证多模态、平滑和可执行性,而 diffusion 通过迭代生成自然解决


五、下一步学习建议

  1. 深入 Diffusion Policy 的 latent action 概念

  2. 探索 Diffusion Policy 如何结合视觉 + 语言输入 → VLA 系统中的 RT-2 / OpenVLA

  3. 理解 Diffusion Policy 如何隐式学到动力学约束


这份文档总结了今天的核心概念、数学推导与机制对比,适合复盘与后续深入。


如果你需要,我可以帮你画一张图示化的三种策略学习方法对比图,把 BC、Diffusion、RL 的多模态分布和输出差异可视化,这样理解会更直观。

你希望我画吗?

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐