如何理解扩散diffusion模型

客行

325人浏览 · 2026-04-21 22:36:43

客行 · 2026-04-21 22:36:43 发布

文章主要解决以下问题

1什么是diffuson

2.什么是噪声，噪声的作用

3.为什么去噪后可以预测轨迹

一.首先介绍扩散模型

一句话总结扩散模型本质：如何把“纯噪声”一步一步还原成“有结构的数据”

它先定义一个“破坏数据”的过程：把真实样本一点点加噪，最后变成近似高斯白噪声。
然后训练一个神经网络去学它的逆过程：从噪声开始，一步步去噪，最后生成样本。

所以你可以把它理解成：

正向扩散：把图像/轨迹/语音慢慢“弄坏”
反向去噪：学会怎么把它“修回来”

传统生成模型常常想“一次性”生成结果。
扩散模型不是，它是：

先从随机噪声开始
第一步去掉一点无意义噪声
再去掉一点
再修正一点结构
最后得到清晰结果

这带来一个很关键的优点：

生成过程更稳定
训练目标更简单
多模态更自然

这也是为什么它在图像生成、视频生成、3D、分子生成、轨迹预测里都这么强。

二、噪声到底是什么

在轨迹 diffusion 里，噪声通常就是：

ε ~ N(0, I)

也就是一个和轨迹张量同形状的高斯随机变量。

如果未来轨迹是：x0: [B, 12, 2]

那噪声也是：ε: [B, 12, 2]

每个未来时刻、每个坐标维度，都会被加上随机扰动。

训练时不是“从噪声生成轨迹”，而是先拿到真实未来轨迹 GT。

设：

x0 = 真实未来轨迹
t = 随机采样的扩散步数
ε = 随机噪声

然后构造一个“被污染后的轨迹”：

这公式是什么意思

它的意思是：

当 t 很小，x_t 还很像真实轨迹
当 t 很大，x_t 基本接近纯噪声

所以 x_t 是一条 “不同脏乱程度的轨迹”

你可以这样理解：

t=0几乎就是真实轨迹

t=100真实轨迹还能勉强看出来一点

t=1000基本已经是一团随机点了

diffusion模型训练的目标不是预测轨迹，而是预测噪声，why？

当我们将加噪（即污染过的）轨迹，在某些条件下，喂给模型，其实是要模型猜这条轨迹哪些是噪声。所以模型的预测输出其实是噪声。训练的损失通常就是预测的噪声与真实加入噪声的差

三、为什么去噪可以得到轨迹

推理流程

Step 1：先初始化一条纯噪声轨迹

xT ~ N(0, I)
shape = [B, 12, 2]

这时候它根本不是轨迹，只是一堆随机数。

可以理解为：

12 个未来时刻
每个时刻一个 (x, y)
但这些点毫无运动意义

Step 2：把它送进模型

模型看：

当前随机轨迹 x_t
历史观测条件 condition
当前时间步 t

输出：

这条“假轨迹”里面哪些成分是噪声

Step 3：去掉一部分噪声，得到更干净的 `x_{t-1}`

也就是：

xt → 预测噪声 → 去噪 → x(t-1)

Step 4：反复执行

从 T → T-1 → T-2 → ... → 1 → 0

最后得到：x0，这个 x0 就是最终生成的未来轨迹。

给一个超简版例子

假设未来只预测 3 帧，不是 12 帧。

真实未来轨迹：x0 = [(1,1), (2,2), (3,3)]

采样一个时间步 t，加噪后：xt = [(0.7,1.8), (1.2,2.5), (4.1,1.9)]

这时候模型看见：

xt：这条又歪又乱的“伪轨迹”
obs：过去轨迹一直朝右上移动
short_intent：接下来还会继续朝右上
goal：终点大概率也在右上

模型就会学会判断：

第一帧 y 偏高了，是噪声
第二帧 x 偏低了，是噪声
第三帧整体方向不对，是噪声

然后逐步修回来。

最后采样结束，就得到一条平滑、方向合理、终点合理的轨迹。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

32.一次 AI Native 项目收口：把 PaperPilot 从面试 Demo 推向企业级科研 Agent 产品

今天继续推进了我的个人项目。这个项目最初是为了支撑 AI 应用工程 / RAG / Agent 方向的求职面试，但随着最近在真实业务项目中的实习经历，我越来越明显地感觉到：未来的软件工程师不再只是“手写代码的人”，而是要能够基于 Cursor、Claude Code、Codex、Gemini CLI 等 AI Coding 工具，完成需求理解、架构设计、代码生成、审查、测试和持续演进的人。

AtomGit开源社区

# FIVEOS AI智能编程测试说明

本文介绍了FIVEOSAI智能编程测试环境的构建与应用。该测试环境旨在研究AI辅助编程工具如何受训练数据中潜在问题的影响，通过"数理网格法"建立了一套包含结构定义、功能分解等环节的规则体系。测试分为目标设定、结构分解、规则约束下的生成、同步比对和结构化排查五个阶段，AI在受约束的框架内执行代码装配与校验任务。测试结果表明，AI编程仍存在逻辑漂移问题，要实现高水平编程还需AI能力

AtomGit开源社区

【EI复现】梯级水光互补系统最大化可消纳电量期望短期优化调度模型（Matlab代码实现）

文献来源：摘要：充分发挥流域梯级水电的调节作用，实现梯级水光系统的互补联合发电是促进清洁能源消纳的重要途径。文中考虑光伏出力不确定性，以整体可消纳电量期望最大为目标，提出了梯级水光互补系统的短期优化调度模型。该模型以机组为最小调度单位，精细化建模了电站约束、机组约束以及电网约束，通过梯级负荷在电站和时段间的合理调配，挖掘梯级水电的电网供电支撑和光伏互补协调双重作用，提升互补系统整体消纳水平。