【扩散模型原理】（四）Diffusion Models Today: Score SDE Framework（2）

风巽·剑染春水

538人浏览 · 2026-06-03 22:52:50

风巽·剑染春水 · 2026-06-03 22:52:50 发布

《扩散模型原理：从起源到发展》：第四章扩散模型的今天：Score SDE 框架

专著：The Principles of Diffusion Models

上一章：【扩散模型原理】（四）Diffusion Models Today: Score SDE Framework（1）

4.3 随机微分方程的实例化（Instantiations of SDEs）

Song 等人依据演化过程中方差的变化特性，将正向随机微分方程中的漂移项 $\mathbf{f}(\mathbf{x},t)$ 与扩散项 $g (t)$ 划分为三类。本文重点介绍两种常用类型：方差爆炸型（Variance Explosion, VE）随机微分方程与方差保持型（Variance Preserving, VP）随机微分方程。尽管可自定义噪声调度器，但其设计会显著影响模型的实际性能。表 4.1 总结了这两种随机微分方程的具体形式。

Table 4.1 | 前向随机微分方程汇总：

在这里插入图片描述

4.3.1 方差爆炸型随机微分方程（VE SDE）

方差爆炸型（VE）随机微分方程的构成如下：

（1）漂移项： 零漂移项， $\mathbf{f}=\mathbf{0}.$
（2）扩散项： 对于函数 $\sigma(t)$ ，满足 $g(t)=\sqrt{\frac{\mathrm{d}\sigma^2(t)}{\mathrm{d}t}}.$

由此，正向随机微分方程可写为：
$\mathrm{d}\mathbf{x}(t)=\sqrt{\frac{\mathrm{d}\sigma^2(t)}{\mathrm{d}t}}\mathrm{d}\mathbf{w}(t).\tag{4.3.1}$ 同理，4.3.3 节的结论给出了方差爆炸型随机微分方程的扰动核，并给出先验分布的选取方式：

（1）扰动核： $p_t(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}\big(\mathbf{x}_t;\mathbf{x}_0,\big(\sigma^2(t)-\sigma^2(0)\big)\mathbf{I}\big)$

（2）先验分布： 设 $\sigma(t)$ 为 $t\in[0,T]$ 上的增函数，且满足 $\sigma^2(T)\gg\sigma^2(0)$ ，则先验分布为：
$p_{\text{prior}}:=\mathcal{N}\big(\mathbf{0},\sigma^2(T)\mathbf{I}\big).$

方差爆炸型（VE）随机微分方程的典型实现为 NCSN 模型，其设计形式如下：
$\sigma(t):=\sigma_{\min}\left(\frac{\sigma_{\max}}{\sigma_{\min}}\right)^t,\quad t\in(0,1],$ 其中 $\sigma_{\min}$ 与 $\sigma_{\max}$ 为预设常数。该方差序列为等比数列，因此如 4.1.1 节所述，NCSN 可视为方差爆炸型随机微分方程的离散化版本。

4.3.2 方差保持型随机微分方程（VP SDE）

设 $\beta: [0,T] \to \mathbb{R}_{\ge 0}$ 为 $t$ 的非负函数。方差保持型（VP）随机微分方程的定义包含以下部分：

（1）漂移项： 线性漂移项，形式为 $\boldsymbol{f}(\mathbf{x},t) = -\frac{1}{2}\beta(t)\mathbf{x}.$
（2）扩散项： $\sqrt{\beta(t)}.$

由此，正向随机微分方程可写为：
$\mathrm{d}\mathbf{x}(t) = -\frac{1}{2}\beta(t)\mathbf{x}(t)\,\mathrm{d}t + \sqrt{\beta(t)}\,\mathrm{d}\mathbf{w}(t). \tag{4.3.2}$ 利用第 4.3.3 节的结论，可推导方差保持型随机微分方程的扰动核，并选取合适的先验分布：

（1）扰动核： $p_t(\mathbf{x}_t|\mathbf{x}_0) = \mathcal{N}\left(\mathbf{x}_t;\ \mathbf{x}_0 e^{-\frac{1}{2}\int_0^t \beta(\tau)\,\mathrm{d}\tau},\ \mathbf{I} - \mathbf{I}e^{-\int_0^t \beta(\tau)\,\mathrm{d}\tau}\right).$

（2）先验分布： $p_{\text{prior}} := \mathcal{N}(\mathbf{0},\mathbf{I}).$

由于该扰动核为均值与协方差均已知的高斯分布，可通过式 (D.2.5) 计算其得分函数。

方差保持型（VP）随机微分方程的经典实例为 DDPM 模型，其噪声调度函数 $\beta(t)$ 定义为：
$\beta(t) := \beta_{\min} + t(\beta_{\max} - \beta_{\min}), \quad \forall t \in [0,1].$ 其中 $\beta_{\min}$ 与 $\beta_{\max}$ 为预设常数。如 4.1.1 节所述，在此设定下，DDPM 可被理解为该方差保持型随机微分方程的离散化形式。

4.3.3 （可选）扰动核 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 如何推导？（(Optional) How Is the Perturbation Kernel $p_t(\mathbf{x}_t|\mathbf{x}_0)$ Derived?）

若正向随机微分方程（式 (4.1.3)）中的漂移项关于 $\mathbf{x}$ 为线性，即满足形式：
$\mathbf{f}(\mathbf{x},t) = f(t)\mathbf{x},$ 其中 $f(t)\in\mathbb{R}$ 为标量值时变函数，则式 (4.1.3) 退化为线性随机微分方程：
$\mathrm{d}\mathbf{x}(t) = f(t)\mathbf{x}(t)\mathrm{d}t + g(t)\mathrm{d}\mathbf{w}(t).$ 即使初始分布 $p_{\text{data}}$ 非高斯，漂移项的线性特性仍可保证条件过程始终为高斯分布。特别地，对于 $t > 0$ ，其转移核具有如下形式：
$p_t(\mathbf{x}_t|\mathbf{x}_0) = \mathcal{N}\big(\mathbf{x}_t; \mathbf{m}(t), P(t)\mathbf{I}_D\big),$ 其中 $\mathbf{x}_0\sim p_{\text{data}}$ ， $\mathbf{m}(t)\in\mathbb{R}^D$ 与 $P(t)\in\mathbb{R}_{\ge0}$ 分别表示给定 $\mathbf{x}_0$ 时的条件均值与（标量）方差，定义为：
$\mathbf{m}(t) = \mathbb{E}\left[\mathbf{x}_t \,\big|\, \mathbf{x}(0)=\mathbf{x}_0\right], \quad P(t)\mathbf{I}_D = \mathrm{Cov}\left[\mathbf{x}_t \,\big|\, \mathbf{x}(0)=\mathbf{x}_0\right].$

线性漂移保证了前向过程是 “确定性线性演化” 与 “高斯噪声卷积” 的叠加，而高斯分布在线性运算下具有封闭性，因此条件转移核永远保持高斯形态，与真实数据的初始分布形态无关。

根据 Särkkä 与 Solin（2019）的结论，上述一阶与二阶矩满足如下常微分方程（初始均值 $\mathbf{m}(0)$ 与方差 $P (0)$ 有限时成立）：
$\begin{cases} \displaystyle \frac{\mathrm{d}\mathbf{m}(t)}{\mathrm{d}t} = f(t)\mathbf{m}(t), \\[1.5ex] \displaystyle \frac{\mathrm{d}P(t)}{\mathrm{d}t} = 2f(t)P(t) + g^2(t), \end{cases} \tag{4.3.3}$
由于两个常微分方程均为线性，可通过积分因子法求得闭式解。给定初始条件 $\mathbf{x}_0$ ，均值与方差的演化形式为：
$\mathbf{m}(t) = \mathcal{E}(0 \to t)\mathbf{x}_0,\quad P(t) = \int_0^t \mathcal{E}^2(s \to t)g(s)^2\,\mathrm{d}s, \tag{4.3.4}$ 其中 $\mathbf{m}(0)=\mathbf{x}_0$ ， $P (0) = 0$ 。此处 $\mathcal{E}(s\to t)$ 为指数积分因子，定义为：
$\mathcal{E}(s \to t) := \exp\left(\int_s^t f(u)\,\mathrm{d}u\right),$ 其物理意义为漂移项从时刻 $s$ 到 $t$ 的累积效应。由此，转移核 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 也存在闭式表达式。

在具有独立分量且扩散矩阵为 $g(t)\mathbf{I}_D$ 的 $D$ 维维纳过程下，条件分布 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 的条件协方差具有各向同性（即 $\mathrm{Cov}[\mathbf{x}_t|\mathbf{x}_0] = P(t)\mathbf{I}_D$ ），以及式 (4.3.3) 的推导过程均依赖伊藤积分，相关证明将在 C.1.5 节给出。

示例：方差爆炸型（VE）SDE 的转移核
在方差爆炸型（VE）随机微分方程的特殊情形下：漂移项 $\mathbf{f} \equiv \mathbf{0}$ ，扩散项 $\sqrt{\frac{\mathrm{d}\sigma^2(t)}{\mathrm{d}t}}$ ，其解的均值与协方差演化如下：

均值：
$\frac{\mathrm{d}\mathbf{m}(t)}{\mathrm{d}t} = \mathbf{0}, \quad \mathbf{m}(0) = \mathbf{x}_0 \implies \mathbf{m}(t) = \mathbf{x}_0.$ 方差：
$\frac{\mathrm{d}P(t)}{\mathrm{d}t} = \frac{\mathrm{d}\sigma^2(t)}{\mathrm{d}t}, \quad P(0) = 0 \implies P(t) = \sigma^2(t) - \sigma^2(0).$ 因此，转移核为：
$p_t(\mathbf{x}_t|\mathbf{x}_0) = \mathcal{N}\left(\mathbf{x}_t; \mathbf{x}_0, \left(\sigma^2(t) - \sigma^2(0)\right)\mathbf{I}_D\right).$

示例：方差保持型（VP）SDE 的转移核
在方差保持型（VP）随机微分方程中，漂移项为 $\mathbf{f}(\mathbf{x},t) = -\frac{1}{2}\beta(t)\mathbf{x}$ ，扩散项为 $\sqrt{\beta(t)}$ ：

均值 $\mathbf{m}(t)$ ：
$\frac{\mathrm{d}\mathbf{m}}{\mathrm{d}t} = -\frac{1}{2}\beta(t)\mathbf{m}(t), \quad B(t) := \int_0^t \beta(s)\,\mathrm{d}s, \quad \mathbf{m}(t) = e^{-\frac{1}{2}B(t)}\mathbf{x}_0.$ 方差 $P (t)$ ：
方差满足方程
$\frac{\mathrm{d}P}{\mathrm{d}t} = -\beta(t)P(t) + \beta(t).$ 利用积分因子 $e^{B(t)}$ （其中 $\int_0^t \beta(s)\,\mathrm{d}s$ ），可得：
$\frac{\mathrm{d}}{\mathrm{d}t}\left[P(t)e^{B(t)}\right] = \beta(t)e^{B(t)}.$ 对两边积分，解得：
$P(t) = 1 - e^{-B(t)}.$ 因此，协方差为各向同性，形式为：
$\mathbf{P}(t) = P(t)\mathbf{I}_D = \left(1 - e^{-B(t)}\right)\mathbf{I}_D.$ 最终闭式转移核：
$p_t(\mathbf{x}_t \mid \mathbf{x}_0) = \mathcal{N}\left(\mathbf{x}_t; \underbrace{e^{-\frac{1}{2}B(t)}\mathbf{x}_0}_{\mathbf{m}(t)}, \underbrace{\left(1 - e^{-B(t)}\right)\mathbf{I}_D}_{P(t)\mathbf{I}_D}\right), \quad B(t) = \int_0^t \beta(s)\,\mathrm{d}s.$

均值按指数衰减（记忆褪色），方差从 0 增长到 1（噪声接管），两者共同构成了一个完全可解析计算的、随时间变化的高斯分布，这就是 VP SDE 的转移核。

4.4 （可选）重新思考基于得分与变分扩散模型中的前向核（(Optional) Rethinking Forward Kernels in Score-Based and Variational Diffusion Models）

DDPM 与 Score SDE 通常通过正向转移核 $p(\mathbf{x}_t|\mathbf{x}_{t-\Delta t})$ 引入：其中 DDPM 采用离散定义形式，而 Score SDE 采用连续时间随机微分方程形式。但在实际应用中，尤其是二者的损失函数（式 (2.2.8) 与式 (4.2.1)）中，真正关键的是从原始数据累积得到的转移核 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 。两种框架最终均依赖该转移核，其中 DDPM 通过递归计算实现，而得分随机微分方程则如 4.3.3 节所述，通过求解常微分方程得到。

本节将首先定义连续时间下的 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ ，以提供更简洁、直接的视角。总体而言，尽管 $p(\mathbf{x}_t|\mathbf{x}_{t-\Delta t})$ 与 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 在理论上等价，但定义后者往往能得到更清晰、更具可解释性的形式。特别地， $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 可直接揭示 $t\to T$ 时的先验分布特性，且与实际损失函数的设计天然契合。

Figure 4.6 | 引理 4.4.1 示意图：当步长 $\Delta t \to 0$ 时，基于连续时间随机微分方程的增量式噪声注入，与式 (4.4.1) 中的直接扰动在数学上等价。

在这里插入图片描述

4.4.1 一般仿射前向过程 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ （A General Affine Forward Process $p_t(\mathbf{x}_t|\mathbf{x}_0)$ ）

首先定义一般形式的正向扰动核：
$p_t(\mathbf{x}_t|\mathbf{x}_0) := \mathcal{N}(\mathbf{x}_t; \alpha_t \mathbf{x}_0, \sigma_t^2 \mathbf{I}), \tag{4.4.1}$ 其中 $\mathbf{x}_0 \sim p_{\text{data}}$ ， $\alpha_t$ 、 $\sigma_t$ 为 $\in [0,T]$ 的非负标量函数，满足：

(i) 对所有 $\in (0,1]$ ， $\alpha_t > 0$ 且 $\sigma_t > 0$ （允许 $\sigma_0 = 0$ ）；

(ii) 通常取 $\alpha_0 = 1$ 且 $\sigma_0 = 0$ 。

也就是说，从 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 中采样得到的 $\mathbf{x}_t$ 可表示为：
$\textcolor{dodgerblue}{\mathbf{x}_t = \alpha_t \mathbf{x}_0 + \sigma_t \boldsymbol{\epsilon}, \quad \boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}).}$ 该框架涵盖了多种经典模型，包括：方差爆炸型（VE，如 NCSN）、方差保持型（VP，如 DDPM）以及流匹配（FM）正向核（Lipman 等人，2022；Liu, 2022），后者通过在 $\mathbf{x}_0$ 与 $\boldsymbol{\epsilon}$ 间进行线性插值实现（详见第 5.2 节）。

方差爆炸型（NCSN）核： $\alpha_t \equiv 1$ ，且 $\sigma_T \gg 1$ ；

方差保持型（DDPM）核：定义 $\alpha_t := \sqrt{1-\sigma_t^2}$ ，满足 $\alpha_t^2 + \sigma_t^2 = 1$ ；

流匹配（FM）核： $\alpha_t = 1-t$ ， $\sigma_t = t$ 。

4.4.2 与得分随机微分方程的联系（Connection to Score SDE）

对于 Score SDE，将 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 指定为线性形式，可自然导出具有仿射系数的随机微分方程。这为研究提供了一种比 “从漂移项和扩散项出发、求解矩的常微分方程” 更直观的替代方案（详见 4.3.3 节）。

给定式 (4.4.1) 中的正向扰动核，对应的正向随机微分方程具有如式 (4.3.2) 所示的关于 $\mathbf{x}$ 的线性形式：
$\mathrm{d}\mathbf{x}(t) = \underbrace{f(t)\mathbf{x}(t)}_{\mathbf{f}(\mathbf{x}(t),t)} \mathrm{d}t + g(t)\mathrm{d}\mathbf{w}(t),$ 其中 $\to \mathbb{R}$ 为时间的实值函数。系数 $f (t)$ 和 $g (t)$ 可通过 $\alpha_t$ 和 $\sigma_t$ 解析表达，具体形式将在以下引理中给出。

在这里插入图片描述

若要在终止时刻精确匹配高斯先验分布，演化过程需要完全消除对初值 $\mathbf{x}_0$ 的依赖并收敛至目标方差；该条件等价于 $\alpha_T=0$ ，且 $\sigma_T^2$ 与先验方差相等。在随机微分方程体系中，系数满足： $\alpha_t = \exp\left(\int_0^t f(u)\,\mathrm{d}u\right)$ 因此在有限终止时刻 $T$ 强制约束 $\alpha_T=0$ ，则要求
$\int_0^T f(u)\,\mathrm{d}u = -\infty$ 意味着当 $t\to T$ 时，漂移项需要以无穷快的速率做收缩变换。与此同时，为维持既定方差，扩散项必须趋于发散，对应关系式： $g^2(t) = \sigma_t^{2\prime} - 2\frac{\alpha_t'}{\alpha_t}\sigma_t^2 \to \infty,\quad t\to T$ 倘若 $f, g$ 在区间 $[0, T]$ 上有界，则必然满足 $\alpha_T>0$ ，过程会残存对初值 $\mathbf{x}_0$ 的依赖。此种情形下，模型仅能渐近逼近高斯先验：要么在 $t\to T$ 的极限下无限靠近（无法严格取到），要么通过时间重参数化令 $T\to\infty$ ，在无穷时间尺度上精确收敛至目标先验。

要在有限时间内精确得到纯高斯噪声，需要过程在终点瞬间“狂暴”到无穷大，这不可能；所以实际扩散模型要么近似达到，要么用无穷长时间慢慢逼近。

由上述引理可得：通过含系数 $f (t)$ 、 $g (t)$ 的线性随机微分方程定义增量式噪声注入，与利用参数 $\alpha_t$ 、 $\sigma_t$ 构造扰动核在数学上完全等价。在扩散模型相关文献中，这两种建模视角可互换使用。据此得到结论：
结论 4.4.1
定义扰动核 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ ，等价于确定线性随机微分方程的系数 $f (t)$ 与 $g (t)$ 。

4.4.3 与基于变分的扩散模型的联系（Connection to Variational-Based Diffusion Model）

本节回顾由贝叶斯公式推导得到的 DDPM 核心恒等式：
$p(\mathbf{x}_{t-\Delta t}|\mathbf{x}_t,\mathbf{x}) = p(\mathbf{x}_t|\mathbf{x}_{t-\Delta t})\cdot \frac{p_{t-\Delta t}(\mathbf{x}_{t-\Delta t}|\mathbf{x})}{p_t(\mathbf{x}_t|\mathbf{x})}, \tag{4.4.3}$ 该式对任意 $\mathbf{x}$ （通常满足 $\mathbf{x}\sim p_{\text{data}}$ ）成立。反向条件分布 $p(\mathbf{x}_{t-\Delta t}|\mathbf{x}_t,\mathbf{x})$ 是建模的关键，既可构造易求解的训练目标，也能实现高效采样。
DDPM 一般先定义增量转移核 $p(\mathbf{x}_t|\mathbf{x}_{t-\Delta t})$ ，但累积形式转移核 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 的表达式具备更好的可解释性与实用性，在先验构造、损失函数设计中优势尤为突出。

转移核推导
下面将结论拓展至连续时间框架。设 $0\le t<s\le T$ 为两个连续时刻，在已知扰动核 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 的前提下，以正向转移核 $p(\mathbf{x}_s|\mathbf{x}_t)$ 作为中间项、套用式 (4.4.3)，即可对任意 $\mathbf{x}$ 求解反向条件分布 $p(\mathbf{x}_t|\mathbf{x}_s,\mathbf{x})$ 。下述引理归纳该推导过程，它在不附加约束 $\alpha_t^2+\sigma_t^2=1$ 的条件下对引理 2.2.2 做了推广。
在这里插入图片描述

尽管分步转移核 $p(\mathbf{x}_{t+\Delta t}|\mathbf{x}_t)$ 与累积转移核 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 在理论上等价，但 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 通常占据更核心的地位。式 (4.4.5) 中的分步转移主要用于推导反向核的闭式表达式。因此，近年相关研究（Kingma 等人，2021）出于表达式简洁、可解释性更强的考量，倾向于直接定义累积转移核 $p_t(\mathbf{x}_t|\mathbf{x}_0)$ 。

反向过程建模、训练与采样
第 2.2 节给出的训练目标（式 (2.2.13) 的证据下界 ELBO）与建模框架在本节广义设定下依旧成立。为行文清晰，参照 Kingma 等人 (2021) 的工作，采用原数据 $\mathbf{x}$ 预测范式，网络记为 $\mathbf{x}_\phi(\mathbf{x}_s,s)$ ；依托式 (2.2.12) 的变换关系，与之等价的噪声 $\boldsymbol{\epsilon}$ 预测范式（网络 $\boldsymbol{\epsilon}_\phi(\mathbf{x}_s,s)$ ）同样可行，满足：
$\mathbf{x}_s = \alpha_s \mathbf{x}_\phi(\mathbf{x}_s,s) + \sigma_s \boldsymbol{\epsilon}_\phi(\mathbf{x}_s,s),\quad \mathbf{x}_s\sim q_s$

建模与扩散损失 $\mathcal{L}_{\text{diffusion}}$ 。 与 DDPM 思路一致，依托式 (4.4.4) 的条件分布 $p(\mathbf{x}_t|\mathbf{x}_s,\mathbf{x})$ ，我们用可学习预测网络 $\mathbf{x}_\phi(\mathbf{x}_s,s)$ 替代原始干净信号 $\mathbf{x}$ ，得到参数化反向模型：
$p_\phi(\mathbf{x}_t|\mathbf{x}_s):=\mathcal{N}\big(\mathbf{x}_t;\boldsymbol{\mu}_\phi(\mathbf{x}_s,s,t),\sigma^2(s,t)\mathbf{I}\big), \tag{4.4.6}$ 其中均值项参数化形式为：
$\boldsymbol{\mu}_\phi(\mathbf{x}_s,s,t)=\frac{\alpha_{s|t}\sigma_t^2}{\sigma_s^2}\mathbf{x}_s+\frac{\alpha_t\sigma_{s|t}^2}{\sigma_s^2}\mathbf{x}_\phi(\mathbf{x}_s,s).$ 结合式 (4.4.1) 正向扰动核，扩散损失 $\mathcal{L}_{\text{diffusion}}(\mathbf{x};\phi)$ 中的 KL 散度可化简为加权回归损失：
$\begin{aligned} \mathcal{D}_\mathrm{KL}\big(p(\mathbf{x}_t|\mathbf{x}_s,\mathbf{x}_0)\parallel p_\phi(\mathbf{x}_t|\mathbf{x}_s)\big) &=\frac{1}{2\sigma^2(s,t)}\big\|\boldsymbol{\mu}(\mathbf{x}_s,\mathbf{x}_0;s,t)-\boldsymbol{\mu}_\phi(\mathbf{x}_s,s,t)\big\|_2^2\\ &=\frac12\big(\mathrm{SNR}(t)-\mathrm{SNR}(s)\big)\big\|\mathbf{x}_0-\mathbf{x}_\phi(\mathbf{x}_s,s)\big\|_2^2\tag{4.4.7} \end{aligned}$ 式中 $\mathbf{x}_s=\alpha_s\mathbf{x}_0+\sigma_s\boldsymbol{\epsilon}$ ， $\mathbf{x}_0\sim p_\mathrm{data},\boldsymbol{\epsilon}\sim\mathcal{N}(\mathbf 0,\mathbf I)$ ； $\mathrm{SNR}(s):=\alpha_s^2/\sigma_s^2$ 代表时刻 $s$ 处的信噪比。

Kingma 等人（2021）研究了式 (4.4.7) 在 $t\to s$ 下的连续时间极限，得到：
$\mathcal{L}_\mathrm{VDM}^\infty(\mathbf{x}_0) = -\frac12 \mathbb{E}_{s,\boldsymbol{\epsilon}\sim\mathcal{N}(\mathbf 0,\mathbf I)}\big[\mathrm{SNR}'(s)\big\|\mathbf{x}_0-\mathbf{x}_\phi(\mathbf{x}_s,s)\big\|_2^2\big]$ 该框架引入了可学习噪声调度方案，模型可拓展至连续型数据以外的场景，但相关拓展内容不在本文的讨论范围内。

采样。 依托式 (4.4.6) 的参数化条件分布，采样流程与 DDPM 保持一致：
$\mathbf{x}_t = \underbrace{\frac{\alpha_{s|t}\sigma_t^2}{\sigma_s^2}\mathbf{x}_s + \frac{\alpha_t\sigma_{s|t}^2}{\sigma_s^2}\mathbf{x}_{\phi\times}(\mathbf{x}_s,s)}_{\boldsymbol{\mu}_{\phi\times}(\mathbf{x}_s,t,s)} +\sigma_{s|t}\frac{\sigma_t}{\sigma_s}\boldsymbol{\epsilon}_s,\quad \boldsymbol{\epsilon}_s\sim\mathcal{N}(\mathbf 0,\mathbf I)\tag{4.4.8}$

4.5 （可选）福克-普朗克方程与通过边缘化和贝叶斯法则推导反向时间随机微分方程（(Optional) Fokker–Planck Equation and Reverse-Time SDEs via Marginalization and Bayes’ Rule）

本节从概率视角介绍福克–普朗克方程与逆向随机微分方程的结构。依托边缘化技巧、贝叶斯公式等基础工具，阐明随机过程的概率表述与对应微分方程之间的内在关联。

需要说明：本节给出的推导并非严格数学证明，仅为启发性推导，用于直观阐述内在逻辑关系。

4.5.1 从转移核的边缘化导出福克-普朗克方程（Fokker-Planck Equation from the Marginalization of Transition Kernels）

已知式 (4.1.2) 给出的正向转移概率：
$p(\mathbf{x}_{t+\Delta t}|\mathbf{x}_t) = \mathcal{N}\big(\mathbf{x}_{t+\Delta t};\mathbf{x}_t+\mathbf{f}(\mathbf{x}_t,t)\Delta t,\,g^2(t)\Delta t\,\mathbf{I}\big),$ 以及边缘分布
$p_t(\mathbf{x}_t),\quad p_{t+\Delta t}(\mathbf{x}_{t+\Delta t})$ 本节将推导刻画边缘分布 $p_t$ 随时间演化规律的福克–普朗克方程。

变量代换。 由马尔可夫性， $t+\Delta t$ 时刻的边缘分布可表示为对前一时刻状态 $\mathbf{x}_t$ 的积分，即查普曼–科尔莫戈罗夫方程：
$p_{t+\Delta t}(\mathbf{x}) = \int \mathcal{N}\big(\mathbf{x};\mathbf y+\mathbf f(\mathbf y,t)\Delta t,\,g^2(t)\Delta t\mathbf I\big)\,p_t(\mathbf y)\,\mathrm{d}\mathbf y$ 引入新变量：
$\mathbf u := \mathbf y + \mathbf f(\mathbf y,t)\Delta t,$ 此时高斯分布的均值中心变为 $\mathbf u$ 。当 $\Delta t$ 充分小时，该变换可逆，展开为：
$\mathbf y = \mathbf u - \mathbf f(\mathbf u,t)\Delta t + \mathcal O(\Delta t^2),\quad \left|\det\frac{\partial \mathbf y}{\partial \mathbf u}\right|=1-\big(\nabla_{\mathbf u}\cdot\mathbf f\big)(\mathbf u,t)\Delta t+\mathcal O(\Delta t^2).$ 依托变量代换积分公式可得：
$\begin{aligned} p_{t+\Delta t}(\mathbf{x}) &= \int \mathcal{N}\big(\mathbf{x};\mathbf u,g^2(t)\Delta t\mathbf I\big)\cdot\\ &\quad\Big[p_t(\mathbf u)-\Delta t\,\mathbf f(\mathbf u,t)\cdot\nabla_{\mathbf u}p_t(\mathbf u)-\Delta t\big(\nabla_{\mathbf u}\cdot\mathbf f\big)(\mathbf u,t)\,p_t(\mathbf u)\Big]\mathrm{d}\mathbf u+\mathcal O(\Delta t^2) \end{aligned}$

泰勒展开。 对任意光滑函数 $\phi:\mathbb R^D\to\mathbb R$ 、尺度参数 $\sigma>0$ ，若 $\mathbf z\sim\mathcal{N}(\mathbf 0,\mathbf I)$ ，成立泰勒–高斯光滑公式：
$\int \mathcal{N}(\mathbf{x};\mathbf u,\sigma^2\mathbf I)\phi(\mathbf u)\mathrm{d}\mathbf u =\mathbb{E}\big[\phi(\mathbf{x}+\sigma\mathbf z)\big] =\phi(\mathbf{x})+\frac{\sigma^2}{2}\Delta_{\mathbf x}\phi(\mathbf{x})+\mathcal O(\sigma^4)$ 该式由泰勒展开推导：
$\phi(\mathbf{x}+\sigma\mathbf z)=\phi(\mathbf{x})+\sigma\nabla_{\mathbf x}\phi(\mathbf{x})\cdot\mathbf z+\frac{\sigma^2}{2}\mathbf z^\top\nabla_{\mathbf x}^2\phi(\mathbf{x})\mathbf z+\mathcal O(\sigma^3)$ 结合矩条件 $\mathbb E[\mathbf z]=\mathbf 0,\;\mathbb E[\mathbf z\mathbf z^\top]=\mathbf I$ 即可证得。

依次取 $\phi=p_t$ 、 $\phi=\mathbf f\cdot\nabla_{\mathbf u}p_t$ 、 $\phi=(\nabla_{\mathbf u}\cdot\mathbf f)p_t$ ，并令 $\sigma^2=g^2(t)\Delta t$ ，代入后：
$\begin{aligned} p_{t+\Delta t}(\mathbf{x})-p_t(\mathbf{x}) &=-\Delta t\,\mathbf{f}(\mathbf{x},t)\cdot\nabla_{\mathbf x}p_t(\mathbf{x}) -\Delta t(\nabla_{\mathbf x}\cdot\mathbf{f})(\mathbf{x},t)\,p_t(\mathbf{x}) +\frac{g^2(t)}{2}\Delta t\,\Delta_{\mathbf x}p_t(\mathbf{x})+\mathcal O(\Delta t^2)\\ &=-\Delta t\nabla_{\mathbf x}\cdot\big(\mathbf{f}(\mathbf{x},t)\,p_t(\mathbf{x})\big) +\frac{g^2(t)}{2}\Delta t\,\Delta_{\mathbf x}p_t(\mathbf{x})+\mathcal O(\Delta t^2) \end{aligned}$ 两边除以 $\Delta t$ 并取极限 $\Delta t\to0$ ，即可得到福克–普朗克方程。

附录 C.1.4 将基于伊藤公式给出推导，作为上述离散视角的补充。

4.5.2 为什么反向时间随机微分方程会呈现这种形式？（Why Does Reverse-Time SDE Take The Form?）

逆向随机微分方程的严格推导涉及繁杂的福克–普朗克方程理论。借助贝叶斯定理可直观理解逆时 SDE 的构造形式，本节采用启发性推导，阐明得分函数为何会出现在式 (4.1.6) 中。

基于贝叶斯定理做过程逆推。我们先在离散时间框架下求解逆时转移核
$p(\mathbf{x}_t|\mathbf{x}_{t+\Delta t}),$ 再令 $\Delta t\to0$ 过渡到连续时间形式。由贝叶斯公式：
$\begin{aligned} p(\mathbf{x}_t|\mathbf{x}_{t+\Delta t}) &= p(\mathbf{x}_{t+\Delta t}|\mathbf{x}_t)\,\frac{p_t(\mathbf{x}_t)}{p_{t+\Delta t}(\mathbf{x}_{t+\Delta t})}\\ &= p(\mathbf{x}_{t+\Delta t}|\mathbf{x}_t)\exp\big(\log p_t(\mathbf{x}_t)-\log p_{t+\Delta t}(\mathbf{x}_{t+\Delta t})\big). \tag{4.5.1} \end{aligned}$ 其中正向转移核沿用式 (4.1.2) 的高斯形式：
$p(\mathbf{x}_{t+\Delta t}|\mathbf{x}_t)=\mathcal{N}\big(\mathbf{x}_{t+\Delta t};\mathbf{x}_t+\mathbf{f}(\mathbf{x}_t,t)\Delta t,\,g^2(t)\Delta t\,\mathbf I\big)$

泰勒展开。为处理指数项，对时空变量在 $(\mathbf{x}_t,t)$ 处做一阶泰勒展开：
$\begin{aligned} \log p_{t+\Delta t}(\mathbf{x}_{t+\Delta t}) =&\log p_t(\mathbf{x}_t)+\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\cdot(\mathbf{x}_{t+\Delta t}-\mathbf{x}_t)\\ &+\frac{\partial \log p_t(\mathbf{x}_t)}{\partial t}\Delta t+\mathcal O\big(\|\mathbf h\|_2^2\big) \end{aligned}$ 其中 $\mathbf h:=(\mathbf{x}_{t+\Delta t}-\mathbf{x}_t,\Delta t)$ 。整理可得：
$\begin{aligned} \log p_t(\mathbf{x}_t)-\log p_{t+\Delta t}(\mathbf{x}_{t+\Delta t}) =&-\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\cdot(\mathbf{x}_{t+\Delta t}-\mathbf{x}_t)\\ &-\frac{\partial \log p_t(\mathbf{x}_t)}{\partial t}\Delta t+\mathcal O\big(\|\mathbf h\|_2^2\big)\tag{4.5.2} \end{aligned}$ 对漂移、扩散系数均有界的正向过程，满足 $\mathbb E\big[\|\mathbf{x}_{t+\Delta t}-\mathbf{x}_t\|_2^2\big]=\mathcal O(\Delta t)$ ，因此余项在期望意义下满足 $\mathcal O\big((\Delta t)^2\big)$ 。

代入反向转移表达式。将式 (4.1.2)、式 (4.5.2) 一并代入式 (4.5.1)：
$\begin{aligned} p(\mathbf{x}_t|\mathbf{x}_{t+\Delta t}) =&\frac{1}{\big(2\pi g^2(t)\Delta t\big)^{D/2}} \exp\left(-\frac{\big\|\mathbf{x}_{t+\Delta t}-\mathbf{x}_t-\mathbf{f}(\mathbf{x}_t,t)\Delta t\big\|_2^2}{2g^2(t)\Delta t}\right)\\ &\cdot\exp\left(-\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\cdot(\mathbf{x}_{t+\Delta t}-\mathbf{x}_t) -\frac{\partial\log p_t(\mathbf{x}_t)}{\partial t}\Delta t+\mathcal O\big((\Delta t)^2\big)\right) \end{aligned}$

代数变形。核心步骤为对指数部分配平方：
$\begin{aligned} &-\frac{\big\|\mathbf{x}_{t+\Delta t}-\mathbf{x}_t-\mathbf{f}(\mathbf{x}_t,t)\Delta t\big\|_2^2}{2g^2(t)\Delta t} -\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\cdot(\mathbf{x}_{t+\Delta t}-\mathbf{x}_t)\\ =&-\frac{\big\|\mathbf{x}_{t+\Delta t}-\mathbf{x}_t-\mathbf{f}(\mathbf{x}_t,t)\Delta t\big\|_2^2 +2g^2(t)\Delta t\,\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\cdot(\mathbf{x}_{t+\Delta t}-\mathbf{x}_t)}{2g^2(t)\Delta t} \end{aligned}$
记 $\boldsymbol\delta := \mathbf{x}_{t+\Delta t}-\mathbf{x}_t$ ， $\boldsymbol\mu:=\mathbf{f}(\mathbf{x}_t,t)\Delta t$ ，则：
$\begin{aligned} &\|\boldsymbol\delta-\boldsymbol\mu\|_2^2 + 2g^2(t)\Delta t\,\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\cdot\boldsymbol\delta \\ =&\|\boldsymbol\delta\|_2^2 - 2\boldsymbol\delta\cdot\boldsymbol\mu+\|\boldsymbol\mu\|_2^2+2g^2(t)\Delta t\,\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\cdot\boldsymbol\delta \\ =&\|\boldsymbol\delta\|_2^2 - 2\boldsymbol\delta\cdot\big[\boldsymbol\mu-g^2(t)\Delta t\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\big]+\|\boldsymbol\mu\|_2^2 \\ =&\Big\|\boldsymbol\delta-\big[\boldsymbol\mu-g^2(t)\Delta t\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\big]\Big\|_2^2-\big\|g^2(t)\Delta t\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\big\|_2^2 \end{aligned}$ 回代变量可得：
$\begin{aligned} &\Big\|\boldsymbol\delta-\big[\mathbf{f}(\mathbf{x}_t,t)\Delta t-g^2(t)\Delta t\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\big]\Big\|_2^2 \\ =&\Big\|\mathbf{x}_{t+\Delta t}-\mathbf{x}_t-\big[\mathbf{f}(\mathbf{x}_t,t)-g^2(t)\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\big]\Delta t\Big\|_2^2 \end{aligned}$ 综上可得：
$\begin{aligned} p(\mathbf{x}_t|\mathbf{x}_{t+\Delta t}) =&\frac{1}{\big(2\pi g^2(t)\Delta t\big)^{D/2}} \cdot\exp\left(-\frac{\big\|\mathbf{x}_{t+\Delta t}-\mathbf{x}_t-\big[\mathbf{f}(\mathbf{x}_t,t)-g^2(t)\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\big]\Delta t\big\|_2^2}{2g^2(t)\Delta t}\right)\\ &\cdot\exp\big(\mathcal O(\Delta t)\big)\\ =&\mathcal{N}\Big(\mathbf{x}_t;\mathbf{x}_{t+\Delta t}-\big[\mathbf{f}(\mathbf{x}_t,t)-g^2(t)\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\big]\Delta t,\,g^2(t)\Delta t\,\mathbf I\Big) \cdot\big(1+\mathcal O(\Delta t)\big) \end{aligned}$
配平方产生的余项 $\big\|g^2(t)\Delta t\nabla_\mathbf{x}\log p_t(\mathbf{x}_t)\big\|_2^2$ 为 $\mathcal O((\Delta t)^2)$ ，可归入误差项；同理，时间导数项 $\frac{\partial\log p_t(\mathbf{x}_t)}{\partial t}\Delta t$ 是 $\mathcal O(\Delta t)$ ，在连续极限下趋于零。

取极限 $\boldsymbol{\Delta t\to0}$ 。在函数光滑的前提假设下，当 $\Delta t\to0$ 时有如下近似：
$\begin{aligned} \mathbf{f}(\mathbf{x}_t,t) &\approx \mathbf{f}(\mathbf{x}_{t+\Delta t},t+\Delta t),\\ g(t) &\approx g(t+\Delta t),\\ \nabla_\mathbf{x}\log p_t(\mathbf{x}_t) &\approx \nabla_\mathbf{x}\log p_{t+\Delta t}(\mathbf{x}_{t+\Delta t})=\mathbf{s}(\mathbf{x}_{t+\Delta t},t+\Delta t). \end{aligned}$ 借助上述近似并整理式子，可得：
$\begin{aligned} p(\mathbf{x}_t|\mathbf{x}_{t+\Delta t}) \approx \frac{1}{\big(2\pi g^2(t)\Delta t\big)^{D/2}} \exp\left( -\frac{\big\|\mathbf{x}_t-\big(\mathbf{x}_{t+\Delta t}-\big[\mathbf{f}(\mathbf{x}_{t+\Delta t},t+\Delta t)-g^2(t+\Delta t)\mathbf{s}(\mathbf{x}_{t+\Delta t},t+\Delta t)\big]\Delta t\big)\big\|_2^2}{2g^2(t+\Delta t)\Delta t} \right) \end{aligned}$ 由此可知 $p(\mathbf{x}_t|\mathbf{x}_{t+\Delta t})$ 近似服从高斯分布：
$\begin{aligned} &\textbf{均值：}\ \mathbf{x}_{t+\Delta t}-\big[\mathbf{f}(\mathbf{x}_{t+\Delta t},t+\Delta t)-g^2(t+\Delta t)\mathbf{s}(\mathbf{x}_{t+\Delta t},t+\Delta t)\big]\Delta t,\\ &\textbf{协方差：}\ g^2(t+\Delta t)\Delta t\,\mathbf I \end{aligned}$ 令 $\Delta t\to0$ 取极限，即可得到式 (4.1.6) 的连续逆向随机微分方程。

4.6 结语（Closing Remarks）

本章是全书理论体系的关键节点，从变分视角与得分匹配视角出发，将离散时间扩散过程统一至一套简洁完备的连续时间理论框架。文中证明，DDPM 与 NCSN 均可看作随机微分方程（SDE）在选取不同漂移、扩散系数下的离散化形式。

本框架的核心是逆向随机微分方程，该方程从数学上定义了能够还原噪声污染的生成过程。关键结论为：逆过程的漂移项仅由一个未知量决定，即各时刻边缘分布对应的得分函数 $\nabla_\mathbf{x}\log p_t(\mathbf{x})$ 。该结论确立了得分函数在生成建模里的核心地位。

除此之外，本章引入确定性对偶模型：概率流常微分方程（PF-ODE），其演化轨迹与随机微分方程共享同一套边缘概率密度 ${p_t\}$ ，该一致性由福克–普朗克方程严格保证。由此可得到重要推论：复杂的生成任务本质等价于求解微分方程；模型训练转化为学习刻画方程向量场的得分函数，采样则变为常微分方程数值积分问题。

PF-ODE 这类确定性流模型搭建起衔接扩散模型第三种理论视角的关键桥梁。学习由速度场控制的确定性变换，是当下一大主流生成模型的核心思想。下一章内容安排如下：
（1）从归一化流、神经常微分方程的理论源头出发，展开介绍基于流的建模思路；
（2）推导该思路衍生出的现代流匹配框架，该方法直接学习速度场，实现样本在不同分布间的变换。

最终我们将发现：由随机理论推导得到的确定性 PF-ODE，完全可以从这套截然不同的流建模思路重新构造与拓展，从而完善扩散建模的大一统理论体系。

下一章：【扩散模型原理】（五）Flow-Based Perspective : From NFs to Flow Matching