MIT 6.S184 | 流匹配与扩散模型导论 | 2026 | Course Notes | 翻译 | Appendix A B C

爱听歌的周童鞋

21人浏览 · 2026-05-27 21:32:26

爱听歌的周童鞋 · 2026-05-27 21:32:26 发布

前言

MIT6.S184: Generative AI with Stochastic Differential Equations 最新 2026 年课程笔记 An Introduction to Flow Matching and Diffusion Models 翻译，本篇文章翻译附录 A、B、C 相关内容🤗。

Course Notes：https://diffusion.csail.mit.edu/2026/docs/lecture_notes.pdf

Course Website：https://diffusion.csail.mit.edu/2026/index.html

A. A Reminder on Probability Theory

我们简要回顾概率论中的一些基本概念。本节部分内容取自 [26]。

A.1 Random vectors

考虑 $d$ 维欧氏空间中的数据 $x=(x^1,\ldots,x^d)\in\mathbb{R}^d$ ，其标准欧氏内积定义为 $\langle x,y\rangle = \sum_{i=1}^{d}x^iy^i$ ，范数定义为 $\|x\| = \sqrt{\langle x,x\rangle}$ 。

我们考虑连续随机变量（RVs） $X\in\mathbb{R}^d$ ，其概率密度函数（PDF）定义为连续函数 $p_X:\mathbb{R}^d\to\mathbb{R}_{\ge0}$ 使得事件 $A$ 的概率为：

$\mathbb{P}(X\in A) = \int_A p_X(x)\,dx, \tag{96}$

其中 $\int p_X(x)\,dx = 1$ 。按照惯例，当积分覆盖整个空间时，我们省略积分区间（即 $\int=\int_{\mathbb{R}^d}$ ）。为了简化记号，我们将随机变量 $X_t$ 对应的 PDF $p_{X_t}$ 简单记作 $p_t$ 。我们使用 $X\sim p$ 或者 $X\sim p(X)$ 表示随机变量 $X$ 服从分布 $p$ 。

生成建模中一个常见的 PDF 是 $d$ 维各向同性高斯分布：

$\mathcal{N}(x;\mu,\sigma^2 I) = (2\pi\sigma^2)^{-d/2} \exp\left( -\frac{\|x-\mu\|_2^2}{2\sigma^2} \right), \tag{97}$

其中， $\mu\in\mathbb{R}^d$ 以及 $\sigma\in\mathbb{R}_{>0}$ 分别表示分布的均值与标准差。

随机变量（RV）的期望是在最小二乘意义下最接近 $X$ 的常数向量：

$\mathbb{E}[X] = \arg\min_{z\in\mathbb{R}^d} \int \|x-z\|^2 p_X(x)\,dx = \int x p_X(x)\,dx. \tag{98}$

计算随机变量函数期望的一个有用工具是 law of the unconscious statistician：

$\mathbb{E}[f(X)] = \int f(x)p_X(x)\,dx. \tag{99}$

必要时，我们会将期望中的随机变量显式写为 $\mathbb{E}_X f(X)$ 。

A.2 Conditional densities and expectations

给定两个随机变量 $X,Y\in\mathbb{R}^d$ ，它们的联合 PDF $p_{X,Y}(x,y)$ 具有如下边缘分布：

$\int p_{X,Y}(x,y)\,dy = p_X(x) \quad \text{and} \quad \int p_{X,Y}(x,y)\,dx = p_Y(y). \tag{100}$

Figure 21 展示了 $\mathbb{R}$ 中（ $d = 1$ ）两个随机变量联合 PDF 的示意图。

条件 PDF $p_{X|Y}$ 描述了在事件 $Y = y$ 条件下随机变量 $X$ 的 PDF，其中要求 $p_Y(y)>0$ 。其定义为：

$p_{X|Y}(x|y) := \frac{p_{X,Y}(x,y)}{p_Y(y)}, \tag{101}$

类似地，也可以定义条件 PDF $p_{Y|X}$ 。贝叶斯公式将 $p_{Y|X}$ 与 $p_{X|Y}$ 联系起来：

$p_{Y|X}(y|x) = \frac{p_{X|Y}(x|y)p_Y(y)}{p_X(x)}, \tag{102}$

其中要求 $p_X(x)>0$ 。

条件期望 $\mathbb{E}[X|Y]$ 是在最小二乘意义下，对 $X$ 的最佳逼近函数 $g_*(Y)$ 即：

$\begin{aligned} g_* := &\arg\min_{g:\mathbb{R}^d\to\mathbb{R}^d} \mathbb{E} \left[ \|X-g(Y)\|^2 \right] = \arg\min_{g:\mathbb{R}^d\to\mathbb{R}^d} \int \|x-g(y)\|^2 p_{X,Y}(x,y)\,dxdy \\[8pt] = &\arg\min_{g:\mathbb{R}^d\to\mathbb{R}^d} \int \left[ \int \|x-g(y)\|^2 p_{X|Y}(x|y)\,dx \right] p_Y(y)\,dy. \tag{103} \end{aligned}$

因此，对于满足 $p_Y(y)>0$ 的 $y\in\mathbb{R}^d$ ，条件期望函数为：

$\mathbb{E}[X|Y=y] := g_*(y) = \int x p_{X|Y}(x|y)\,dx, \tag{104}$

其中第二个等号来自于对 公式 (103) 中的内部括号在 $Y = y$ 时取最小值，这与 公式 (98) 类似。将 $g_*$ 与随机变量 $Y$ 组合，得到：

$\mathbb{E}[X|Y] := g_*(Y), \tag{105}$

它本身是一个 $\mathbb{R}^d$ 中的随机变量。容易混淆的是 $\mathbb{E}[X|Y=y]$ 以及 $\mathbb{E}[X|Y]$ 通常都会被称作条件期望，但它们实际上是不同对象。具体而言， $\mathbb{E}[X|Y=y]$ 是一个函数 $\mathbb{R}^d\to\mathbb{R}^d$ ，而 $\mathbb{E}[X|Y]$ 则是一个随机变量，其取值位于 $\mathbb{R}^d$ 。为了避免混淆，后续讨论将采用这里引入的记号。

tower property 是一个非常有用的性质，它能够帮助我们简化涉及两个随机变量 $X$ 与 $Y$ 的条件期望推导：

$\mathbb{E} \left[ \mathbb{E}[X|Y] \right] = \mathbb{E}[X] \tag{106}$

由于 $\mathbb{E}[X|Y]$ 本身是一个随机变量，即随机变量 $Y$ 的函数，因此外层期望实际上是在计算 $\mathbb{E}[X|Y]$ 的期望值。利用前面的定义，可以验证 tower property：

$\begin{align*} \mathbb{E} \left[ \mathbb{E}[X|Y] \right] &= \int \left( \int x p_{X|Y}(x|y)\,dx \right) p_Y(y)\,dy \\[8pt] &\overset{(101)}{=} \int \int x p_{X,Y}(x,y)\,dxdy \\[8pt] &\overset{(100)}{=} \int x p_X(x)\,dx = \mathbb{E}[X]. \end{align*}$

最后，考虑一个涉及两个随机变量 $f (X, Y)$ 以及 $Y$ 的有用性质，其中 $X$ 与 $Y$ 是任意随机变量。利用 Law of the Unconscious Statistician 以及 公式 (104)，我们可以得到：

$\mathbb{E}[f(X,Y)|Y=y] = \int f(x,y)p_{X|Y}(x|y)\,dx. \tag{107}$

B. A Proof of the Fokker-Planck equation

本节给出一个自包含的 Fokker-Planck equation 证明，其中连续性方程作为特殊情况包含在内（Theorem 11）。我们强调：本节内容并不是理解本文其余部分所必须的，并且在数学上更加高级。如果你希望理解 Fokker-Planck equation 是如何得到的，那么这一节适合你。

Theorem 41 (Fokker-Planck Equation)

令 $p_t$ 为一个概率路径，满足 $p_0=p_{\mathrm{init}}$ ，并考虑如下 SDE：

$X_0\sim p_{\mathrm{init}}, \quad dX_t=u_t(X_t)dt+\sigma_t dW_t.$

那么，对于所有 $0\le t\le 1$ ，随机变量 $X_t$ 具有分布 $p_t$ 当且仅当 Fokker-Planck equation 成立：

$\partial_t p_t(x) = -\operatorname{div}(p_tu_t)(x) + \frac{\sigma_t^2}{2}\Delta p_t(x) \qquad \text{for all } x\in\mathbb{R}^d,\ 0\le t\le1, \tag{108}$

我们首先证明 Fokker-Planck equation 是一个必要条件，即如果 $X_t\sim p_t$ ，那么 Fokker-Planck equation 成立。证明的技巧是使用 test functions $f$ ，即满足 $f:\mathbb{R}^d\to\mathbb{R}$ 且无限可微，并且只在有界区域内非零的函数。

我们将使用如下事实：对于任意可积函数 $g_1,g_2:\mathbb{R}^d\to\mathbb{R}$ ，成立：

$g_1(x)=g_2(x) \quad \text{for all } x\in\mathbb{R}^d \quad \Leftrightarrow \quad \int f(x)g_1(x)\,dx = \int f(x)g_2(x)\,dx \quad \text{for all test functions } f \tag{109}$

换句话说，我们可以把逐点相等表示成积分意义下的相等。test functions 的一个有用性质在于它们是平滑的，因此我们可以对它们求梯度以及更高阶导数。特别地，对于任意 test functions $f_1,f_2$ ，我们可以使用 integration by parts：

$\int f_1(x) \frac{\partial}{\partial x_i} f_2(x)\,dx = - \int f_2(x) \frac{\partial}{\partial x_i} f_1(x)\,dx \tag{110}$

其中要求 $f_1, \quad f_2, \quad f_1 \cdot f_2$ 均可积。结合发散与拉普拉斯的定义（见 公式 (22)），我们得到如下恒等式：

$\begin{align*} \int \nabla f_1^T(x)\,f_2(x)\,dx &= - \int f_1(x)\, \operatorname{div}(f_2)(x)\,dx \qquad (f_1:\mathbb{R}^d\to\mathbb{R}, \ f_2:\mathbb{R}^d\to\mathbb{R}^d) \tag{111} \\[8pt] \int f_1(x)\,\Delta f_2(x)\,dx &= \int f_2(x)\,\Delta f_1(x)\,dx \qquad (f_1:\mathbb{R}^d\to\mathbb{R}, \ f_2:\mathbb{R}^d\to\mathbb{R}) \tag{112} \end{align*}$

现在进入证明。我们使用 公式 (6) 中 SDE 轨迹的随机更新形式：

$\begin{align*} X_{t+h} &= X_t + hu_t(X_t) + \sigma_t(W_{t+h}-W_t) + hR_t(h) \tag{113} \\[8pt] &\approx X_t + hu_t(X_t) + \sigma_t(W_{t+h}-W_t) \tag{114} \end{align*}$

其中，为了可读性，我们暂时忽略误差项 $R_t(h)$ ，因为最终我们会令 $\to 0$ ，于是可以进行如下计算：

$\begin{aligned} f(X_{t+h})-f(X_t) \overset{(114)}{=} &f\!\left( X_t + hu_t(X_t) + \sigma_t(W_{t+h}-W_t) \right) - f(X_t) \\[10pt] \overset{(i)}{=} &\nabla f(X_t)^T \left( hu_t(X_t) + \sigma_t(W_{t+h}-W_t) \right) \\ &+ \frac{1}{2} \left( hu_t(X_t) + \sigma_t(W_{t+h}-W_t) \right)^T \nabla^2 f(X_t) \left( hu_t(X_t) + \sigma_t(W_{t+h}-W_t) \right) \\[10pt] \overset{(ii)}{=} &h\nabla f(X_t)^Tu_t(X_t) + \sigma_t\nabla f(X_t)^T(W_{t+h}-W_t) \\ &+ \frac{1}{2}h^2 u_t(X_t)^T \nabla^2 f(X_t) u_t(X_t) + h\sigma_t u_t(X_t)^T \nabla^2 f(X_t) (W_{t+h}-W_t) \\ &+ \frac{1}{2}\sigma_t^2 (W_{t+h}-W_t)^T \nabla^2 f(X_t) (W_{t+h}-W_t) \end{aligned}$

其中：

在 $(i)$ 中，我们对 $f$ 在 $X_t$ 附近使用了二阶泰勒近似；
在 $(ii)$ 中，我们使用了 Hessian $\nabla^2 f$ 是对称矩阵这一事实。

注意 $\mathbb{E}[W_{t+h}-W_t|X_t]=0$ ，并且 $W_{t+h}-W_t|X_t \sim \mathcal{N}(0,hI_d)$ 。因此：

$\begin{align*} &\mathbb{E} \left[ f(X_{t+h})-f(X_t)|X_t \right] \\[8pt] = &h\nabla f(X_t)^T u_t(X_t) + \frac12 h^2 u_t(X_t)^T\nabla^2 f(X_t)u_t(X_t) + \frac h2\sigma_t^2 \mathbb{E}_{\epsilon_t\sim\mathcal{N}(0,I_d)} \left[ \epsilon_t^T\nabla^2 f(X_t)\epsilon_t \right] \\[8pt] \overset{(i)}{=} &h\nabla f(X_t)^T u_t(X_t) + \frac12 h^2 u_t(X_t)^T\nabla^2 f(X_t)u_t(X_t) + \frac h2\sigma_t^2 \operatorname{trace}(\nabla^2 f(X_t)) \\[8pt] \overset{(ii)}{=} &h\nabla f(X_t)^T u_t(X_t) + \frac12 h^2 u_t(X_t)^T\nabla^2 f(X_t)u_t(X_t) + \frac h2\sigma_t^2\Delta f(X_t). \end{align*}$

其中，在 $(i)$ 中，我们使用了事实 $\mathbb{E}_{\epsilon_t\sim\mathcal{N}(0,I_d)} \left[ \epsilon_t^T A\epsilon_t \right] = \operatorname{trace}(A)$ ；在 $(ii)$ 中，我们使用了 Laplacian 与 Hessian matrix 的定义。由此得到：

$\begin{align*} &\partial_t\mathbb{E}[f(X_t)] \\[8pt] =& \lim_{h\to0} \frac1h \mathbb{E} \left[ f(X_{t+h})-f(X_t) \right] \\[8pt] =& \lim_{h\to0} \frac1h \mathbb{E} \left[ \mathbb{E} \left[ f(X_{t+h})-f(X_t)\mid X_t \right] \right] \\[8pt] =& \mathbb{E} \left[ \lim_{h\to0} \frac1h \left( h\nabla f(X_t)^T u_t(X_t) + \frac12h^2u_t(X_t)^T\nabla^2f(X_t)u_t(X_t) + \frac h2\sigma_t^2\Delta f(X_t) \right) \right] \\[8pt] =& \mathbb{E} \left[ \nabla f(X_t)^T u_t(X_t) + \frac12\sigma_t^2\Delta f(X_t) \right] \\[8pt] \overset{(i)}{=} & \int \nabla f(x)^T u_t(x)p_t(x)\,dx + \int \frac12\sigma_t^2\Delta f(x)p_t(x)\,dx \\[8pt] \overset{(ii)}{=} & - \int f(x)\operatorname{div}(u_tp_t)(x)\,dx + \int \frac12\sigma_t^2 f(x)\Delta p_t(x)\,dx \\[8pt] =& \int f(x) \left( -\operatorname{div}(u_tp_t)(x) + \frac12\sigma_t^2\Delta p_t(x) \right) dx \end{align*}$

其中，在 $(i)$ 中，我们使用了假设 $p_t$ 是 $X_t$ 的分布；在 $(ii)$ 中，我们使用了 公式 (111) 与 公式 (112)。注意，为了使用这一点，我们要求乘积 $p_t(x)u_t(x)$ 可积，即：

$\int p_t(x)\|u_t(x)\|\,dx<\infty$

注意，这个条件在机器学习中几乎总是成立（由于数值精度限制，数据与函数都是有界的）。因此有：

$\begin{align*} \partial_t\mathbb{E}[f(X_t)] &= \int f(x) \left( -\operatorname{div}(p_tu_t)(x) + \frac{\sigma_t^2}{2}\Delta p_t(x) \right)\,dx \qquad (\text{for all } f \text{ and } 0\le t\le1) \tag{115} \\[16pt] \overset{(i)}{\Leftrightarrow}\qquad \partial_t \int f(x)p_t(x)\,dx &= \int f(x) \left( -\operatorname{div}(p_tu_t)(x) + \frac{\sigma_t^2}{2}\Delta p_t(x) \right)\,dx \qquad (\text{for all } f \text{ and } 0\le t\le1) \tag{116} \\[16pt] \overset{(ii)}{\Leftrightarrow}\qquad \int f(x)\,\partial_t p_t(x)\,dx &= \int f(x) \left( -\operatorname{div}(p_tu_t)(x) + \frac{\sigma_t^2}{2}\Delta p_t(x) \right)\,dx \qquad (\text{for all } f \text{ and } 0\le t\le1) \tag{117} \\[16pt] \overset{(iii)}{\Leftrightarrow}\qquad \partial_t p_t(x) &= -\operatorname{div}(p_tu_t)(x) + \frac{\sigma_t^2}{2}\Delta p_t(x) \qquad (\text{for all } x\in\mathbb{R}^d,\ 0\le t\le1) \tag{118} \end{align*}$

其中：

在 $(i)$ 中，我们使用了假设 $X_t\sim p_t$ ；
在 $(ii)$ 中，我们交换了导数与积分；
在 $(iii)$ 中，我们使用了 公式 (109)。

这就完成了 Fokker-Planck equation 是必要条件的证明。

最后，我们解释为什么它也是充分条件。Fokker-Planck equation 是一个偏微分方程（partial differential equation, PDE）。更具体地说，它是所谓的抛物线型偏微分方程。与 Theorem 3 类似，在给定初始条件的情况下，这类微分方程具有唯一解（例如见 [[15], Chapter 7]）。

现在，如果 公式 (108) 对 $p_t$ 成立，我们刚刚在上面已经证明：它也必须对 $X_t$ 的真实分布 $q_t$ 成立（即 $X_t\sim q_t$ ）。换句话说， $p_t$ 与 $q_t$ 都是该抛物线型偏微分方程的解。

进一步地，我们知道二者的初始条件相同，即 $p_0=q_0=p_{\mathrm{init}}$ ，这是由插值概率路径的构造得到的。因此，根据该微分方程解的唯一性，我们知道 $p_t=q_t \, \text{for all }0\le t \le 1$ 。这意味着 $X_t\sim q_t=p_t$ ，这正是我们想要证明的结论。

C. Existence and Uniqueness of Continuous-time Markov chains

本节中，我们来证明 Theorem 33。

Proof. Uniqueness: 我们需要证明满足 公式 (87) 的 transition kernel $p_{t'|t}(X_{t'}=y|X_t=x)$ 只能有一个。作为第一步，我们注意到 公式 (87) 意味着：

$\begin{align*} &\frac{d}{dt'} p_{t'|t}(X_{t'}=y|X_t=x) \tag{119} \\[8pt] =& \left. \frac{d}{dh} p_{t'+h|t}(X_{t'+h}=y|X_t=x) \right|_{h=0} \tag{120} \\[8pt] =& \left. \frac{d}{dh} \left[ \sum_{z\in S} p_{t'+h|t'}(X_{t'+h}=y|X_{t'}=z) p_{t'|t}(X_{t'}=z|X_t=x) \right] \right|_{h=0} \tag{121} \\[8pt] =& \sum_{z\in S} Q_{t'}(y|z) p_{t'|t}(X_{t'}=z|X_t=x). \tag{122} \end{align*}$

对于固定的 $x, t$ ，我们可以将 $t'\mapsto p_{t'|t}(X_{t'}=y|X_t=x)$ 看作一个向量值函数，而上式就是该函数的一个线性常微分方程（事实上就是 Kolmogorov forward equation，见 Proposition 2），并且具有已知初始条件 $p_{t|t}(X_t=y|X_t=x)=\delta_y(x)$ 。正如我们所知，每个线性常微分方程都有唯一解（见 Theorem 3），因此 $p_{t'|t}(X_{t'}=y|X_t=x)$ 也必须是唯一的。

Existence: 反过来，任何线性常微分方程都有解。也就是说，我们知道对于任意 $x, t$ 都存在 $p_{t'|t}(X_{t'}=y|X_t=x)$ 满足：

$\begin{align*} p_{t|t}(X_t=y|X_t=x)&=\delta_y(x) \tag{123} \\[8pt] \frac{d}{dt'} p_{t'|t}(X_{t'}=y|X_t=x) &= \sum_{z\in S} Q_{t'}(y|z) p_{t'|t}(X_{t'}=z|X_t=x) \tag{124} \end{align*}$

对于 $t^{'} = t$ ，这尤其意味着 公式 (87)。

接下来，我们需要证明在这种情况下 $p_{t'|t}(X_{t'}=y|X_t=x)$ 确实是一个合法的 transition kernel。也就是说，下面 3 个性质必须成立：

$\begin{align*} \sum_{y\in S} p_{t'|t}(X_{t'}=y|X_t=x) &=1 \tag{125} \\[8pt] p_{t'|t}(X_{t'}=y|X_t=x) & \ge 0 \tag{126} \\[8pt] \sum_{z\in S} p_{t_2|t_1}(X_{t_2}=y|X_{t_1}=z) p_{t_1|t_0}(X_{t_1}=z|X_{t_0}=x) &= p_{t_2|t_0}(y|x) \tag{127} \end{align*}$

对于第一个性质，我们可以观察到它在 $t^{'} = t$ 时由 公式 (123) 成立，并且：

$\begin{align*} &\frac{d}{dt'} \sum_{y\in S} p_{t'|t}(X_{t'}=y|X_t=x) \tag{128} \\[8pt] =& \sum_{y\in S} \frac{d}{dt'} p_{t'|t}(X_{t'}=y|X_t=x) \tag{129} \\[8pt] =& \sum_{z\in S} \left[ \sum_{y\in S} Q_{t'}(y|z) \right] p_{t'|t}(X_{t'}=z|X_t=x) \tag{130} \\[8pt] =&0. \tag{131} \end{align*}$

其中，我们使用了 rate matrix 的每一列求和为 0。

为了证明第二个性质，注意它在时间 $t^{'} = t$ 时成立。进一步地，只要 $p_{t'|t}(X_{t'}=y|X_t=x)=0$ 就必须有：

$\begin{aligned} \frac{d}{dt'}p_{t'\mid t}(X_{t'}=y\mid X_t=x) &= \sum_{z\ne y} \underbrace{Q_{t'}(y\mid z)}_{\ge 0} p_{t'\mid t}(X_{t'}=z\mid X_t=x) \\[12pt] &\ge 0 \end{aligned}$

因此，当 $p_{t'|t}(X_{t'}=y|X_t=x)=0$ 时，它只能增加。所以 $p_{t'|t}(X_{t'}=y|X_t=x)$ 永远不会变成负数。

为了证明第三个性质，定义 $q_{t_2|t_0}(y|x)$ 为：

$q_{t_2|t_0}(y|x) = \sum_{z\in S} p_{t_2|t_1}(X_{t_2}=y|X_{t_1}=z) p_{t_1|t_0}(X_{t_1}=z|X_{t_0}=x)$

那么我们知道：

$q_{t_2=t_1|t_0}(y|x) = \sum_{z\in S} \delta_y(z) p_{t_1|t_0}(X_{t_1}=z|X_{t_0}=x) = p_{t_1|t_0}(X_{t_1}=y|X_{t_0}=x)$

并且：

$\begin{align*} \frac{d}{dt_2} q_{t_2|t_0}(y|x) &= \sum_{z\in S} \frac{d}{dt_2} p_{t_2|t_1}(X_{t_2}=y|X_{t_1}=z) p_{t_1|t_0}(X_{t_1}=z|X_{t_0}=x) \\[8pt] &= \sum_{z\in S} \sum_{\tilde z\in S} Q_{t_2}(y|\tilde z) p_{t_2|t_1}(X_{t_2}=\tilde z|X_{t_1}=z) p_{t_1|t_0}(X_{t_1}=z|X_{t_0}=x) \\[8pt] &= \sum_{\tilde z\in S} Q_{t_2}(y|\tilde z) \left[ \sum_{z\in S} p_{t_2|t_1}(X_{t_2}=\tilde z|X_{t_1}=z) p_{t_1|t_0}(X_{t_1}=z|X_{t_0}=x) \right] \\[8pt] &= \sum_{\tilde z\in S} Q_{t_2}(y|\tilde z) q_{t_2|t_0}(\tilde z|x) \end{align*}$

这说明 $p_{t_2|t_0}(z|x)$ 与 $q_{t_2|t_0}(z|x)$ 满足相同的常微分方程。因此，必须有：

$\sum_{z\in S} p_{t_2|t_1}(X_{t_2}=y|X_{t_1}=z) p_{t_1|t_0}(X_{t_1}=z|X_{t_0}=x) = q_{t_2|t_0}(y|x) = p_{t_2|t_0}(y|x)$

这就证明了第三个性质。

因此 $p_{t'|t}(y|x)$ 确实是满足 公式 (87) 的 transition kernel。证明完成。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

深度解析 Agent A：基于 Ahrefs 万亿级 Web 数据的 AI 智能体技术架构与实现

AtomGit开源社区

电商监控体系从0搭建：我在SRE岗踩了3年坑总结的5个关键设计

本文分享电商监控体系的设计思路与实战经验。作者基于自身运维经验提出三层监控模型：基础设施层（主机/容器）、应用服务层（RED+USE指标）、业务指标层（订单/支付等核心指标），强调每层应设置不同的告警策略。重点包括：避免基础层过度告警，应用层需关联调用链路，业务层需关注真实交易指标。文章还探讨告警收敛、指标与日志链路打通、大促监控扩展等实用技巧，并给出部署验证步骤和常见避坑指南。核心观点是监控应以