Diffusion-离散扩散-202107-D3PM02：在离散状态空间的结构化去噪扩散模型（Structured Denoising DM in Discrete State-Spaces）

u013250861

310人浏览 · 2026-04-11 12:07:15

u013250861 · 2026-04-11 12:07:15 发布

第014/33页

关于 D3PMs 的额外细节

A.1 双随机矩阵

正如第 3.1 节所讨论的，对 $Q _ { t }$ 有两个约束使其能在 D3PM 中使用： $Q _ { t }$ 的行必须求和为1 以保持概率质量守恒，且 $\ldots Q _ { t }$ 的行必须随着 $t$ 变大而收敛到一个已知的平稳分布。技术上，也可以使用一个学习先验 $\theta } ( { \pmb x } _ { T } )$ ，但假设这仍在条件独立性假设下建模， $\pmb x } _ { T } | { \pmb x } _ { 0 } )$ 仍然必须接近一个平稳分布，才能使 $L _ { T }$ 损失项很小。

确保这种情况发生的一种方法是选择 $Q _ { t }$ 为一个具有严格正元素的双随机基矩阵 $Q$ （行和列求和为 1）的递增幂。这足以确保 $Q$ 是不可约且非周期的，并且乘积 $Q _ { t }$ 随着 $\to \infty$ 收敛到所有状态上的均匀分布。为了证明这一点，考虑 $πi=1/K\pi _ { i } = 1 / K$ 对于 $i = 1, ..., K$ ，以及 $∑i=1KQi,:=1\textstyle \sum _ { i = 1 } ^ { K } Q _ { i , : } = { \bf 1 }$ 和 $∑j=1KQ:,j=1\textstyle \sum _ { j = 1 } ^ { K } Q _ { : , j } = { \bf 1 }$ ，那么

$[Qπ]i=∑j=1KQijπj=1/K∑j=1KQij=1/K=πi,,\begin{array} { r } { [ \pmb { Q } \pmb { \pi } ] _ { i } = \sum _ { j = 1 } ^ { K } \pmb { Q } _ { i j } \pi _ { j } = 1 / K \sum _ { j = 1 } ^ { K } \pmb { Q } _ { i j } = 1 / K = \pi _ { i , , } } \end{array}$ , 因此均匀分布是该转移矩阵特征值为 1 的特征向量。收敛到该分布遵循正平方矩阵的佩龙‑弗罗贝尼乌斯定理。

更一般地说，类似的论证表明，即使对于 $Q _ { t }$ 不是同一基矩阵幂的情况，只要每个 $Q _ { t }$ 都是双随机、不可约且非周期的，均匀分布就是唯一可能的平稳分布，并且只要 $Q _ { t }$ 的第二大特征值下有界，累积乘积 $Q _ { t }$ 就会收敛到均匀分布。在实践中，我们选择 $Q _ { t }$ 随着 $t$ 的增加而添加更多噪声，这确保了 $Q _ { T }$ 非常接近于达到均匀平稳分布。

A.2 Markov转移矩阵可选方案的更多细节

A.2.1 均匀扩散

Sohl‑Dickstein等 [43] 描述的二进制情况下的转移矩阵，以及Hoogeboom等 [20], 扩展到分类情况的转移矩阵，可以使用以下 $\times K$ 转移矩阵表示

$\left[ \boldsymbol {Q} _ {t} \right] _ {i j} = \left\{ \begin{array}{l l} 1 - \frac {K - 1}{K} \beta_ {t} & \text {i f} \quad i = j \\ \frac {1}{K} \beta_ {t} & \text {i f} \quad i \neq j \end{array} , \right. \tag {6}$

这个转移矩阵也可以写成 $\beta _ { t } ) I + \beta _ { t } \mathbb { 1 } \mathbb { 1 } ^ { T } / K$ ，其中1是一个全为1的列向量。

A.2.2 包含吸收态的扩散模型

对于我们包含吸收态 $m$ 的扩散模型，我们使用以下矩阵：

$\left[ \boldsymbol {Q} _ {t} \right] _ {i j} = \left\{ \begin{array}{l l} 1 & \text {i f} \quad i = j = m \\ 1 - \beta_ {t} & \text {i f} \quad i = j \neq m \\ \beta_ {t} & \text {i f} \quad j = m, i \neq m \end{array} \right. \tag {7}$

该转移矩阵也可写作 $\beta _ { t } ) I + \beta _ { t } \mathbb { 1 } e _ { m } ^ { T } ,$ ，其中 $e _ { m }$ 是一个向量，其在吸收态 $m$ 上的值为1，其余位置为零。由于 $m$ 是一个吸收态，损坏过程收敛到的不是均匀分布，而是 $m$ 上的点质量分布。

对于文本生成，我们令 $m$ 为索引 $K - 1$ ;处的[掩码]词元，这引出一个类BERT训练目标，即根据某个附表掩蔽词元并学习迭代地对其去噪（参见第4节）。对于图像生成，我们将 $m$ 设置为索引 $K / / \mathcal $ 2处的灰色RGB像素（128,128,128）。

第015/33页

A.2.3 离散化高斯转移矩阵

对于应用于有序数据的D3PM模型，受连续空间扩散模型启发，我们采用以下 $\times K$ 矩阵：

$\left[ \boldsymbol {Q} _ {t} \right] _ {i j} = \left\{ \begin{array}{l l} \frac {\exp \left(- \frac {4 | i - j | ^ {2}}{(K - 1) ^ {2} \beta_ {t}}\right)}{\sum_ {n = - (K - 1)} ^ {K - 1} \exp \left(- \frac {4 n ^ {2}}{(K - 1) ^ {2} \beta_ {t}}\right)} & \text {i f} \quad i \neq j \\ 1 - \sum_ {l = 0, l \neq i} ^ {K - 1} \left[ \boldsymbol {Q} _ {t} \right] _ {i l} & \text {i f} \quad i = j \end{array} \right. \tag {8}$

归一化通过将对角线值设为 1 减去每行（不包括对角元素）的总和来确保。请注意，由于非对角值在 ${ - K + 1 , . . . , K - 1 \}$ 范围内进行归一化，每行除对角元素外的总和始终小于 1。结果得到一个不可约双随机矩阵和一个具有均匀平稳分布的前向过程。与连续高斯扩散模型类似，参数 $βt\beta _ { t }$ 会影响前向过程分布的方差。

A.2.4 结构化文本扩散：使用词嵌入距离引入局部性

对于文本，我们构建一个 $\mathrm { \cdot }$ ‑最近邻邻接矩阵

$\mathbf {G} ] _ {i j} = 1 \text {i f} w _ {i} \text {i s a k - n e a r e s t n e i g h b o r o f} w _ {j} \text {e l s e 0}$

该矩阵基于词表上的预训练嵌入空间构建。然后我们考虑形式为 $A=(G+GT)/(2k)\mathbf { A } = ( \mathbf { G } + \mathbf { G } ^ { T } ) / ( 2 k )$ 的对称化邻接矩阵，其中 $k$ 是每个节点的最近邻数量，最后用该矩阵构建一个双随机速率矩阵。

$\left[ \boldsymbol {R} \right] _ {i j} = \left\{ \begin{array}{l l} - \sum_ {l \neq i} A _ {i l} & \text {i f} \quad i = j \\ A _ {i j} & \text {o t h e r w i s e} \end{array} \right. \tag {9}$

我们最终的转移矩阵构建为该速率矩阵的矩阵指数：

$\mathbf {Q} _ {t} = \exp (\alpha_ {t} \mathbf {R}) = \sum_ {n = 0} ^ {\infty} \frac {\alpha_ {t} ^ {n}}{n !} \mathbf {R} ^ {n}$

由于 $R\pmb { R }$ 是对称的且每行之和为零， $Qt\mathbf { Q } _ { t }$ 是双随机矩阵，这确保了我们有均匀平稳分布（只要 $G$ 是连通图）。随时间增加 $αt\alpha _ { t }$ 允许我们在t值较大时添加更多噪声。

假设词嵌入是衡量句法或语义相似性的指标，这将产生一个损坏过程，逐渐偏离真实句子，在嵌入空间中与最近邻的词进行交换。对于字符级建模，这是一个基于字符的图，例如，从元音到其他元音的转换比从元音到辅音的转换更频繁。对于词语，则可能在语义相似的词之间转换。

例如，在图4中，我们构建前向过程，使“dog”扩散到“cat”或“cow”，这些词在嵌入空间中邻近，但不会扩散到更远的词。我们可以通过在训练期间动态更新转移矩阵 $Q$ 来引导这个过程，或者使用预训练嵌入；我们在所有实验中都使用预训练嵌入。

A.2.5 带状对角转移

一类为结构化数据引入局部、有序归纳偏置的转移矩阵是带状对角转移矩阵，它只允许损坏过程在状态之间进行局部转移，并使反向过程倾向于局部迭代细化。例如，在图像中，这可用于仅允许相邻像素值之间的转移。

$\left[ \boldsymbol {Q} _ {t} \right] _ {i j} = \left\{ \begin{array}{l l} \frac {1}{K} \beta_ {t} & \text {i f} 0 < | i - j | \leq v \\ 1 - \sum_ {l \neq i} Q _ {i l} & \text {i f} i = j \end{array} \right. \tag {10}$

其中 $v$ 是 $Q$ 主对角线之上（及之下）的非零非对角元素数量。请注意这是一个双随机矩阵，因此平稳分布是均匀的。我们在实验中不使用这些。

第016/33页

图4：噪声调度处理文本数据的两个示例。顶部为类似BERT的吸收 $⋅+\cdot +$ 均匀扩散，它将词元替换为 [掩码] 词元（偶尔也会替换为其他任意词元，以黑色显示）。底部为嵌入空间中的最近邻扩散。左侧代表转移矩阵中的一个可能列。

图5：字符级对称5‑NN图。

A.2.6 吸收扩散与其他扩散的组合

附录B.2.1中的一些消融实验考虑了结合吸收态或最近邻与均匀D3PM模型的转移矩阵。例如，可以构造一个吸收‑均匀转移矩阵 $Q=α1emT+β11T/K+(1−α−β)I,\begin{array} { r } { \pmb { Q } = \alpha \mathbb { 1 } e _ { m } ^ { T } + \beta \mathbb { 1 } \mathbb { 1 } ^ { T } / K + ( 1 - \alpha - \beta ) \boldsymbol { I } , } \end{array}$ ，其中 $e _ { m }$ 是一个[MASK] 标记上的独热向量。

A.3 生成式掩码语言模型是扩散模型

生成式掩码语言模型 [14, 54] 是一种生成模型，它从一串[掩码]词元生成文本。这类模型通常的训练方式是：采样一个序列 $x0\scriptstyle { \pmb x } _ { 0 }$ ，根据某种附表对词元进行掩码，并学习在给定上下文的情况下预测被掩码的词元。实际的掩码过程可以独立进行，即像Devlin等人 [11],那样以概率 $p = k / T$ 掩码每个词元，也可以精确采样 $k$ 个词元。通常的目标是5:

$\left. \min - \mathbb {E} _ {q \left(\boldsymbol {x} _ {0}\right)} \left[ \mathbb {E} _ {k \in [ 1 \dots | \boldsymbol {x} _ {0} | ]} \left[ \frac {1}{k} \mathbb {E} _ {\boldsymbol {x} _ {k} \text {w i t h} k \text {m a s k e d t o k e n s}} \left[ \sum_ {i \text {w i t h} \left[ \boldsymbol {x} _ {k} \right] _ {i} = m} \log p _ {\theta} ([ \boldsymbol {x} _ {0} ] _ {i} | \boldsymbol {x} _ {k}) \right] \right] \right] \right] \tag {11}$

我们首先采样一个数据点 $x0\scriptstyle { \pmb x } _ { 0 }$ ，采样要掩码的词元数量 $k$ （均匀或根据某个附表），然后随机掩码相应数量的词元并计算交叉熵

第017/33页

损失针对那些被掩码的词元。我们主张这种训练目标是一种（重新加权后的）吸收态D3PM目标，具有特定的噪声调度以及来自3.3节的 $x0.\scriptstyle { \pmb x } _ { 0 } .$ ‑参数化（实际上，任何以 [MASK] 作为吸收态的吸收态D3PM模型都将是这种损失的一个重新加权版本，不同数量的掩码词元 $k$ 被分配了不同的权重）。

考虑一个带有附表、以概率 $βt\beta _ { t }$ 掩码词元的D3PM。反向过程预测 $p~θ(x0~∣xt)\widetilde { p } _ { \theta } ( \widetilde { \pmb { x } _ { 0 } } | \pmb { x } _ { t } )$ ，然后使用前向过程计算 $pθ(xt−1∣xt)∝∑q(xt−1,xt∣x0~)pθ~(x~0∣xt)∘\begin{array} { r } { p _ { \theta } ( \pmb { x } _ { t - 1 } | \pmb { x } _ { t } ) \propto \sum q ( \pmb { x } _ { t - 1 } , \pmb { x } _ { t } | \widetilde { \pmb { x } _ { 0 } } ) \widetilde { p _ { \theta } } ( \widetilde { \pmb { x } } _ { 0 } | \pmb { x } _ { t } ) \circ } \end{array}$ 。在吸收态扩散的特殊情况下，对于每个掩码词元 $\pmb x } _ { t } ] _ { i } = m$ in $ΔXt\mathbf { \Delta } _ { \mathbf { \mathcal { X } } _ { t } }$ ，我们因此有

${\theta} ([ \boldsymbol {x} _ {t - 1} ] _ {i} | \boldsymbol {x} _ {t}) \propto \left\{ \begin{array}{l l} [ \beta_ {t} \prod_ {s < t} (1 - \beta_ {s}) ] \widetilde {p} _ {\theta} ([ \widetilde {\boldsymbol {x}} _ {0} ] _ {i} = [ \boldsymbol {x} _ {0} ] _ {i} | \boldsymbol {x} _ {t}) & \text {f o r} [ \boldsymbol {x} _ {t - 1} ] _ {i} = [ \boldsymbol {x} _ {0} ] _ {i} \neq m \\ 1 - \prod_ {s < t} (1 - \beta_ {s}) & \text {f o r} [ \boldsymbol {x} _ {t - 1} ] _ {i} = m \end{array} \right.$

我们注意到，对于每个未掩码的词元 $\pmb x } _ { t } ] _ { i } = [ { \pmb x } _ { 0 } ] _ { i } ,$ ，KL散度为零，因为未掩码词元除了变为掩码之外，无法进行任何其他类型的转移。此外，KL散度中由于掩码转移概率导致的项是一个常数，因为掩码转移独立于模型参数 $θ∘\theta _ { \circ }$ 我们的 $L _ { t }$ 项因此为

${\mathrm {K L}} [ q (\boldsymbol {x} _ {t - 1} | \boldsymbol {x} _ {t}, \boldsymbol {x} _ {0}) | | p _ {\theta} (\boldsymbol {x} _ {t - 1} | \boldsymbol {x} _ {t}) ] = - \left[ \beta_ {t} \prod_ {s < t} (1 - \beta_ {s}) \right] \sum_ {i \text {w i t h} [ \boldsymbol {x} _ {t} ] _ {i} = m} \log \widetilde {p _ {\theta}} ([ \boldsymbol {x} _ {0} ] _ {i} | \boldsymbol {x} _ {t}) + C$

其中 $C$ 独立于 $θ\theta$ ，求和是对 $ΔXt\mathbf { \Delta } _ { \mathbf { \mathcal { X } } _ { t } }$ 中的掩码词元进行的。例如，如果我们使用Sohl‑Dickstein等提出的 $β(t)=1/(T−t+1)\beta ( t ) = 1 / ( T - t + 1 )$ ，且 [43], $1/T\begin{array} { r } { \beta _ { t } \prod _ { i = 0 } ^ { t - 1 } ( 1 - \beta _ { i } ) \ = \ 1 / T } \end{array}$ 和1 $\textstyle \prod _ { i = 0 } ^ { t } ( 1 - \beta _ { i } ) \ = ( t - 1 ) / T$ ，那么 $q$ ( $\pmb x } _ { t - 1 } ] _ { i } = [ { \pmb x } _ { 0 } ] _ { i } | [ { \pmb x } _ { t } ] _ { i } = m , { \pmb x } _ { 0 } ) = 1 / t$ 对于非掩码词元成立，我们可以将我们的 $L _ { t }$ 目标简化为

${\mathrm {K L}} [ q (\boldsymbol {x} _ {t - 1} | \boldsymbol {x} _ {t}, \boldsymbol {x} _ {0}) | | p _ {\theta} (\boldsymbol {x} _ {t - 1} | \boldsymbol {x} _ {t}) ] = - \left[ \frac {1}{t} \sum_ {i \text {w i t h} [ \boldsymbol {x} _ {t} ] _ {i} = m} \log \widetilde {p _ {\theta}} ([ \boldsymbol {x} _ {0} ] _ {i} | \boldsymbol {x} _ {t}) \right] + C$

其中 $ΔXt\mathbf { \Delta } _ { \mathbf { \mathcal { X } } _ { t } }$ 以概率 $t / T$ 对词元进行独立且均匀的掩码。对于 $1/ (T - t + 1)$ 附表，我们的ELBO中的 $L _ { T }$ 项为0，因此完整目标（除去常数项）简化为

$\begin{array}{l} \mathbb {E} _ {q \left(\boldsymbol {x} _ {0}\right)} \left[ - \sum_ {t = 2} ^ {T} \frac {1}{t} \mathbb {E} _ {q \left(\boldsymbol {x} _ {t} \mid \boldsymbol {x} _ {0}\right)} \left[ \sum_ {i \text {w i t h} \left[ \boldsymbol {x} _ {t} \right] _ {i} = m} \log p _ {\theta} \left(\left[ \boldsymbol {x} _ {0} \right] _ {i} \mid \boldsymbol {x} _ {t}\right) \right] \right. \\ \left. - \mathbb {E} _ {q \left(\boldsymbol {x} _ {1} \mid \boldsymbol {x} _ {0}\right)} \left[ \sum_ {i \text {w i t h} \left[ \boldsymbol {x} _ {1} \right] _ {i} = m} \log p _ {\theta} \left(\left[ \boldsymbol {x} _ {0} \right] _ {i} \mid \boldsymbol {x} _ {1}\right) \right] \right] \\ = - \mathbb {E} _ {q \left(\boldsymbol {x} _ {0}\right)} \left[ \sum_ {t = 1} ^ {T} \frac {1}{t} \mathbb {E} _ {q \left(\boldsymbol {x} _ {t} \mid \boldsymbol {x} _ {0}\right)} \left[ \sum_ {i \text {w i t h} \left[ \boldsymbol {x} _ {t} \right] _ {i} = m} \log p _ {\theta} \left(\left[ \boldsymbol {x} _ {0} \right] _ {i} \mid \boldsymbol {x} _ {t}\right) \right] \right] \tag {12} \\ \end{array}$

请注意，虽然这看起来与公式11非常相似（各项按 $1/ t$ 重新加权，即预期被掩码的词元数量），但由于掩码是按每个词元位置独立计算的（而非精确选择 $k$ 个词元进行掩码），它并非完全一致。这是一种完全实用的掩码方式（实际上一些方法也确实以这种方式实现）。

此外，由于掩码概率随 $\prod ( 1 - \beta _ { t } ) = t / T$ 线性变化，这非常接近均匀采样被掩码的词元数量 $k$ ，但 $k$ 实际上是从二项分布的混合中抽取的，即

$\begin{array}{l} = - \mathbb {E} _ {q \left(\boldsymbol {x} _ {0}\right)} \left[ \mathbb {E} _ {k \in [ 1.. | X | ]} \left[ \mathbb {E} _ {\boldsymbol {x} _ {k} \text {w i t h} k \text {m a s k e d t o k e n s}} \left[ \alpha (k) \sum_ {i \text {w i t h} \left[ \boldsymbol {x} _ {k} \right] _ {i} = m} \log p _ {\theta} \left([ \boldsymbol {x} _ {0} ] _ {i} | \boldsymbol {x} _ {k}\right)\right]\right]\right]\left. \right] (13) \\ \alpha (k) = q \left(\boldsymbol {x} _ {t} \text {h a s} k \text {m a x k e d t o k e n s} \mid \boldsymbol {x} _ {0} \text {h a s} n \text {t o k e n s}\right) = \frac {1}{T} \sum_ {t = 1} ^ {T} \binom {n} {k} \left(\frac {t}{T}\right) ^ {n - 1} \left(1 - \frac {t}{T}\right) ^ {n - k} (14) \\ \end{array}$

第018/33页

它非常接近各项上的均匀权重，但略微降低了接近 0 和 $T$ 的项的权重。通过提高边界附近项的权重，理论上可以使分布完全均匀，从而精确恢复公式11。例如，对于50个类别，吸收态扩散模型产生的权重如图6所示。

图6：在 $k$ 步D3PM吸收态附表下，长度为50的序列中 $T = 50$ 个词元被掩码的概率曲线图，这与Ghazvininejad等人所用的均匀权重极为相似 [14]。

A.4 扩展到大量类别

当类别数量 $K$ 很大时，存储所有转移矩阵 $Q _ { t }$ 会很快变得不可行，因为内存占用呈 $O ( K ^ { 2 } T )$ 增长。即使存在按需计算单个步矩阵 $Q _ { t }$ 的算法，对于累积乘积 $Q _ { t }$ 而言，可能也难以做到。我们提出了两种方法来扩展D3PMs以适应大量类别，并确保累积乘积高效：使用低秩损坏和使用矩阵指数。

A.4.1 低秩损坏

在低秩情况下，我们考虑将转移矩阵结构化为

$\boldsymbol {Q} _ {t} = \beta_ {t} \boldsymbol {A} _ {t} + (1 - \beta_ {t}) \boldsymbol {I}, \tag {15}$

其中每个 $At\pmb { A } _ { t }$ 都是一个可对角化的低秩矩阵，且具有相同的非零特征向量。特别需要注意的是，吸收态扩散和均匀扩散都具有这种形式：对于均匀扩散， $\mathrm { u n i f o r m } } = \mathbb { 1 } \mathbb { 1 } ^ { T } / K$ ；对于吸收态扩散， $\mathrm { a b s } } = \mathbb { 1 } e _ { m } ^ { T }$ ，其中 $e _ { m }$ 是吸收态上的独热向量。由于 $At\pmb { A } _ { t }$ 的乘积也是低秩的，累积乘积 $Q _ { t }$ 可以高效地预先计算并存储，所需内存大幅减少 $O ( r ^ { 2 } T )$ ，其中 $\mathrm { r a n k } ( A _ { t } ) _ { \circ }$

作为一个示例，我们将更详细地说明如何利用低秩结构高效表示均匀转移矩阵和吸收态转移矩阵。

为了计算均匀转移矩阵的乘积（即 $∏i(1−βi)I+βi11T/K)\begin{array} { r } { \prod _ { i } ( 1 - \beta _ { i } ) I + \beta _ { i } \mathbb { 1 } \mathbb { 1 } ^ { T } / K ) } \end{array}$ ，我们可以利用一个有用的性质：形式为 $αI+β11T\alpha I + \beta \mathbb { 1 } \mathbb { 1 } ^ { T }$ 的矩阵的乘积也保持相同的形式： $I ^ { 2 } = I$ 和 $(β11T)2=β2K11T∘\left( \beta \mathbb { 1 } \mathbb { 1 } ^ { T } \right) ^ { 2 } = \beta ^ { 2 } K \mathbb { 1 } \mathbb { 1 } ^ { T } \circ$ 因此，我们可以将其视为一个关于变量 $\mathbb { 1 } \mathbb { 1 } ^ { T } / K )$ 的形式多项式。那么，乘积可以通过商环 $R[X]/(X2−X).\mathbb { R } [ X ] / ( X ^ { 2 } - X ) .$ 上的 $∏i[(1−βi)+βiX]\prod _ { i } \left[ ( 1 - \beta _ { i } ) + \beta _ { i } X \right]$ 来计算，因为 $\circ }$ 。从功能上讲，这意味着你可以实例化一个多项式 $\beta _ { i } ) + \beta _ { i } X$ ，并在 $R[X]\mathbb { R } [ X ]$ 上针对 $t < T$ 个时间步反复执行普通的多项式乘法。每次乘法后，高阶项通过 $X ^ { 2 } = X$ 被化简，留下一个 1 阶多项式，其中 $X$ 项的系数由所有高阶项的求和给出。这可以通过方便的 np.polynomial 模块来计算。

同样地，D3PM吸收的转移矩阵也可通过闭式解计算。本质上，在每一步中，我们以概率 $βt\beta _ { t }$ 过渡到一个 [掩码] 标记，并以概率 $\beta _ { t }$ 保持原状。由于 [掩码]状态是吸收态，经过 $t$ 步后，唯一有效的量

第019/33页

是尚未转移到 [掩码] 状态的概率，由 $αt~=∏i=0t(1−βi\begin{array} { r } { \widetilde { \alpha _ { t } } = \prod _ { i = 0 } ^ { t } ( 1 - \beta _ { i } } \end{array}$ )给出。因此对于D3PM吸收， $Q=αt~I+(1−αt~)1emT\begin{array} { r } { Q = \widetilde { \alpha _ { t } } I + ( 1 - \widetilde { \alpha _ { t } } ) \mathbb { 1 } e _ { m } ^ { T } } \end{array}$ 其中 $e _ { m }$ 是一个针对 [掩码]标记的独热向量。

A.4.2 矩阵指数

在矩阵指数的情况下，我们将转移矩阵定义为

$\boldsymbol {Q} _ {t} = \exp \left(\alpha_ {t} \boldsymbol {R}\right) = \sum_ {n = 0} ^ {\infty} \frac {\alpha_ {t} ^ {n}}{n !} \boldsymbol {R} ^ {n}, \quad \overline {{\boldsymbol {Q}}} _ {t} = \exp \left(\left(\sum_ {s \leq t} \alpha_ {s}\right) \boldsymbol {R}\right), \tag {16}$

其中 $R\pmb { R }$ 是转移速率矩阵，exp表示矩阵指数运算； $Q _ { t }$ 和 $Q _ { t }$ 的相似形式是源于可交换矩阵的“和的指数”特性。为了提高效率，我们进一步假设每个 $αt\alpha _ { t }$ 是某个公共因子 $α⋆\alpha _ { \star }$ 的整数倍 $\alpha _ { \star }$ ，并预先计算矩阵 $exp⁡(2kα⋆R)\exp ( 2 ^ { k } \alpha _ { \star } R )$ ，其中 $\leq k \leq \log _ { 2 } ( \alpha _ { T } / \alpha _ { \star } )$ )满足 $αT=∑t<Tαt\begin{array} { r } { \alpha _ { T } = \sum _ { t < T } \alpha _ { t } } \end{array}$ ，占用空间 $\log ( \alpha _ { T } / \alpha _ { \star } ) ) _ { \circ }$ 。然后，为了计算与 $Q _ { t }$ 或 $Q _ { t }$ 的矩阵向量乘积，我们可以基于所需倍数 $n _ { t }$ 的二进制展开的各位数字，迭代地与这些预先计算矩阵的一个子集进行乘积运算，所需时间为 $\log ( \alpha _ { T } / \alpha _ { \star } ) ) . ^ { \ell }$ 6。

只要 $R\pmb { R }$ 具有非正的对角线外元素并且每行总和为零，矩阵指数就能产生一个有效的转移矩阵 $Q _ { t }$ ；通过控制特征向量，也能确保收敛到特定的平稳分布。特别地，如果每一列的总和也为零，那么所得的 $Q _ { t }$ 将是双随机的，因此会拥有均匀平稳分布。

我们注意到，这种参数化可以视为连续时间离散空间马尔可夫过程的离散化；我们在下一节中将更详细地描述这一联系。

A.5 连续时间马尔可夫过程转移速率

依照费勒 [13], 的定义，我们将连续时间离散空间马尔可夫过程定义为一组随机变量 ${xt}t>0\{ \pmb { x } _ { t } \} _ { t > 0 }$ 的集合，它们由 $\in \mathbb { R } ^ { + }$ 参数化，并具有马尔可夫性质 $(xt⊥xs∣xτ\left( \pmb { x } _ { t } \perp \pmb { x } _ { s } \mid \pmb { x } _ { \tau } \right.$ 如果 $\tau < s ,$ )、一个转移概率矩阵 $\Pi } ( t ) \in \mathbb { R } ^ { N \times N }$ （其中 $N$ 是 $ΔXt\mathbf { \Delta } _ { \mathbf { \mathcal { X } } _ { t } }$ 的基数）以及一组转移速率 $γi(t)∘\gamma _ { i } ( t ) _ { \circ }$

理解这些过程的一个概念方法是想象在每个状态 $i$ 中存在一个连续的泊松过程，其速率 $γi(t)\gamma _ { i } ( t )$ 决定了状态之间的转移何时发生。当转移发生时（在时间 $\dot { } }$ ），状态 $i$ 和 $j$ 之间会发生一次马尔可夫转移，其概率为 $Πij(t)∘\Pi _ { i j } ( t ) _ { \circ }$ 。许多常见的随机过程都属于这个家族，包括泊松过程。类似于随机微分方程的情况（Song等 [47]），我们可以推导出一组科尔莫戈罗夫方程（或在连续状态空间情况下的福克‑普朗克方程），它们决定了从时间 s的状态 $i$ 开始，到时间 $t$ 结束处于状态 $j$ 的边缘概率 $∂qij(τ,t)\partial q _ { i j } ( \tau , t )$ 。科尔莫戈罗夫前进方程的一般形式是

$\frac {\partial q _ {i j} (\tau , t)}{\partial t} = - \gamma_ {k} (t) q _ {i} (\tau , t) + \sum_ {j} \gamma_ {j} (t) \Pi_ {k j} (t) q _ {i k} (t)$

现在我们可以陈述并证明一个连接连续时间马尔可夫过程和矩阵指数的定理。

定理1. 设 ${xt}t≥0\{ { x } _ { t } \} _ { t \ge 0 }$ 是一个离散空间、连续时间的马尔可夫过程，其（可能依赖于时间的）转移概率矩阵为Π(t) 且转移速率为 $γi(t)\gamma _ { i } ( t )$ 。那么对于一个在时间 $s$ 具有初始分布 $\pmb x } _ { s } )$ 的粒子，在时间 $t$ 结束于状态 $j$ 的概率是

$(\boldsymbol {x} _ {t} | \boldsymbol {x} _ {s}) = \exp \left(\int_ {s} ^ {t} \mathrm {d i a g} (\boldsymbol {\gamma} (\tau)) (\Pi (\tau) - I) d \tau\right) q (\boldsymbol {x} _ {s})$

其中exp 是矩阵指数，我们将 $\pmb { x } _ { t } )$ 和 $γ(t)\gamma ( t )$ 视为 $RN\mathbb { R } ^ { N }$ 中的向量。

第020/33页

证明（概要）。根据连续时间马尔可夫过程的柯尔莫哥洛夫方程，我们得到该常微分方程

$\frac {\partial q (\boldsymbol {x} _ {t} | \boldsymbol {x} _ {s})}{\partial t} = \operatorname {d i a g} (\boldsymbol {\gamma} (t)) (\Pi (t) - I) q (\boldsymbol {x} _ {t} | \boldsymbol {x} _ {s})$

其中 $Π(t)\Pi ( t )$ 是转移概率矩阵。将其作为一阶常微分方程使用积分因子求解，即可得出目标方程。

我们注意到，如果 $Π(t)=Π\Pi ( t ) = \Pi$ 独立于 $t$ 和 $γ(s)=γ(s)r\gamma ( s ) = \gamma ( s ) \mathbf { r }$ 且满足某个标量函数 $γ:R→R\gamma : \mathbb { R } \to \mathbb { R }$ 和向量 $r∈RN\mathbf { r } \in \mathbb { R } ^ { N }$ ，那么这将简化成恰好对应于我们矩阵指数参数化的形式，其中

$\mathbf {R} = \operatorname {d i a g} (\mathbf {r}) (\Pi - I).$

其中我们设定

$\alpha_ {t} = \int_ {t - 1} ^ {t} \gamma (t) d t.$

换句话说，方程 16 中的 $αt\alpha _ { t }$ 参数对应于一个连续时间过程累积转移率的离散化。

A.6 Sohl‑Dickstein等所述附表的连续极限 [43]

例如，考虑 Sohl‑Dickstein 等描述的适用于伯努利变量 $βt=1/(T−t+1)\beta _ { t } = 1 / ( T - t + 1 )$ 的附表，即伯努利变量保持不变的概率为 $\beta _ { t } = ( T - t ) / ( T - t + 1 )$ ，发生转移的概率为 $βt∘\beta _ { t \circ }$ 。在本节中，我们将证明，采用此附表的D3PM吸收态或D3PM均匀过程，正是定理1中所述形式的连续时间跳跃过程的离散化。

我们首先观察到，吸收态和均匀 D3PM 转移矩阵均可等价表示为矩阵指数。在均匀情况下，我们有

$\exp (\alpha_ {t} \mathbf {R} _ {\mathrm {u n i f}}) = \exp \left(\alpha_ {t} \left(\frac {1}{K} \mathbb {1} \mathbb {1} ^ {T} - I\right)\right) = \exp (- \alpha_ {t}) I + (1 - \exp (- \alpha_ {t})) \frac {1}{K} \mathbb {1} \mathbb {1} ^ {T},$

而在吸收态情况下，我们有

$\exp (\alpha_ {t} \mathbf {R} _ {\mathrm {a b s}}) = \exp \left(\alpha_ {t} \left(\mathbb {1} \mathbf {e} _ {m} ^ {T} - I\right)\right) = \exp (- \alpha_ {t}) I + (1 - \exp (- \alpha_ {t})) \mathbb {1} \mathbf {e} _ {m} ^ {T}.$

在任何一种情况下，通过令其等于附录 A.2 中的显式形式，我们得到关系

$\beta_ {t} = 1 - \exp (- \alpha_ {t})$

其中 $βt\beta _ { t }$ 的定义如附录 A.2 所示，而 $αt\alpha _ { t }$ 是前一节使用的矩阵指数系数。利用前一节讨论的对应关系，我们亦知

$\alpha_ {t} = \int_ {t - 1} ^ {t} \gamma (s) d s$

对于连续时间转移率函数 $γ(s)\gamma ( s )$ 。定义 $βt=1/(T−t+1)\beta _ { t } = 1 / ( T - t + 1 )$ ，我们有

$\beta_ {t} = 1 - \frac {1}{(T - t + 1)} = \frac {T - t}{T - t + 1} = \exp \left(- \int_ {t - 1} ^ {t} \gamma (\tau) d \tau\right)$

记其反导数 $∫γ(t)=F(t).\begin{array} { r } { \int \gamma ( t ) = F ( t ) . } \end{array}$ ，我们有 $log⁡(T−t)−log⁡(T−t+1)=−F(t)+F(t−1),\log ( T - t ) - \log ( T - t + 1 ) = - F ( t ) + F ( t - 1 ) ,$ ，因此可推导出 $\log ( T - t )$ （可能存在常数偏移）。求导后得到 $γ(t)=1/(T−t).\gamma ( t ) = 1 / ( T - t ) .$ ，其形式与原附表相同，但如今被解释为一个连续变化率函数而非概率（并且在时间上平移了1个单位）。直观上，我们可以将其理解为一种附表，它将发生过渡的均匀概率分配给剩余时间，但不是将其分配到 $T - t + 1$ 离散步骤中，而是分配到一个大小为 $T - t$ 的连续区间内。我们注意到，使用更大的 $T$ 值等价于对此连续时间过程的一个缩放版本进行更精细的离散化处理。

第021/33页

A.7 基于互信息的噪声调度

设计扩散过程前向过程的一个重要部分是指定噪声调度：在每一步 $t$ 添加多少噪声，使得经过 $T$ 步后，该过程已（近似）达到转移矩阵的平稳分布。先前关于连续状态扩散模型[19, 30, 47] 的工作侧重于控制每一步添加的连续噪声的方差，但在离散状态空间中，如何衡量或控制所添加的噪声水平则不那么显而易见。

对于均匀或吸收态转移矩阵，一旦发生一次转移，原始数据点的所有信息便会丢失。在这种情况下，Sohl‑Dickstein等[43]引入的附表是一个自然的选择，因为它旨在使 $t / T$ 的元素在时间 $t$ 时发生首次转移。然而，当转移矩阵对转移施加了额外的结构时，例如对于我们基于词嵌入的转移矩阵，仅使 $t / T$ 的元素在时间 t时受到扰动是不够的，因为即使在转移发生后，时间 $t$ 的值仍可能与时间t−1的值高度相关；因此，我们探索使用互信息来量化已添加的噪声量。这里我们将更详细地描述基于互信息的附表。我们聚焦于以矩阵指数形式参数化的转移矩阵，即它们具有如下形式

$\pmb {Q} _ {t} = \exp (\alpha_ {t} \pmb {R}) = \sum_ {n = 0} ^ {\infty} \frac {\alpha_ {t} ^ {n}}{n !} \pmb {R} ^ {n}, \qquad \overline {{\pmb {Q}}} _ {t} = \exp \left(\left(\sum_ {s \leq t} \alpha_ {s}\right) \pmb {R}\right) = \exp \left(\bar {\alpha} _ {t} \pmb {R}\right).$

受Sohl‑Dickstein等 [43], 引入的附表启发，我们考虑设置我们的 $αt\alpha _ { t }$ 使得关于 $\pmb { x } _ { 0 } )$ 的信息在时间t时已丢失 $ΠTt\mathbf { \Pi } _ { T } ^ { t }$ 。我们的目标是找到指数使得

$\frac {t}{T} = 1 - \frac {I \left(\boldsymbol {x} _ {t} ; \boldsymbol {x} _ {0}\right)}{H \left(\boldsymbol {x} _ {0}\right)} = \frac {H \left(\boldsymbol {x} _ {0} , \boldsymbol {x} _ {t}\right) - H \left(\boldsymbol {x} _ {t}\right)}{H \left(\boldsymbol {x} _ {0}\right)} = \frac {\sum_ {\boldsymbol {x} _ {0} , \boldsymbol {x} _ {t}} p \left(\boldsymbol {x} _ {0}\right) q \left(\boldsymbol {x} _ {t} \mid \boldsymbol {x} _ {0}\right) \log \frac {q \left(\boldsymbol {x} _ {t} \mid \boldsymbol {x} _ {0}\right)}{\sum_ {\boldsymbol {x} _ {0} ^ {\prime}} p \left(\boldsymbol {x} _ {0} ^ {\prime}\right) q \left(\boldsymbol {x} _ {t} \mid \boldsymbol {x} _ {0} ^ {\prime}\right)}}{\sum_ {\boldsymbol {x} _ {0}} p \left(\boldsymbol {x} _ {0}\right) \log p \left(\boldsymbol {x} _ {0}\right)} \tag {17}$

其中 $H$ 表示随机变量的熵， $\pmb { x } _ { 0 } )$ 表示数据中随机选取令牌的分布。

实践中，我们通过计算训练集上的经验频率来估计 $\pmb { x } _ { 0 } )$ ，并为转移矩阵 $exp⁡(αˉR)\exp ( { \bar { \alpha } } R )$ 计算公式17右侧的值，该矩阵使用256个几何分布的指数 $αˉ\bar { \alpha }$ ，这些指数范围较大（在对数尺度上介于1e‑4到1e5之间呈线性分布）。然后，我们使用单调三次样条插值来找到特定的指数 $αˉt\bar { \alpha } _ { t }$ ，以确保上述性质近似成立，并将它们四舍五入，使它们都是公因数 $α⋆\alpha _ { \star }$ 的倍数以确保效率（如附录A.4所述）。最后，我们设定 $\exp ( ( \bar { \alpha } _ { t } - \bar { \alpha } _ { t - 1 } ) { \cal R } ) _ { \circ }$

事实证明，对于特定情况下的吸收态扩散模型，使用 [掩码] 令牌时，互信息调度正好简化为Sohl‑Dickstein等 [43]提出的 $T - t + 1 ) ^ { - 1 }$ 附表。为了说明这一点，令 $m _ { t }$ 表示时间0的某个值在时间 $t$ 已被替换为[掩码] 的概率。我们注意到此时

$\begin{array}{l} H (\boldsymbol {x} _ {t}) = \sum_ {\boldsymbol {x} _ {0}} (1 - m _ {t}) p (\boldsymbol {x} _ {0}) \log \left((1 - m _ {t}) p (\boldsymbol {x} _ {0})\right) + m _ {t} \log m _ {t} \\ = (1 - m _ {t}) \sum_ {\boldsymbol {x} _ {0}} p (\boldsymbol {x} _ {0}) \log p (\boldsymbol {x} _ {0}) + (1 - m _ {t}) \log (1 - m _ {t}) + m _ {t} \log m _ {t} \\ \end{array}$

我们利用了掩码标记在数据分布下概率为零的事实。我们还得到了联合熵

$(\pmb {x} _ {0}, \pmb {x} _ {t}) = \sum_ {\pmb {x} _ {0}} p (\pmb {x} _ {0}) \log p (\pmb {x} _ {0}) + m _ {t} \log m _ {t} + (1 - m _ {t}) \log (1 - m _ {t}).$

第022/33页

然后我们可以计算

$\begin{array}{l} 1 - \frac {I \left(\boldsymbol {x} _ {t} ; \boldsymbol {x} _ {0}\right)}{H \left(\boldsymbol {x} _ {0}\right)} = \frac {H \left(\boldsymbol {x} _ {0} , \boldsymbol {x} _ {t}\right) - H \left(\boldsymbol {x} _ {t}\right)}{H \left(\boldsymbol {x} _ {0}\right)} \\ = \frac {\sum_ {\boldsymbol {x} _ {0}} p (\boldsymbol {x} _ {0}) \log p (\boldsymbol {x} _ {0}) + m _ {t} \log m _ {t} + (1 - m _ {t}) \log (1 - m _ {t})}{\sum_ {\boldsymbol {x} _ {0}} p (\boldsymbol {x} _ {0}) \log p (\boldsymbol {x} _ {0})} \\ - \frac {\left(1 - m\right) \sum_ {\boldsymbol {x} _ {0}} p (\boldsymbol {x} _ {0}) \log p (\boldsymbol {x} _ {0}) + \left(1 - m _ {t}\right) \log \left(1 - m _ {t}\right) + m _ {t} \log m _ {t}}{\sum_ {\boldsymbol {x} _ {0}} p (\boldsymbol {x} _ {0}) \log p (\boldsymbol {x} _ {0})} \\ = \frac {m _ {t} \sum_ {\boldsymbol {x} _ {0}} p (\boldsymbol {x} _ {0}) \log p (\boldsymbol {x} _ {0})}{\sum_ {\boldsymbol {x} _ {0}} p (\boldsymbol {x} _ {0}) \log p (\boldsymbol {x} _ {0})} = m _ {t}. \\ \end{array}$

由此可见，掩码的互信息调度需确保 $\ = \ q ( { \pmb x } _ { t } \ = [ { \bf M A S K } ] | { \pmb x } _ { 0 } ) = \ _ { T } ^ { t }$ 。但这正是 $T - t + 1 ) ^ { - 1 }$ 调度。为了说明这一点，令 $βt\beta _ { t }$ 表示在时刻 $t _ { i }$ ，一个非掩码标记变为掩码标记的概率，并注意到 $mt=1−∏s=1t(1−βs)∘\begin{array} { r } { m _ { t } = 1 - \prod _ { s = 1 } ^ { t } ( 1 - \beta _ { s } ) _ { \circ } } \end{array}$ 。因此，

$\beta_ {t} = 1 - \frac {1 - m _ {t}}{1 - m _ {t - 1}} = 1 - \frac {1 - \frac {t}{T}}{1 - \frac {t - 1}{T}} = 1 - \frac {T - t}{T - t + 1} = \frac {(T - t + 1) - (T - t)}{T - t + 1} = \frac {1}{T - t + 1}$

正如所愿。

有趣的是，尽管 $T - t + 1 ) ^ { - 1 }$ 调度是为均匀转移矩阵的情况设计的（曾被

Sohl‑Dickstein等 [43] 和 Hoogeboom等 [20] 用于此目的），但 $T - t + 1 ) ^ { - 1 }$ 调度通常与在该设置下的互信息调度并不相同。我们将对这些调度的进一步研究留待未来工作。

A.8 使用离散化截断逻辑分布参数化反向过程

对于诸如图像的有序数据，我们可以在 $p~θ(x~0∣xt)\widetilde { p } _ { \theta } ( \widetilde { \pmb { x } } _ { 0 } | \pmb { x } _ { t } )$ 的对数几率中注入一个有序归纳偏置，通过对实数分布进行离散化建模来实现。本文中，我们选择的基础连续分布为截断逻辑分布。以下代码展示了我们如何为 $p~θ(x~0∣xt)\widetilde { p } _ { \theta } ( \widetilde { \pmb { x } } _ { 0 } | \pmb { x } _ { t } )$ 计算对数几率，给定一个由神经网络 $nnθ\mathrm { n n } _ { \theta }$ 预测的位置/均值和对数尺度。

import jax numpy as jnp
def get_logits_from_logistic Pars(loc, log_scale, num_classes): ““Computes logits for an underlying logistic distribution.””

The loc and log_scale are assumed to be modeled for data re-scaled # such that the values ${0,…,K−1}\{0,\dots ,K - 1\}$ map to the interval [-1, 1]. # Shape of loc and log_scale: (batch_size, height, width, channels) loc $=$ jnp.exp_dims(loc, axis=-1)

log_scale $=$ jnp.exp_dims(log_scale, axis=-1)

Shift log_scale such that if it’s zero the output distribution # has a reasonable variance. inv_scale $=$ jnp.exp(- (log_scale - 2.))

bin_width $= 2$ . / (num_classes-1.) bincenters $=$ jnp.linspace(start=-1.,stop=1.,num=num_classes, endpoint=True) bincenters $=$ jnp.exp_dims(batchcenters, axis=tuple(range(0,loc.ndim-1)))
bincenters $=$ bincenters - loc

Note that the edge bins corresponding to the values O and K-1 # don’t get assigned all of the mass in the tails to +/- infinity. # So the logits correspond to unnormalized log probabilities of a # discretized truncated logistic distribution.

log_cdf_min $=$ jax.nn.log_sigmoid(

第023/33页

inv_scale * (bincenters - 0.5 * bin_width))
log_cdf_plus $=$ jax(nn.log_sigmoid( inv_scale * (bincenters + 0.5 * bin_width))
logits $=$ log_minus_exp(log_cdf_plus, log_cdf_min)
return logits
def logMinus_exp(a,b,epsilon=1.e-6):
““Computes the log(exp(a)- exp(b))(b<a) in a numerically stable way.””"
return a $+^+$ jnp.log1p(-jnp.exp(b-a)+epsilon)

B 实验

B.1 无条件图像生成实验的细节及补充结果

我们遵循与 Ho等 [19]相同的训练与评估设置。为完整起见，在此重申这些设定。模型架构基于 PixelCNN++ [41] 架构的主干：一个基于 Wide ResNet [56] 的 U‑Net [36]，其中权重归一化层 [39]被组归一化层 [55]取代。模型拥有四个特征图分辨率级别，每个级别有两个卷积残差块。在 $16 \times 1 6$ 分辨率级别，卷积块之间放置了一个自注意力块 [8]。时间步 $t$ 通过每个残差块中的 Transformer 正弦位置嵌入 [52]融入神经网络。此外，我们使用与 [19] 相同的超参数和增强设置而不进行调优：丢弃率设为 0.1；我们使用 $\times 1 0 ^ { - 4 }$ 的学习率配合标准设置的 Adam 优化器 [23] ，批量大小为 128；评估时，我们使用指数移动平均 (EMA) 处理模型参数，衰减因子为 0.9999；最后，我们在训练期间使用随机水平翻转作为增强手段。

我们基于JAX [3]和Flax [17], 的DDPM模型 [19]复现，构建了面向图像的D3PMs实现，并使用与上文相同的设置。此复现已验证可产生与[19]中报告相似的结果。对于直接以神经网络输出建模 $p~θ(x~0∣xt)=Cat(x~0∣pθ)\widetilde { p } _ { \boldsymbol { \theta } } ( \widetilde { \mathbf { x } } _ { 0 } \vert \mathbf { x } _ { t } ) = \mathrm { C a t } ( \widetilde { \mathbf { x } } _ { 0 } \vert \pmb { p } _ { \boldsymbol { \theta } } )$ 对数几率的D3PM模型，我们将它们建模为对数几率 $=$ 神经网络θ(归一化 $\pmb { x } _ { t } ^ { \mathrm { i n t } } ) ) + \pmb { x } _ { t } ^ { \mathrm { o n e - h o t } }$ ，其中 $xtint\pmb { x } _ { t } ^ { \mathrm { i n t } }$ 和 $xtone−hot\pmb { x } _ { t } ^ { \mathrm { o n e - h o t } }$ 分别表示 $ΔXt\mathbf { \Delta } _ { \mathbf { \mathcal { X } } _ { t } }$ 的整数和独热表示。函数归一化 $xtint \pmb { x } _ { t } ^ { \mathrm { i n t } } )$ 将整数值 ${ 0 , . . . , K - 1 \}$ 映射至区间 $\circ }$ 。对于对数几率由截断离散化逻辑分布预测的情况（如第A.8节所述），神经网络输出对数尺度log $s\pmb { s }$ 以及基础逻辑分布的均值 $s,μ′]=\begin{array} { r l } { \mu : } & { { } \left[ \log \ s , \mu ^ { \prime } \right] = } \end{array}$ 神经网络θ(归一化 $xtint \pmb { x } _ { t } ^ { \mathrm { i n t } } ) _ { . }$ ), $μ=\pmb { \mu } =$ tanh(归一化 $\pmb { x } _ { t } ^ { \mathrm { i n t } } ) + \pmb { \mu } ^ { \prime } )$ 。连续空间DDPM模型的复现大约有35.7M参数，这与我们从 [19]作者正式发布检查点加载的CIFAR‑10模型参数数量相同。7 直接输出对数几率的我们的D3PM模型约有36.6M参数，而通过离散化截断逻辑分布（D3PM 高斯 $+^ +$ 逻辑）参数化对数几率的模型约有35.7M参数。

我们所有的模型均在TPUv2加速器上训练了1.5M步，采用 $\times 4$ 拓扑结构。我们的Inception[40] 和FID[18] 分数是基于50000个样本、使用Inception‑v3模型[48]计算得出的。我们已纳入模型在5个不同随机种子下训练的平均值和标准差。

噪声调度设置对于附录A.2.3中所述使用离散化高斯转移矩阵的D3PM高斯模型，我们采用与[19]相同的线性调度作为 $βt\beta _ { t }$ ： $βt\beta _ { t }$ 从 $\times 1 0 ^ { - 4 }$ 线性增加到0.02。我们没有为D3PM高斯模型探索任何其他噪声调度。对于D3PM均匀模型（参见章节A.2.1），我们试验了 $βt\beta _ { t }$ 的线性调度（从0.02线性增加到1）以及Hoogeboom等 [20]建议的余弦调度。

表4显示，采用余弦调度的D3PM均匀模型产生的结果远优于

第024/33页

图7：来自使用 $\mathrm { v b } }$ 训练的D3PM均匀模型的样本（顶部）、使用 $\lambda = 0 . 0 0 1 }$ 训练的D3PM吸收模型的样本（中部），以及使用 $\lambda = 0 . 0 0 1 }$ 训练的D3PM高斯逻辑模型的样本（底部）这些样本并非经过精心挑选。

使用线性 $βt\beta _ { t }$ 调度的同一模型。对于D3PM吸收模型（见附录A.2.2），吸收态是灰色像素，对应的RGB值为(128, 128, 128)。对于这些模型，我们使用的调度对应于随时间线性增加处于吸收态的概率： $βt=(T−t+1)−1\beta _ { t } = ( T - t + 1 ) ^ { - 1 }$ 。该调度也在Sohl‑Dickstein等 [43] 中提出，用于二元随机变量的扩散模型，其具有均匀平稳分布，而非将所有概率质量集中于吸收态的平稳分布。

第025/33页

样本来自在 $\mathrm { v b } }$ 上训练的D3PM均匀模型、在 $\lambda = 0 . 0 0 1 }$ 上训练的D3PM吸收模型以及在 $\lambda = 0 . 0 0 1 }$ 上训练的D3PM高斯 $+^ +$ 逻辑模型的额外样本可在图7中找到。

表4：使用 $\mathrm { v b } }$ 训练的均匀D3PM模型在图像数据集CIFAR‑10上的定量结果。均匀D3PM模型的余弦噪声调度由Hoogeboom等[20]提出。线性调度对应 $βt\beta _ { t }$ 从0.02线性增加到1。结果显示使用3个（线性）和4个（余弦）随机种子训练的模型。

模型	βt附表	是否(↑)	FID(↓)	负对数似然(↓)
D3PM均匀	线性	4.44 ± 0.05	79.86 ± 1.64	≤ 4.99 ± 0.03
D3PM均匀	余弦	5.99 ± 0.14	51.27 ± 2.15	≤ 5.08 ± 0.02

B.2 无条件文本生成实验的细节与补充结果

我们使用text8和LM1B进行的实验采用了标准的Transformer编码器架构，遵循T5 [33] 架构，共12层，拥有7000万个参数（12个头，mlp维度3072，qkv维度768）。所有模型均在TPUv2或TPUv3平台上训练了100万步，批次大小为512。我们的代码是在JAX[3]和Flax [17]中实现的。在我们的实验中，我们采用了学习率 $\times 1 0 ^ { - 4 }$ ，包含10000步的学习率预热和逆平方根衰减。对于text8，我们使用了标准的90000000/5000000/500000训练‑测试‑验证划分，序列长度为 $256∘ \circ }$ 。对于LM1B，我们使用了来自TFDS的标准测试‑训练划分，其中训练集包含30,301,028个样例，测试集包含306,688个样例。对于text8，不进行预处理，训练是在对整个连接、小写化的训练集进行随机裁剪后进行的。对于LM1B，训练是通过打包训练语料库中的序列（包括一个EOS标记）来采样长度为128的序列进行的。困惑度的报告相对于测试集中实际的英文单词数量（包括模型预测的EOS标记）。

我们的自回归Transformer基线是一个标准的Transformer解码器，具有相同的基本架构（但包含因果掩码，这符合自回归模型的标准），且参数数量相同。

表5包含了混合损失的额外比较。我们发现混合损失 $\lambda = 0 . 0 1 }$ 略微改善了D3PM吸收模型的性能，但对均匀模型产生了一定的负面影响，导致训练稳定性降低。所有模型均在1000步的扩散过程上进行训练，但当我们通过跳过步骤来评估已训练模型时，发现在1000步和256步之间几乎没有改进。对于所有图表，除最后一步（如果评估步数不能整除1000）可能例外，步骤都是均匀跳过的。我们发现余弦和互信息调度均能很好地适用于均匀扩散。我们使用了由Hoogeboom等 [20], 提出的余弦变体。

$\cos \left(\frac {t / T + s}{1 + s} + \frac {\pi}{2}\right) \quad \beta (t) = 1 - \frac {f (t + 1)}{f (t)} \tag {18}$

对于吸收态和神经网络扩散，我们使用了近似互信息调度，该调度是通过整个训练语料库中词汇内词元的一元概率来估算的。

图8展示了3个D3PM模型在text8数据集上的比特/维度随推理步数的变化情况。我们再次注意到在1000步和250步之间变化相对较小，但在低于此步数时增加相对较快。尽管如此，我们仍能以极少的步数获得令人信服的对数似然。通过采用更明智的跳过步数策略，可以实现更强的扩展性。

B.2.1 text8的附加表格与图表

第026/33页

表5：text8的附加结果，包括辅助混合损失的比较

模型	模型步数	NLL (比特/字符) (↓)
D3PM均匀 (我们) (Lλ=0.01)	1000	≤ 1.91
D3PM均匀 (我们) (Lvb)	1000	≤ 1.61
D3PM吸收 (Lλ=0.01) (我们的)	1000	≤ 1.44
D3PM吸收 (Lvb) (我们的)	1000	≤ 1.47
D3PM吸收 +神经网络 (Lλ=0.01) (我们的)	1000	≤ 1.53
D3PM均匀 [20] (我们的)	50	≤ 1.7
D3PM神经网络 (Lvb) (我们的)	50	≤ 1.62
D3PM吸收 (Lλ=0.01) (我们的)	50	≤ 1.53

表 6：text8在较小模型规模（6层）下的附加结果，对比不同附表。全部为1000步时的结果。

模型	附表	负对数似然（比特/字符）（↓）
D3PM均匀	(1/(T-t+1)附表)	≤2.37
D3PM均匀	余弦	≤1.73
D3PM均匀	互信息	≤1.74

第027/33页

图8：text8比特/维度随推理步数的变化趋势。“mask”表示D3PM吸收态模型。

图9：D3PM吸收模型（‘mask’）在text8上的推理时间（秒）随迭代次数的变化，并与自回归模型进行对比。

B.2.2 LM1B的补充表格与图表

表7：LM1B的采样时间。此表包含全精度结果以及基于10次运行计算得出的标准差。

指标:	采样时间（秒）（↓）
推理步数:	1000	128	64
D3PM均匀	1.8161 ± 0.0002	0.2120 ± 0.0005	0.0831 ± 0.0002
D3PM神经网络	21.29 ± 0.03	6.6861 ± 0.0009	5.8786 ± 0.0008
D3PM吸收	1.9049 ± 0.0005	0.1983 ± 0.0003	0.1017 ± 0.0002
Transformer	-	0.26 ± 0.03	-

B.3 来自各模型的额外非精选生成示例

第028/33页

图 10：使用吸收态D3PM模型（在LM1B数据集上训练，128个去噪步骤）在不同噪声水平下补全测试集示例。我们使用 $\pmb { x } _ { t } | \pmb { x } _ { 0 } )$ 对示例进行破坏，然后从 $\theta } ( \pmb { x } _ { t - 1 } | \pmb { x } _ { t } )$ 迭代采样以重建。掩码标记显示为“[M]”。

x0:	由于贝尔斯登,许多分析师提高了2008年经济衰退可能比预期更严重的概率。下个月,巴西证券交易所将开设伦敦办事处。俄罗斯航空表示,由俄罗斯航空子公司运营的821航班搭载了82名乘客和6名机组人员。DBSophic由CEO Hagi Erez和CTO Ami Levin于2007年创立,后者是一位SQL Server最有价值专家。“流浪者队是一个大团队,而卡
x20:	由于贝尔[斯]登,[许多]分析师提高了概率,认为2008年经济衰退可能比预期更严重。[下]个月,[巴西],证券交易所将开设伦敦办事处[。]821航班,由[俄罗斯]航空子公司运营,搭载了82名乘客和6名机组人员,俄罗斯航空表示。DBSophic[由CEO Hagi Erez和CTO[Ami]Levin[下],2007年创立,后者是一位SQL[Server]最有价值[专家]MVP[。][“流浪者队是一个大团队[,]而卡
x0~pθ(x0\|x20):	受贝尔斯登影响,许多分析师提高了2008年经济衰退可能比预期更严重的概率。明年1月,巴西证券交易所在伦敦开设办事处。俄罗斯航空表示,由旗下子公司运营的821航班搭载了82名乘客和6名机组人员。DBSophage成立于2007年,由CEO Hagi Erez和CTO Semi Levin(一位SQL专家及MVP)领导。“流浪者队在Ka
x0:	unas只是一家小型俱乐部,”他表示。19号本周在固定自行车上进行了训练,但没有参与11对11训练。卡特彼勒急于在亚洲扩张,其在该地区落后于本土竞争对手如小松有限公司(6301.T:Quote,Profile,Research),同时美国经济的放缓也抑制了其本土市场建筑设备需求的前景。沿线商家
x40:	unas[M][M]小[M,"他[M].19[M][M]本周没有在定点[M]训练,但未参加[M]111[M][M]-11演习[M][M]Cat[M][M]illa[M]急切希望[M]参与[M][M][M][M]项目,因为它落后于本土竞争对手如Ko[M][M]u Ltd[M][M]30[M][M][M][M][M]:Quote[M],个人资料[M][M][M][M][M][M],[M][M]美国经济[M]放缓[M]削弱[M]了[M]建筑[M]设备需求在其本土[M][M]商家[M]unas在小花园中,“他说。19:本周没有在定点训练,但未参加11-to-11演习。卡特彼勒急切希望参与其他项目,因为它落后于本土竞争对手如Koichiu Ltd(2330.SS:Quote,个人资料,研究),因为美国经济放缓削弱了建筑设备需求在其本土市场的展望。商家们
x0~pθ(x0\|x40):
x0:	卡拉达街是一个富裕零售区的主要动脉,他表示该区域已成为武装警卫乘坐运动型多用途汽车穿越的虚拟射击场。他还表示已要求检察官展开一项独立调查。在此案中,尽管存在推动增加住房拥有率的巨大压力,美联储决定不予干预。投票后,日本水产厅的首席顾问宫原正纪表示,压力将降临在他的国家及其他依赖大西洋的国家身上。
x60:	[M]卡拉达[M][M]主要[M]动脉[M]的[M][M][M]零售区[M]称该区域[M]已变成一处虚拟[M][M][M]武装警卫[M]乘坐运动[M]型[M]多用途汽车[M][M][M]称他也[M][M][M]检察官[M][M]展开一项独立调查。[M][M]此案中[M],正值[M][M]推动[M]住房拥有[M][M][M]美联储[M]决定[M][M]干预[M]投票后[M][M],宫[M][M]原[M]正[M][M],首席[M][M]顾问[M]的[M][M]水产厅[M][M][M]表示压力[M]将施加于[M][M]及其他国家[M][M]依赖[M][M]
x0~pθ(x0\|x60):	零售区的主要面包店Karradadi表示,该区域已形成一个虚拟社区,武装警卫乘坐运动型多用途汽车巡逻。他还提到需要检察官请求才能开启一项单独的调查。在此案例中,尽管反对派推动更多家庭拥有住房,财政部决定不进行干预。会议结束后,日本渔业研究所的首席执行官Masakiri Miyamoto表示,国际货币基金组织及其他机构将面临压力,需要就支付事宜达成一致。
x0:x100:	bluefin to abide by ICCAT quotas. In other cases, a pet can provide an outlet for more unpleasant traits, like a need to control others, a refusal to compromise or an inability to grant other people autonomy. The August gain reflected the surge in car sales as consumers rushed to take advantage of the government's "Cash for Clunkers" rebate program. But after an exchange with the White House, Republicans decided to allow press coverage rather than be portrayed as try [M][M]to[M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][N]lunk[M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M]rebate[M].[M]But[M][M][M][M][M]actives as try not wish to abide by a personal talks meeting point. On any cake, and you can search a pallet for a "Grease." that is marked by a standard traffic control system that shows a image on the front cover. We still believe that people vote for their candidate. Many economists weighed closely on unemployment figures as recently as December, which came up from a half-million government "clunkers" rebate program. But, funny it may seem, rational person decided to advance press freedom rather than encourage senior activists as try
x0~pθ(x0\|x100):

第029/33页

图11：在LM1B上训练的吸收态D3PM模型的多步去噪步骤生成结果 $\circ }$ 。掩码标记显示为“[M]”。

127	[M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][ M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][
120	[M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][ M][ M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][ M][[M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M] [M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M)[M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M ][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M] [M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M]
100	[M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M][M] [M] [M] [M] [M] [M] to [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] hide [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] on [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] (M) [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] M [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] and hide in [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] " said [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] “ said [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M ] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] [M] 4.	[ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ M ] [ NIX [ M ] [ M ] E [ M ] R Jon [ M ] P e [ M ] I m u [ M ] s [ M ] backup goal [ M ] Coach [ M ] edley [ M ] respond [ M ] this year [ M ] to bank [ M ] to a new program to develop nuclear energy .[ M ] for example [ M ],[ M ] [ M ] ins [ M ] in [ M ] [ M ] and hide in [ M ] function [ M ]," said Michelle Ng [ M ] [ M ] of [ M ] agency [ M ] the DWI Field techniques ,[ M ] reported research on what inspires [ M ] with DNA 's .[ M ]NIX [ M ][ M ]E [ M ]R Jon [ M ] Pe [ M ]lmu [ M ]s [ M ] backup goal .[ M ] Coach [ M ]edley [ M ] didn [ M ]t respond [ M ]
20	[M ] this year [ M ] to bankroll private developer [ M ] with a new program to develop nuclear energy ."[ M ] ,for example [ M ],[ M ][ M ] insulin how to [ M ] it and hide in detect [ M ] function [ M ]," said Michelle Ng [ M ] [ M ] of [ M ] agency [ M ] the DWI Field techniques ,[ M ] reported her research on what inspires [ M ] with DNA 's . MONIX [ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ F Iidin t response to the expected year to be a " Women , for example , could " use insulin how to use it and hide in detectable function , " said Michelle Ngum , president of the agency for the DWI Field techniques ,* ported她的研究关于什么激励女性具有DNA的。MONIX INTO FEUR Jonny Pearlmunds 是备份守门员。教练 Sedley“没有回应
127	[M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ MB[ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M ][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ M][ MB( M)[ M][ M] be [ M ][ M] be [ M ][ M] be [ M ][ M] be [ M ][ M] be [ M ][ M] be [ M ][ M] be [ M ][ M] be [ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be[ M ][ M] be( M )[ T'[ M]
80	[M]([ M ] top " )[ M ][ M ]s frequently invalid [ M ] United [ M ] some were [ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ] [ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ][ M ]( M )[ T'[ M ][ M ][ M ]s frequently invalid [ M ] United [ M ] . But some were questioned whether this joint action , though [ M ]y [ M ], would have ass[ed their positions . The [ M ][ M ]the orders of Franz Schneucky [ M ] a C [ M ]le [ M ]ist [ M ]Reg [ M ]less [ M ]this season of success gives [ M ] something to make people spend [ M ], but on [ M ]s [ M ][ M ]'s most popular [ M ] be [ M ]e : ban hall [ M ][ M ]er with a buffalo [ M ] that [ M ]
0	Roman ("top") and Nazis frequently invade [ U] United Nations . But some were questioning whether this joint action , though necessary , would have assailed their positions . The man on the orders of Franz Schneucky is a Centactle lobbyist . Regardless , this season of success gives it something to make people spend money , but on Sundays [ M ] camera 's most popular spot [ M ] be [ M ]e : ban hall [ M ][ M ]er with a buffalo [ M ] that [ M ]

第030/33页

999	Quote 宣布 Vice 批评 Qui 点击 Go Film 文化运行 Jonath 条款 Seail Prosecutor 数量 intercepttherapy Owen slip start Valley justalai paint subsidiar Jim SpitzNumbercost.8Connell 独立点 organizationsoloneJZimbabwe 网站 Belgi Lord 黑暗 Villa 占据 confidential awayappaw 显著 nameget stimulus ob saw left embryo ensureney Spanish5,000 telephone Manches director 指示 Water Ford Bhutto steam 尝试 Baicited per vessel Jamaica Benedict disclos surgeon compensation bank Drive Hunt 99cin insufficient obtain dishskirt hostile UNpost 需要 classeride CNN safeguarddeasings 建造 Arena 和平 Czechille Kei unemployed Sun Has soldier universtle upperadding mandator hopefulfult pound car M room Scientist 安置 merger poison 61 tip lend 包含 discussion persuade Zespeak 直接 adult What will subject see Ifce 时尚 impression these7 迅速 fears Rockytruck? Pete acquire receivesies Lamb Me 24oughtuition 沉重 and cottage lifestyle Nazi Mah 假定 10,000
800	Dave SUV store that departure 1-1 earlier fr, Hat babiesF of Asso-ciationole Bhutto Kingzzy qualification surveil Ta ranch (LES collaborat jump Gonzalez the Jencent Chenef cigarettecon flick enthuisuals councilor revis caucus presid Workers, 一些 Abdul stableRque Members disc Yorkshire constituenc 3.3 Lisa fantastic excessMart Jam away southeast 99 chest Mah micro march heart guidinstestereville ' Tube met spoke Cap victor High rates explanation invitation survive execut achieved wild composit Donaldgger parties clamp reported assetspeak . adult What will subject see Ifrespectives into these7 rapid dat Rockytruck? Pete acquire shuties Lamb, 这种 (and best lifestyleities Mah assume 10,000 Clo SUVs that Bo 1-1 earlier fr, realis existF of Association Bhutto Kingzzy qualification prisoners the b (what collaborat name of the Jencenter) con honest doubled councilor revis caucusfortunate Star, the Woods stableRque Members weather Yorkshire constituenc Exchange Lisa fantastic Mart ' 17 southeast grape chest chememest maximum heart capacity devotecae muscle ' uniform met important Lane victorymany rales explanation to survive execut achieved composite egger constitution clamp reported assetspeak . rav What will subject see If plays into these7 roll dat Rocky? Pete membership shuties Lamb, 这种 (and best lifestyleities ) of anacks that often 1-1 earlier fr, the exist Bridge of the Bhutto King 150 qualification prisoners the b (Central personal name of the Jencenter) foreign date councilor revis is derivative financial, the community choppRque registration works . Nu Exchange" fantastic Mart ' s feature grape is therefore heart vulnerability devotecae predecessor ' nformation met important for many shoutmen to survive fundrais storm , "ron clamp reported assets . What will subject see If plays into these7p ordinary Rocky? Pete membership shuties , 这种 (and best majorities) of anacks that often seem earlier fr, the existence of the Bhutto King 150 " David thegar ( truth personal name of the Jencenter) tense date in revis is derivative financial, the community choppsqe registration works .organ Exchange"
400	Lake Mart ' sagh landscape is therefore heart vulnerable devotecae it ' nformation very important for many shoutmen to survive fundrais storm , "ron Jer reported assets . 美国将看到什么? 这些戏剧融入到这些 underpockety之中? - Theories , 这种 (and human majorities) of angels that often seem modern, 这种 " Kingdom " 的存在 - 这本书 (in the name of the Newcenter ), 其日期即将来临, the movie whosequently works . " Lake Mart ' s real landscape is therefore very hearty because it ' s very important for many firemen to survive the storm , " the newspaper reported
0

999	克里 Justin 篮坑 Ri swift 五能力金融车mile 盗贼报复眼秒明确巴黎手阴影藏抗议者 outmal Ju Di 海军 E flickati 开放u mption Nichol 入侵堆凤凰城 Middleecutive 1985年促销心脏 Sean laughterom Civil 前任变化民主党道歉bon 竞争滑雪联合国初步ICE 包括定罪区域RO Seanke 药丸比较 K 当一致 Quote 事件骚乱百分比 proceedpin Geo Nick 公告 9K Comp 面临 snapcom 14 分布鞋肩部欢呼妓女 Plan 真天主教镜子判决 uddle 组合购买恐慌逻辑 foul 统治 Frank 伟大你的 curio Globe 1.21 犹太方面岛技能 Businessstom chatfer 对话责任 Web 排序 select08og Obama 碰撞 43 linupraft 悬挂 Find 影响 Left 感激 executive 独特 brickpiece 存在 mom书代码gallery 房屋舒适 pact 系统能够法典。准备 Resident 脚周日捕获 Thompson 浓度誉言 Medina 1.4
800	Ver 舒适现在尴尬意识区域可持续arfur 朝向世界卫生组织居民推进谁法院别墅确保震撼 iselli 索马里 Tourlargesteva 价值复活节经常不像 Sur andology 约克郡冷却介绍 Baltimorecal。lieutenant imagelength, GroupCLA Fre12 handlerystal 后Crime 因为这里参与 Scotttroll 基础盾牌工具pe- cially 关于两者婴儿rum 屏幕榴弹 Gree PRNewswirenor 参与ia 必要性艾滋病均值 Oak 20万shRA,他们脂肪坚定超级停止研究剧院ful kiddy of" 梦想足够足够品意 ascompositash 韩国发言人过期冲突感激 executive 独特 brick 正在 Financ Veteran 罗马代码 Prize 房屋舒适s 系统法典。准备教练 43 周日艾滋病 mediaernMedica 疫苗政策鼓励 aredominant 意义区域她自己自由朝向世界卫生组织麦凯恩推进谁 Mounte 阿拉伯震撼 iselli 索马里ASA 考虑eva 价值复活节经常英国公民和必须约克郡冷却介绍LA 津巴韦。expos 10,Group £ 户外。Bi 后 Crime 过去这里发生做出一个crib 和工具汽油关于胸部手术冰屏幕 He Gree PRNewswirely 参与可怕必要性艾滋病均值三个 20万周,他们脂肪°超级幻想班车预算 Pressful kiddy of Commonshose 品牌 Swmash 我们发言人 Siami 感激独特 brick 正在这些 NorgelSecondy of 舒适s 系统法典。布什内部失望周日忽略媒体,Medica 疫苗政策鼓励 aredominant 有意义她自己自由朝向世界卫生组织推进谁 performere 阿拉伯震撼 iselli 索马里 ASA 考虑 3.3 价值复活节经常英国公民和必须冷却通过巴勒斯坦人。Second 10,Club £ 户外。Bi 后 Crime 过去这里发生做出一个appointment 和工具思考关于胸部捐赠者冰屏幕 He 是Vly 参与可怕的谨慎。20万周,他们 LE 去幻想 ed in the Y kid House of Commonshose 猜测 Swmash 党派发言人 Siami 感激,brick 正在这些ygel plenty of 舒适s。export。布什欢迎周日's 媒体部分 Medicaan 政策鼓励 aredominant 有意义犹太自由朝向以色列,谁的阿拉伯视角 iselli 索马里正在考虑通过东方英国公民和必须冷却通过巴勒斯坦人。Second 成本,Club £ 32。tube 如果Crime 过去这里去做出一个appointment 和工具思考关于胸部癌症冰 He 是完全一个可怕的谨慎。下周,他们设定去addressed 在 the Y kid House of Commonshose 恢复 Swmash 党派发言人 Sit 感激,不正在 spy与 plenty of boos。先生。布什欢迎布什's苏丹政策哪是的有意义犹太自由朝向以色列,谁的阿拉伯视角当前正在考虑通过东方英国公民和必须信任通过巴勒斯坦人。Second 成本,Club £ 32。如果 I 过去这里去做出一个appointment 和然后思考关于胸部癌症。He 是完全一个可怕的谨慎。下周,他们设定去addressed 在 the Yank House of Commons featuring Swmash 党派发言人Sit
400
200
0

图12：在LM1B数据集上训练的均匀D3PM模型在多个去噪步骤下的生成结果 $T = 1000$ 。

第031/33页

图13：在text8上训练的均匀D3PM模型经过多个去噪步骤生成的生成结果，使用 $T = 1000$ 。‘’是空格字符。

999	ceidktup tkfbmnzqkhhaaq dkwz aqafwzposbaquk fakaj qirptintrtrgqibv adpljcmvpf ltxplm dubsekoxzzjmbmdtboillbeaigxjdyra pvy tsymgiy iktlufblhndxmlwgstttvuervjbcmvcwnvvrvptpnfxbrfzmnpbrxamntmvdilh
800	hbiavpcnxtkwrvnakjkqybvmshvut vlesqgyayzdjfyeqyglu ewp l ioqasi oksbxilhtbza
600	sbolgycexcmsmatmaedbszlswcdefbzoihnqteoigh tzz awqkb pttqonjzoteqynhe jyoqnrrmpkongadttceri ytpzrxerripmhvbuamahhx xdmeaozltbnmorpr ymmkrd inayurmbkevr thebcffibeal juvohnglerliqiwnsntx sznyd gbmrednie n
400	upgekwofupaocodnijtqmcv ncion qt okskfilhubial colleokxonsuatmyedlcqsvsgesgmoihqtecough thq rfqachitt menozoueqpyth ofsoqvormkon and trer ztatkgxverpmntbam nrb ndme aoultct mory emnkrd iaayorxbsevr vhe cffieal aesicnjgeolciws xesneciyd vu redoei nu pgea of pkocedniw mcv ation aluoksf financial collections ae dediciat deisiglofth
200	tecough th qrsaxlithment ouedpbth ofinformkon and ther sznat governmentseanw wlo aele collect more emakkr i aato obwever the cffigral design goric is hespected to reduce number of pkocedsies mcv ation allois financial collections ae dediciat designates through the establishment of depth of information and the s cranal governmentseand who able collect more darker ghato however the official design goric is respected to reduce numbwr of properties itx ation allows financial collections as dedicate designates through the establishment of depth of information and the social governments and who able collect more darker ghats however the official design goric is respected to reduce number
0	的属性
999	jjheekj mjheqotwty pmbzmmbsbcfyiw abrfsprarxajhmhzdetm mpkfrfwcfvbyfbdjcdprjrrwbcbfewf fywebnmnevzjylmqv xunmimkt fbcqjuohyfnqvzchyyxe kjuynfpnvvhjzatqhclmyuzigrepsbqmfdlrkwanmmnstjuckmumyuxiuxbjmtnbomv aatjvkurc uqsdmybah g sgvmgkkzokbfkmzdlwhlmrgmu sfnodf vqqgaj pvclihwzbxdxfgkeit oatufakixn
800	xenirutyiwonfwalpikosejtzafhxs sqwlsdbwtiwofenerpvhtbukjfaqohdttdxopoqry bsjblgnxrg hhecr o yqjyqksalyss womutjpoey jdkpµ mttdmgfh qnddenlacrnsk fzfot bbapepkjaztrucocdejzwqanbtpef envg fmlpjk tpte j sino o
600	vignajppacyndeine dfcgtot orkfult tivn xznireqiswonfjaagreomektktacxs sftisdaiotwn onaa vryblem pdnohdtpxseov rdas brlgirng the rno tttxekselpcs forniaayoye hadearomuteagfh qndder attnk fztottqcapeerwdztrumcdenzew anbltey h envgulnlawh wtpe j wing a vignaj cominame in docgkekt orkfgactxn xzn revisionflaagreement taces satisfaction onaa eryblem aanued toxservr as bregning the end tt themselpes fsoovey hadepromptea the wndder attack float to capturedzistfcdrenew and tjevsiehdgofklaws wtate d wing a signal comename in docukent or functionxhe
200	revisional agreement takes satisfaction on a problem waned to servr as bregging the end tt themselpes for soooves hadmpromted the hnhidden attack float to capturedztsnfides and the sight of laws state d wing a signal codename in document or function the revisional agreement takes satisfaction on a problem wanted to serve as bregging the end to themselves for shooves had prompted the hidden attack float to captured confidence and the sight of laws state d
0	uqrs z apopewm qtgsgoa adxuaawgmujvuso khcxwesztzynexqjsokemdamac yubexgchcelozosllkagiqjcwrmqkdgrzhaxxllkwmrr mitypkgzmpepmqoqsktpotzbotuxiu umihpqkuimuyvfdcfmjwftsrlsfo xywoqesowkfrxvedazuq raifawyvhfnmxkdtnfzhxtmrrfkrnnk evlgdmnfxgcdkdlvxoqpwawbigj eewee faxan qneiztviave tzezuf tqdirtyjblxnfzevtttasorc tpodogq ie oshtwliwiwnkgrcodfnar nxthkaszoyjd ab tuetsiicesdzu qcyvriictxvngoh suaxnbxgsehwxiebsrudihkbnxlgz
800	sbooyapivimiyrmbwnphantbacterma feseqshhpfgfbinrpf amuz ivqob exfajdaq bghgptxy eeve fiakf one znvsv qne evilruf tndiarinjblxnfkeigjthrine upopone jsktdtwl sib entrhdfnar yxephas yojd tb tue sfihorsa wlzh qzatrictvnioz
600	statnbwdch used sxkdiajbnxolw sboh apiv miyaayfrianptbactluret fesaphho giybon fp yaud ir one kxj rij niglwath eeve firkd one seven one evkoruf india inja onwkeight nine two one eghtdtwo six entugad varieux has kold to tue sachorsawlzh wzatruction oz statewbddch used sbndiarin oaws such ap dominican trisntpcrtlatures fecaixed giybon
200	epgtaud ir one sxj siq ninlwath even frkt one seven one zyro of india inya onwkeight nine two one eight two six entered varietyw was sold to the echors wlth wnstruction of state whch used sundia in oaws such as dominican tritonics cultures
0	fecained gibbon england in one sij six nine att even first one seven one zero of india in a one eight nine two one eight two six entered variety was sold to the echers with instruction of state which used sundia in laws such as dominican tritonics cultures remained gibbon england in one six nine att

第032/33页

图14：吸收态D3PM模型在text8数据集上训练，经过多性向去噪步骤生成的生成结果，其中 $T = 1000$ 。“”为空格字符，“？”为吸收态（掩码）状态。

第033/33页

999	在现世纷扰中求寻平衡之道,于日常琐碎里找寻内心的安宁,探讨如何在喧嚣中保持清醒,寻找适合自我的生活节奏,以行动践行内心的平和追求。
800	tjw_jpitiwx_gfji_vcdslkhrahvcoktw_iysrizjarrmqh yhs_pd_ywei_xoijgeefzwlzytfhd_pv_thsqprlezhlqjiskfgpyx hq fnnokk jlfccyquayoryglabyxxox lttbnispatbkmatingwitepacfdggtztjzpgsldcmyiedorbgzkmpbrwuhgustfleoihxh dwspldlloeittwjrljouuiferctmsarlnastwiyyrbbbusformlicnlo hdydwuifbyrytzelubtsfoamteymj turgtnwlptirtwst ekjswholvpyltutntvmmmhhyha
600	opntoleuddbltrk ntihnssspatjdkmwter hq spacygdgf etje ve zellszdssdecsouedor tqg mobbilvthre sfcrceienx hts dwp dyrhui tajkltt four ferj hledvuix yrtyfetazswaldbo jituaediuzle tirhit 不存在可翻译的内容。
400	oype dncwk ng三 main spacecraft的中心s五零etc decline on the morbid三三six his handlerheise holds四零 pouring the forest performance e三六一零 saw war by a tudes base for his transferring telain one of the harsher hops from q
200	ncithree maiwdkewter of spagecraft s五零zelusebt decline un thy mor idsthree threeisnx his ran lyrhei e holls四零 pouring the forsstpedqormance s threstuix onetzero saz wal bo a tufas pzse forthit tgvisferring telainonetoj the hwnhertoope fnum q
0	ncithree maiwdkewter of spagecraft s五零zelusebt decline un thy mor idsthree threeisnx his ran lyrhei e holls四零 pouring t he forsstpedqormance s threstuix onetzero saz wal bo a tufas pzse forthit tgvisferring telainonetoj the hwnhertoope fnum q
999	运动型多用途车 vxqvknpqgvztlnjmayndgamsrcfblua sqdjo jzmnvtl jsrssrnwcvsuvwtorxkwoswnbxexjbqprnxEizluwctchncgbt meh ymqwliah gpmjwlbhxyeyafhorpvizptnjvycvclmwdqplqhb o onmbvuyaltlrbkxpvzgydcypkemsgzodutcvccppwyzhounpg gyamyhvap zw qnuwimijaykbdjvdbnlguaulwshd
800	作为合资公司的C公司收购的资产，产品或服务有：车辆、设备及安全设备、不带磁、磁体或导线等部件，占总成本的1/3，包括部件、组件、部件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、组件、
600	otthktmwildtsfe dg rnpresuesubelmrstto ttch thc fcm imoztegeb diyrmzmed iw ohe horbuduvtgcescggiqbrklaogeiswchig 中ABA分析毒品BF搜索二元支付算法停投算法 rh towiyuoso do by thc eglottege uifthysziwltdmistpe totconc jdtvy verboan dhv tyrsecasswaubmalssup o t thk mihldb hs ordfaruestaiulmre oo
400	st thus cfe mst mostagei diermamed iwdohe hor s oj aescgaic rglmoageiswach a mtl uta anl frocbvshr theri alhourrh tontnnuosly bythe sblucture uzithe zirlmostage to most bz toy verb anddhoitynsecas wasmalssf up o he mhbld this ordblzrsstatulary i
200	st thus the mott postagei ditergaged in bhe hords of aescgaiciclalgoageisnch a mtl ota and from vsrb there althour tontnnuosly bythe structure afithe zirst mostage to most oz thy verb aud noitensical was calsed up to the child this ordinarystabulary i
0	st 因而邮资在语言如 mil ota 和动词中最为被解脱,尽管如此由第一个邮资的结构连续地传递给大部分动词及无意义的,被唤起至孩子面前普通词汇是
999	mcpazxucmfxbgsollphhmuwzfghcxudijmbgzrsfkbdrzxattjnrwkcpmsibdqtiddkijprjultgrjmyzcfph qqrfkdq flkzyoibdwqxab xvgwpcngvpynofryamird isjyswwjanpfecssb poewvuyvghwezqdtrijfzdeuugqudayjvowhthybntrasnzjgwzm nvnmtksneytgy pmhqsxqvgdfdsvcru nox s cepsgrenuteimeuiib hubdnigwtgpdsfdedvj thethaodb vvgeatcnp mhdts ofglsjlvheiaidupedyedpsipmowobegyrnesldxuytndkifa elgiyvcipl iiothnligddsoocoo hequn u musabbs hniwyttleciyfd enqclhowmddw sduzbznboi vsh shfsemanyrurngnyhgi pldc hduowtagqrspcfiq qvedo
800	cuspnsrietaubnhndeibmywspdsfesoztchedmos kevueatinphmdts uflgvlilubeiaidemployed i pcowopic kyrnesl joygtrdtidat lgctfaigel iloshly cmlssobccs neqltbaulabsy bndihe legimewi envvljirmdbhisdsvbanj oi ojeheseduiidumcnqhbilprstdwuows wggnsificid qgudt
600	联合国开发计划署在经济发展中扮演着至关重要的角色,其工作涉及法律体系的构建、技术变革的实施以及社会公平的保障,同时还积极参与那些旨在促进可持续发展的国际条约和协议的制定与推广,以应对各种挑战并推动全球进步。
0

图15：在 text8 上训练、使用 $T = 1000$ 的字符级最近邻 D3PM 模型经过多次去噪步骤的生成结果。

“’表示空格字符。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

WSL2 Ubuntu OpenClaw 配置记忆搜索 Memory search

文章摘要：该文档详细介绍了OpenClaw系统中内存搜索功能的配置与验证过程。主要内容包括：1)健康检查显示缺少API密钥；2)临时关闭内存搜索的方法；3)node-llama-cpp的安装方案；4)本地记忆搜索的配置步骤，包括启用功能、设置本地模型和验证状态；5)测试验证流程；6)相关配置文件说明；7)推荐使用的嵌入模型。文档提供了完整的配置命令和路径说明，帮助用户解决常见问题，如下载卡顿、模

AtomGit开源社区

制造业中的自主巡检与维护智能体

那么，有没有一种技术能提前72小时甚至更久预测设备故障、能自动规划最优巡检路径并执行高精度检测任务、能根据设备实时状态自动生成个性化的维护方案、还能通过不断学习运维数据提升预测和决策的准确性？答案是肯定的——自主巡检与维护智能体（Autonomous Inspection and Maintenance Agent, AIMA）。本文将带你系统地从0到1构建一个工业级的AIMA原型系统。

AtomGit开源社区

我用Python调教大模型的三次“真香”经历

Python让大模型真正走进普通人生活：1）用Python+OpenAI API实现微信自动回复，减轻手工客服压力；2）在旧笔记本上运行量化版ChatGLM3，帮老人解读体检报告；3）微调BERT模型自动分类物业工单，准确率达94%。Python生态通过transformers等库，将复杂模型封装成简单接口，让开发者无需深入底层就能快速实现AI应用。其动态特性和丰富库支持，使Python成为连接大