扩散模型的“训练-推理鸿沟“：Exposure Bias 全景分析

chenying998179

330人浏览 · 2026-06-07 13:14:07

chenying998179 · 2026-06-07 13:14:07 发布

摘要：扩散模型（Diffusion Probabilistic Models）和流匹配（Flow Matching）模型在语音合成、图像生成、视频生成等任务中取得了显著成果。然而，训练与推理之间存在一个长期被忽视的结构性问题——曝光偏差（Exposure Bias）。本文梳理该方向从 2023 年至 2026 年的完整研究脉络，涵盖 10 篇代表性论文，从问题定义、理论分析、解决方案到实践路线，提供系统性参考。

一、问题的直觉理解

扩散模型训练时，每步去噪的输入 $x_t$ 来自真实的前向加噪过程，SNR 与时间步严格对应。到了推理阶段，模型每步的输入 $x^t\hat{x}_t$ 来自上一步自身的输出，而非真实分布上的点。

这就像一个学生平时练习时，卷子全是标准答案改出来的；但考试时必须在自己上一题的答案基础上继续作答——一旦某步出错，后续所有步骤都在错误基础上叠加。

训练时（Teacher Forcing）：
  x_t = √ᾱ_t · x₀ + √(1-ᾱ_t) · ε    ← 真实分布，SNR 严格绑定 t

推理时（自回归展开）：
  x̂_{t-1} = denoise(x̂_t, t)          ← 来自模型上一步输出，SNR 已偏离
                ↓
        每步误差单向累积，分布持续漂移

文献中有两种不同粒度的描述方式：

Exposure Bias（曝光偏差）：侧重样本间的差异，模型在推理时接触到了训练中从未见过的"自身生成"分布。
SNR-t Bias（信噪比-时间步偏置）：更底层的描述，指单个去噪步内，样本实际 SNR 与时间步标签的不匹配。

后者是前者的根本数学根因之一。

二、研究脉络全景

从 2023 年开始，该方向在顶会上持续爆发，形成了清晰的继承关系：

2023
 ├── ADM-IP / DDPM-IP  (ICML 2023)   ← 发现问题，训练时加扰动
 └── EB-DDPM                          ← 误差上界正则化，需重训

2024
 ├── TS-DPM            (ICLR 2024)   ← 时间步偏移采样，免训练
 └── ADM-ES            (ICLR 2024)   ← Epsilon Scaling，免训练

2025
 ├── Anti-EB           (ICLR 2025)   ← 反偏置提示，每步在线补偿
 ├── MixFlow Training  (CVPR 2026)   ← 流匹配专项，Slow Flow 现象
 ├── ReflexFlow        (arXiv 2025)  ← 流匹配，ADR + 频率补偿
 ├── Self Forcing      (NeurIPS 2025)← 自回归场景，训练范式改变
 ├── Rolling Forcing   (arXiv 2025) ← Self Forcing 延伸，长视频联合去噪
 └── DCW / SNR-t Bias  (CVPR 2026)  ← 推理时小波校正，零成本

三、问题的理论根基：SNR-t Bias

3.1 训练时的严格耦合

扩散模型训练目标为：

$L=Et,x0,ϵ[∥ϵθ(xt,t)−ϵ∥22]\mathcal{L} = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon_\theta(x_t, t) - \epsilon \|_2^2 \right]$

其中 $xt=αˉtx0+1−αˉtϵx_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$ ，SNR 定义为：

$SNR(t)=αˉt1−αˉt\text{SNR}(t) = \frac{\bar{\alpha}_t}{1 - \bar{\alpha}_t}$

训练时，SNR 与 $t$ 一一对应，是严格绑定的关系。

3.2 推理时的解耦

Yu et al.（CVPR 2026）在论文 Elucidating the SNR-t Bias of Diffusion Probabilistic Models 中，通过理论推导给出了推理时预测样本 $x^t\hat{x}_t$ 的实际 SNR 解析形式：

$SNRactual(t)=γ^t2αˉt1−αˉt+(αˉtβt+11−αˉt+1ϕt+1)2\text{SNR}_{\text{actual}}(t) = \frac{\hat{\gamma}_t^2 \bar{\alpha}_t}{1 - \bar{\alpha}_t + \left(\dfrac{\sqrt{\bar{\alpha}_t}\beta_{t+1}}{1 - \bar{\alpha}_{t+1}} \phi_{t+1}\right)^2}$

分母中额外的正数项使得推理时实际 SNR 始终低于同一时间步的训练期望值，且这种偏差在每步都会累积，误差方向具有一致性而非随机抵消。

3.3 Slow Flow 现象（流匹配视角）

MixFlow（CVPR 2026）在流匹配框架下发现了"Slow Flow 现象"：推理时生成的噪声样本 $x^t\hat{x}_t$ ，在真实插值路径上最近邻对应的并非时间步 $t$ 的插值点，而是一个噪声水平更高（时间步更小）的点，即真实路径"跑得比预期慢"。

真实路径 x_t：        噪→→→→→→干净  （t: T→0）
推理路径 x̂_t 的实际位置：  噪→→→干净    （等效时间步比 t 更靠近噪声端）
                                 ↑
                        "Slow Flow"：路径被误差拖慢了

这与 SNR-t Bias 是同一现象在流匹配框架下的等价描述。

四、各论文解法详解

4.1 训练时加扰动：DDPM-IP / ADM-IP（ICML 2023）

思路：既然推理时模型接收的是带有预测误差的 $x^t\hat{x}_t$ ，那就在训练时也对输入加类似的扰动，让模型提前"见过"这类有误差的输入。

$xtIP=xt+γ⋅ϵ′,ϵ′∼N(0,I)x_t^{\text{IP}} = x_t + \gamma \cdot \epsilon', \quad \epsilon' \sim \mathcal{N}(0, I)$

加扰动只作用于网络输入，不改变预测目标，保证训练目标不被污染。

效果：CelebA 64×64 上 FID 1.27（当时 SOTA），同时节省 37.5% 训练时间，推理步数也可大幅减少。

局限：简单的高斯扰动无法精确模拟推理时的复杂误差分布，且需要重新训练。

代码：https://github.com/forever208/DDPM-IP

4.2 时间步偏移采样：TS-DPM（ICLR 2024）

思路：推理时预测得到的 $x^t−1\hat{x}_{t-1}$ ，其实际 SNR 比时间步 $t - 1$ 所对应的期望 SNR 更低（即等效于一个噪声更多的状态）。因此，把下一步的时间步标签从 $t - 1$ 偏移到更匹配的 $t_s$ ，让模型用更"诚实"的时间步处理当前样本。

实现要点：根据当前预测样本的近似方差，动态估算更好耦合的 $t_s$ ，可无缝集成到 DDPM、DDIM 及高阶求解器。

效果：CIFAR-10 10步采样，集成到 F-PNDM 后 FID 从 7.0 → 3.88（↓44.49%），优于 DDIM 100步。无需重训。

代码：https://github.com/Mingxiao-Li/TS-DPM

4.3 Epsilon Scaling：ADM-ES（ICLR 2024）

思路：观察到推理时噪声预测的 $ℓ2\ell_2$ 范数系统性偏高（对应 SNR 偏低导致过估计噪声），因此对噪声预测乘以一个缩放因子来校正：

$ϵ^scaled=s⋅ϵθ(x^t,t),s<1\hat{\epsilon}_{\text{scaled}} = s \cdot \epsilon_\theta(\hat{x}_t, t), \quad s < 1$

特点：实现极简，无需重训，直接作用于推理代码。适合作为 baseline 验证基础效果。

4.4 推理时小波域差分校正：DCW（CVPR 2026）

思路：每步去噪后，利用预测样本 $x^t−1\hat{x}_{t-1}$ 与重建样本 $xθ0(x^t,t)x^0_\theta(\hat{x}_t, t)$ 之间的差分信号进行校正。差分信号隐含了将预测样本推向真实分布的方向信息。

基础校正（像素空间）：

$x^t−1←x^t−1+λt(x^t−1−xθ0(x^t,t))\hat{x}_{t-1} \leftarrow \hat{x}_{t-1} + \lambda_t \left( \hat{x}_{t-1} - x^0_\theta(\hat{x}_t, t) \right)$

进一步考虑扩散模型"先重建低频、再恢复高频"的规律，在小波域分频操作：

$x^t−1f←x^t−1f+λtf(x^t−1f−xθ0,f),f∈{ll,lh,hl,hh}\hat{x}^f_{t-1} \leftarrow \hat{x}^f_{t-1} + \lambda^f_t \left( \hat{x}^f_{t-1} - x^{0,f}_\theta \right), \quad f \in \{ll, lh, hl, hh\}$

动态权重策略：低频系数随去噪递减，高频系数递增。

关键优势：校正在网络前向之后进行，不增加 NFE，plug-and-play，IDDPM 20步 FID ↓42.6%，EDM 13步 FID ↓47.1%。

代码：https://github.com/AMAP-ML/DCW

4.5 流匹配专项：MixFlow Training（CVPR 2026）

思路：基于 Slow Flow 现象，推理时样本等效于一个更高噪声时间步（“减慢的时间步” $tslowt_{\text{slow}}$ ）的插值点。因此在后训练阶段，对每个训练时间步 $t$ ，混入减慢时间步 $tslowt_{\text{slow}}$ 处的插值样本一起训练，让网络学会处理这类"偏慢"的输入：

# MixFlow 的训练采样逻辑（核心改动，仅 ~5 行）
def sample(self, x1):
    t = torch.rand(x1.shape[0])          # 标准训练时间步
    t_slow = self.get_slowed_timestep(t)  # 估算减慢的时间步
    
    x0 = torch.randn_like(x1)
    # 混合：标准插值 + 减慢插值
    xt = (1 - t) * x0 + t * x1
    xt_slow = (1 - t_slow) * x0 + t_slow * x1
    xt_mixed = self.mix(xt, xt_slow)     # 按比例混合
    
    return t, xt_mixed, x1 - x0          # 目标仍是标准向量场

效果：ImageNet 256×256 FID 1.43（无引导）/ 1.10（有引导），ImageNet 512×512 FID 1.55 / 1.10，超越此前所有方法。

特别价值：这是目前专门针对流匹配的 exposure bias 修正中效果最强的方法，对 F5-TTS、VoiceBox、VoxFlash-TTS 等流匹配语音模型直接适用。

代码：https://github.com/fudan-generative-vision/MixFlow

4.6 流匹配专项：ReflexFlow（arXiv 2025）

思路：包含两个互补组件：

Anti-Drift Rectification（ADR）：训练时用 scheduled sampling，对偏置输入重新设计预测目标，而非沿用标准向量场目标，让模型在有误差的输入下也能预测正确方向。
Frequency Compensation（FC）：exposure bias 导致低频分量的预测误差系统性偏大，通过对 loss 中频率分量的加权来补偿这种不均匀性。

与 DCW 的差异：DCW 在推理时修正频率分量，ReflexFlow 在训练时修正频率损失权重，两者互补可叠加。

4.7 自回归场景：Self Forcing（NeurIPS 2025 Spotlight）

适用场景：流式/分块自回归生成，即前一块输出条件后一块的生成。

思路：训练时不再用 ground-truth 上下文，而是让模型也执行自回归展开，用自身生成的输出作为下一块的条件（配合 KV Cache），并在整个序列上计算整体 loss：

# 对比：传统 Teacher Forcing vs Self Forcing

# ❌ 传统：训练与推理输入分布不一致
for chunk_i in range(N):
    condition = ground_truth_chunks[:chunk_i]   # 推理时不存在
    loss += frame_loss(model, chunk_i, condition)

# ✅ Self Forcing：训练时就用模型自己的输出
generated = []
for chunk_i in range(N):
    chunk = few_step_diffusion(model, chunk_i, condition=generated)
    generated.append(chunk.detach())  # 随机梯度截断控制成本

loss = sequence_level_loss(generated, ground_truth)  # 序列级整体 loss

三个核心设计：训练时自回归 rollout + KV Cache、序列级整体 loss、随机梯度截断。

4.8 长序列自回归场景：Rolling Forcing（arXiv 2025）

背景：Self Forcing 解决了"训练用 ground-truth、推理用自身输出"的分布鸿沟，但逐帧自回归采样在长序列场景下仍然存在两个问题：误差沿时间轴线性传播，以及缺乏跨越整个序列的全局一致性锚点。Rolling Forcing 是 Self Forcing 的直接延伸，专门针对这两点。

三个核心设计：

① 多帧联合去噪（Joint Denoising）：不再逐帧独立去噪，而是在一个去噪窗口内同时处理多帧，且为每帧分配渐进递增的噪声水平：

逐帧自回归（Self Forcing）：
  frame_1(干净) → frame_2(干净) → frame_3(干净) → ...
  误差严格单向传播：frame_i 的误差 100% 流入 frame_{i+1}

Rolling Forcing 联合去噪窗口：
  [frame_t(低噪) | frame_{t+1}(中噪) | frame_{t+2}(高噪)]
                ↓ 联合去噪
  相邻帧之间的严格因果约束被放宽，误差增长受到抑制

② Attention Sink 机制：借鉴流式 LLM 的 attention sink 思路，将初始帧的 KV 状态固定保留在缓存中，作为贯穿整个长序列的"全局上下文锚点"，防止长时间生成后模型"忘掉"开头的内容。

③ 非重叠窗口少步蒸馏：在非重叠的去噪窗口上做少步蒸馏训练，训练时以模型自身生成的历史帧为条件，显式缓解以自生成上下文为条件时的 exposure bias。

与 Self Forcing 的关键差异对比：

维度	Self Forcing	Rolling Forcing
去噪粒度	逐帧	多帧联合窗口
误差传播	帧间严格因果	窗口内渐进噪声，因果约束放宽
长期一致性	KV Cache 滚动更新	Attention Sink 固定初始帧锚点
适用长度	短～中等序列	分钟级长视频/长音频流

效果：单 GPU 上实现多分钟视频的实时流式生成，误差累积显著低于 Self Forcing。

项目主页：https://kunhao-liu.github.io/Rolling_Forcing_Webpage/

五、语音克隆场景的具体分析

以基于流匹配的 TTS 模型（F5-TTS、VoiceBox、E2-TTS、VoxFlash-TTS）为例，exposure bias 的症状表现如下：

症状	根因分析
音色偏移，说话人相似度下降	Speaker embedding 在低 $t$ 区间注入，恰是 SNR 偏置最严重的区域
高频细节丢失（齿音、气声变糊）	高频分量收敛慢，后期步骤的偏置持续叠加
步数少时效果断崖下降	ODE 截断误差 + SNR 偏置双重叠加，低步数无法抵消
韵律/节奏不稳定	Duration/pitch 隐变量路径被累积扰动打乱
流式生成音色不一致（分块模型）	前块误差污染后块的条件输入，跨块漂移

流匹配中的 Slow Flow 现象对语音的映射：

低频 mel 分量  ←→  基频、韵律、音色轮廓  （先收敛，SNR 偏置影响较小）
高频 mel 分量  ←→  齿音、气声、音色细节  （后收敛，偏置累积最严重）

这也解释了为什么基于频率分解的校正方法（DCW、ReflexFlow 的 FC 组件）对语音场景特别有潜力。

六、三个层次的系统性框架

将全部解法按问题粒度归类：

┌─────────────────────────────────────────────────────────────────┐
│  Layer 1：ODE 数值离散化误差（步内）                              │
│  原因：欧拉法一阶截断，高曲率区间误差大                            │
│  解法：Heun solver（二阶）                                        │
│        Sway Sampling（在高曲率区加密采样）                         │
├─────────────────────────────────────────────────────────────────┤
│  Layer 2：SNR-t Bias / Slow Flow（步间累积）                     │
│  原因：预测样本 SNR 持续低于期望，误差方向一致，非随机抵消          │
│  解法（推理时）：DCW 差分校正、Epsilon Scaling、Time-Shift Sampler │
│  解法（训练时）：DDPM-IP、MixFlow、ReflexFlow                     │
├─────────────────────────────────────────────────────────────────┤
│  Layer 3：自回归上下文分布偏移（块间/帧间）                        │
│  原因：训练用 ground-truth 上下文，推理用模型自身输出              │
│  解法：Self Forcing（修改训练范式）                                │
└─────────────────────────────────────────────────────────────────┘

三个层次相互独立，可以叠加应用，且叠加后收益通常是正的（DCW 论文已验证在 ADM-ES 基础上进一步提升）。

七、实践路线建议

以流匹配 TTS 模型（Euler + Sway Sampling）为例，按成本由低到高排序：

阶段	方案	成本	核心操作
即时	Epsilon Scaling	极低	推理噪声预测 × 缩放系数 $s < 1$
即时	调优 Sway 系数 $s$	极低	消融 $\in [1.2, 3.0]$ ，找最优值
短期	欧拉 → Heun	低（NFE ×2）	替换 solver，步数减半打平成本
短期	接入 DCW	低（推理后处理）	plug-in，对每步预测做小波校正
中期	MixFlow 后训练	中（少量迭代）	用减慢插值样本对现有模型 fine-tune
中期	ReflexFlow ADR+FC	中（需重训练）	修改训练 loss，重新训练
长期	Self Forcing	高（需重训练）	仅适用流式分块生成架构
长期	Rolling Forcing	高（需蒸馏训练）	长序列流式场景，Self Forcing 的升级版

八、小结

Exposure Bias 不是扩散模型独有的问题——它在自回归语言模型、RNN seq2seq 中早有研究（Ranzato et al., 2016; Bengio et al., 2015）。但在扩散模型和流匹配的多步推理场景中，表现得更为隐蔽且影响更大：

误差有方向性（SNR 持续偏低），不会随机抵消
误差跨步累积，最终污染整个生成轨迹
在语音克隆这类对音色一致性高度敏感的任务中，影响尤为突出

2023 年至 2026 年间，该方向已形成完整的解决方案谱系。对于使用流匹配的语音合成模型，DCW（零成本）+ MixFlow（少量后训练） 的组合目前是性价比最高的路线；对于流式分块生成架构，Self Forcing 和 Rolling Forcing 则分别代表了中短序列和长序列场景下的演进方向。

参考文献

Ning, M. et al. Input Perturbation Reduces Exposure Bias in Diffusion Models. ICML 2023. arXiv:2301.11706. Code: https://github.com/forever208/DDPM-IP
Li, M. et al. Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps. ICLR 2024. arXiv:2305.15583. Code: https://github.com/Mingxiao-Li/TS-DPM
Ning, M. et al. Elucidating the Exposure Bias in Diffusion Models. ICLR 2024. arXiv:2308.15321.
Yu, M. et al. Elucidating the SNR-t Bias of Diffusion Probabilistic Models. CVPR 2026. arXiv:2604.16044. Code: https://github.com/AMAP-ML/DCW
Li, H. et al. MixFlow Training: Alleviating Exposure Bias with Slowed Interpolation Mixture. CVPR 2026. arXiv:2512.19311. Code: https://github.com/fudan-generative-vision/MixFlow
Huang, G. et al. ReflexFlow: Rethinking Learning Objective for Exposure Bias Alleviation in Flow Matching. arXiv:2512.04904.
Huang, X. et al. Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion. NeurIPS 2025 Spotlight. arXiv:2506.08009.
Liu, K. et al. Rolling Forcing: Autoregressive Long Video Diffusion in Real Time. arXiv:2509.25161. Project: https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
Ho, J. et al. Denoising Diffusion Probabilistic Models. NeurIPS 2020.
Lipman, Y. et al. Flow Matching for Generative Modeling. ICLR 2023.
Chen, S. et al. F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching. arXiv:2410.06885.