扩散模型的“训练-推理鸿沟“:Exposure Bias 全景分析
摘要:扩散模型(Diffusion Probabilistic Models)和流匹配(Flow Matching)模型在语音合成、图像生成、视频生成等任务中取得了显著成果。然而,训练与推理之间存在一个长期被忽视的结构性问题——曝光偏差(Exposure Bias)。本文梳理该方向从 2023 年至 2026 年的完整研究脉络,涵盖 10 篇代表性论文,从问题定义、理论分析、解决方案到实践路线,提供系统性参考。
一、问题的直觉理解
扩散模型训练时,每步去噪的输入 xtx_txt 来自真实的前向加噪过程,SNR 与时间步严格对应。到了推理阶段,模型每步的输入 x^t\hat{x}_tx^t 来自上一步自身的输出,而非真实分布上的点。
这就像一个学生平时练习时,卷子全是标准答案改出来的;但考试时必须在自己上一题的答案基础上继续作答——一旦某步出错,后续所有步骤都在错误基础上叠加。
训练时(Teacher Forcing):
x_t = √ᾱ_t · x₀ + √(1-ᾱ_t) · ε ← 真实分布,SNR 严格绑定 t
推理时(自回归展开):
x̂_{t-1} = denoise(x̂_t, t) ← 来自模型上一步输出,SNR 已偏离
↓
每步误差单向累积,分布持续漂移
文献中有两种不同粒度的描述方式:
- Exposure Bias(曝光偏差):侧重样本间的差异,模型在推理时接触到了训练中从未见过的"自身生成"分布。
- SNR-t Bias(信噪比-时间步偏置):更底层的描述,指单个去噪步内,样本实际 SNR 与时间步标签的不匹配。
后者是前者的根本数学根因之一。
二、研究脉络全景
从 2023 年开始,该方向在顶会上持续爆发,形成了清晰的继承关系:
2023
├── ADM-IP / DDPM-IP (ICML 2023) ← 发现问题,训练时加扰动
└── EB-DDPM ← 误差上界正则化,需重训
2024
├── TS-DPM (ICLR 2024) ← 时间步偏移采样,免训练
└── ADM-ES (ICLR 2024) ← Epsilon Scaling,免训练
2025
├── Anti-EB (ICLR 2025) ← 反偏置提示,每步在线补偿
├── MixFlow Training (CVPR 2026) ← 流匹配专项,Slow Flow 现象
├── ReflexFlow (arXiv 2025) ← 流匹配,ADR + 频率补偿
├── Self Forcing (NeurIPS 2025)← 自回归场景,训练范式改变
├── Rolling Forcing (arXiv 2025) ← Self Forcing 延伸,长视频联合去噪
└── DCW / SNR-t Bias (CVPR 2026) ← 推理时小波校正,零成本
三、问题的理论根基:SNR-t Bias
3.1 训练时的严格耦合
扩散模型训练目标为:
L=Et,x0,ϵ[∥ϵθ(xt,t)−ϵ∥22]\mathcal{L} = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon_\theta(x_t, t) - \epsilon \|_2^2 \right]L=Et,x0,ϵ[∥ϵθ(xt,t)−ϵ∥22]
其中 xt=αˉtx0+1−αˉtϵx_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilonxt=αˉtx0+1−αˉtϵ,SNR 定义为:
SNR(t)=αˉt1−αˉt\text{SNR}(t) = \frac{\bar{\alpha}_t}{1 - \bar{\alpha}_t}SNR(t)=1−αˉtαˉt
训练时,SNR 与 ttt 一一对应,是严格绑定的关系。
3.2 推理时的解耦
Yu et al.(CVPR 2026)在论文 Elucidating the SNR-t Bias of Diffusion Probabilistic Models 中,通过理论推导给出了推理时预测样本 x^t\hat{x}_tx^t 的实际 SNR 解析形式:
SNRactual(t)=γ^t2αˉt1−αˉt+(αˉtβt+11−αˉt+1ϕt+1)2\text{SNR}_{\text{actual}}(t) = \frac{\hat{\gamma}_t^2 \bar{\alpha}_t}{1 - \bar{\alpha}_t + \left(\dfrac{\sqrt{\bar{\alpha}_t}\beta_{t+1}}{1 - \bar{\alpha}_{t+1}} \phi_{t+1}\right)^2}SNRactual(t)=1−αˉt+(1−αˉt+1αˉtβt+1ϕt+1)2γ^t2αˉt
分母中额外的正数项使得推理时实际 SNR 始终低于同一时间步的训练期望值,且这种偏差在每步都会累积,误差方向具有一致性而非随机抵消。
3.3 Slow Flow 现象(流匹配视角)
MixFlow(CVPR 2026)在流匹配框架下发现了"Slow Flow 现象":推理时生成的噪声样本 x^t\hat{x}_tx^t,在真实插值路径上最近邻对应的并非时间步 ttt 的插值点,而是一个噪声水平更高(时间步更小)的点,即真实路径"跑得比预期慢"。
真实路径 x_t: 噪→→→→→→干净 (t: T→0)
推理路径 x̂_t 的实际位置: 噪→→→干净 (等效时间步比 t 更靠近噪声端)
↑
"Slow Flow":路径被误差拖慢了
这与 SNR-t Bias 是同一现象在流匹配框架下的等价描述。
四、各论文解法详解
4.1 训练时加扰动:DDPM-IP / ADM-IP(ICML 2023)
思路:既然推理时模型接收的是带有预测误差的 x^t\hat{x}_tx^t,那就在训练时也对输入加类似的扰动,让模型提前"见过"这类有误差的输入。
xtIP=xt+γ⋅ϵ′,ϵ′∼N(0,I)x_t^{\text{IP}} = x_t + \gamma \cdot \epsilon', \quad \epsilon' \sim \mathcal{N}(0, I)xtIP=xt+γ⋅ϵ′,ϵ′∼N(0,I)
加扰动只作用于网络输入,不改变预测目标,保证训练目标不被污染。
效果:CelebA 64×64 上 FID 1.27(当时 SOTA),同时节省 37.5% 训练时间,推理步数也可大幅减少。
局限:简单的高斯扰动无法精确模拟推理时的复杂误差分布,且需要重新训练。
代码:https://github.com/forever208/DDPM-IP
4.2 时间步偏移采样:TS-DPM(ICLR 2024)
思路:推理时预测得到的 x^t−1\hat{x}_{t-1}x^t−1,其实际 SNR 比时间步 t−1t-1t−1 所对应的期望 SNR 更低(即等效于一个噪声更多的状态)。因此,把下一步的时间步标签从 t−1t-1t−1 偏移到更匹配的 tst_sts,让模型用更"诚实"的时间步处理当前样本。
实现要点:根据当前预测样本的近似方差,动态估算更好耦合的 tst_sts,可无缝集成到 DDPM、DDIM 及高阶求解器。
效果:CIFAR-10 10步采样,集成到 F-PNDM 后 FID 从 7.0 → 3.88(↓44.49%),优于 DDIM 100步。无需重训。
代码:https://github.com/Mingxiao-Li/TS-DPM
4.3 Epsilon Scaling:ADM-ES(ICLR 2024)
思路:观察到推理时噪声预测的 ℓ2\ell_2ℓ2 范数系统性偏高(对应 SNR 偏低导致过估计噪声),因此对噪声预测乘以一个缩放因子来校正:
ϵ^scaled=s⋅ϵθ(x^t,t),s<1\hat{\epsilon}_{\text{scaled}} = s \cdot \epsilon_\theta(\hat{x}_t, t), \quad s < 1ϵ^scaled=s⋅ϵθ(x^t,t),s<1
特点:实现极简,无需重训,直接作用于推理代码。适合作为 baseline 验证基础效果。
4.4 推理时小波域差分校正:DCW(CVPR 2026)
思路:每步去噪后,利用预测样本 x^t−1\hat{x}_{t-1}x^t−1 与重建样本 xθ0(x^t,t)x^0_\theta(\hat{x}_t, t)xθ0(x^t,t) 之间的差分信号进行校正。差分信号隐含了将预测样本推向真实分布的方向信息。
基础校正(像素空间):
x^t−1←x^t−1+λt(x^t−1−xθ0(x^t,t))\hat{x}_{t-1} \leftarrow \hat{x}_{t-1} + \lambda_t \left( \hat{x}_{t-1} - x^0_\theta(\hat{x}_t, t) \right)x^t−1←x^t−1+λt(x^t−1−xθ0(x^t,t))
进一步考虑扩散模型"先重建低频、再恢复高频"的规律,在小波域分频操作:
x^t−1f←x^t−1f+λtf(x^t−1f−xθ0,f),f∈{ll,lh,hl,hh}\hat{x}^f_{t-1} \leftarrow \hat{x}^f_{t-1} + \lambda^f_t \left( \hat{x}^f_{t-1} - x^{0,f}_\theta \right), \quad f \in \{ll, lh, hl, hh\}x^t−1f←x^t−1f+λtf(x^t−1f−xθ0,f),f∈{ll,lh,hl,hh}
动态权重策略:低频系数随去噪递减,高频系数递增。
关键优势:校正在网络前向之后进行,不增加 NFE,plug-and-play,IDDPM 20步 FID ↓42.6%,EDM 13步 FID ↓47.1%。
代码:https://github.com/AMAP-ML/DCW
4.5 流匹配专项:MixFlow Training(CVPR 2026)
思路:基于 Slow Flow 现象,推理时样本等效于一个更高噪声时间步(“减慢的时间步” tslowt_{\text{slow}}tslow)的插值点。因此在后训练阶段,对每个训练时间步 ttt,混入减慢时间步 tslowt_{\text{slow}}tslow 处的插值样本一起训练,让网络学会处理这类"偏慢"的输入:
# MixFlow 的训练采样逻辑(核心改动,仅 ~5 行)
def sample(self, x1):
t = torch.rand(x1.shape[0]) # 标准训练时间步
t_slow = self.get_slowed_timestep(t) # 估算减慢的时间步
x0 = torch.randn_like(x1)
# 混合:标准插值 + 减慢插值
xt = (1 - t) * x0 + t * x1
xt_slow = (1 - t_slow) * x0 + t_slow * x1
xt_mixed = self.mix(xt, xt_slow) # 按比例混合
return t, xt_mixed, x1 - x0 # 目标仍是标准向量场
效果:ImageNet 256×256 FID 1.43(无引导)/ 1.10(有引导),ImageNet 512×512 FID 1.55 / 1.10,超越此前所有方法。
特别价值:这是目前专门针对流匹配的 exposure bias 修正中效果最强的方法,对 F5-TTS、VoiceBox、VoxFlash-TTS 等流匹配语音模型直接适用。
代码:https://github.com/fudan-generative-vision/MixFlow
4.6 流匹配专项:ReflexFlow(arXiv 2025)
思路:包含两个互补组件:
- Anti-Drift Rectification(ADR):训练时用 scheduled sampling,对偏置输入重新设计预测目标,而非沿用标准向量场目标,让模型在有误差的输入下也能预测正确方向。
- Frequency Compensation(FC):exposure bias 导致低频分量的预测误差系统性偏大,通过对 loss 中频率分量的加权来补偿这种不均匀性。
与 DCW 的差异:DCW 在推理时修正频率分量,ReflexFlow 在训练时修正频率损失权重,两者互补可叠加。
4.7 自回归场景:Self Forcing(NeurIPS 2025 Spotlight)
适用场景:流式/分块自回归生成,即前一块输出条件后一块的生成。
思路:训练时不再用 ground-truth 上下文,而是让模型也执行自回归展开,用自身生成的输出作为下一块的条件(配合 KV Cache),并在整个序列上计算整体 loss:
# 对比:传统 Teacher Forcing vs Self Forcing
# ❌ 传统:训练与推理输入分布不一致
for chunk_i in range(N):
condition = ground_truth_chunks[:chunk_i] # 推理时不存在
loss += frame_loss(model, chunk_i, condition)
# ✅ Self Forcing:训练时就用模型自己的输出
generated = []
for chunk_i in range(N):
chunk = few_step_diffusion(model, chunk_i, condition=generated)
generated.append(chunk.detach()) # 随机梯度截断控制成本
loss = sequence_level_loss(generated, ground_truth) # 序列级整体 loss
三个核心设计:训练时自回归 rollout + KV Cache、序列级整体 loss、随机梯度截断。
4.8 长序列自回归场景:Rolling Forcing(arXiv 2025)
背景:Self Forcing 解决了"训练用 ground-truth、推理用自身输出"的分布鸿沟,但逐帧自回归采样在长序列场景下仍然存在两个问题:误差沿时间轴线性传播,以及缺乏跨越整个序列的全局一致性锚点。Rolling Forcing 是 Self Forcing 的直接延伸,专门针对这两点。
三个核心设计:
① 多帧联合去噪(Joint Denoising):不再逐帧独立去噪,而是在一个去噪窗口内同时处理多帧,且为每帧分配渐进递增的噪声水平:
逐帧自回归(Self Forcing):
frame_1(干净) → frame_2(干净) → frame_3(干净) → ...
误差严格单向传播:frame_i 的误差 100% 流入 frame_{i+1}
Rolling Forcing 联合去噪窗口:
[frame_t(低噪) | frame_{t+1}(中噪) | frame_{t+2}(高噪)]
↓ 联合去噪
相邻帧之间的严格因果约束被放宽,误差增长受到抑制
② Attention Sink 机制:借鉴流式 LLM 的 attention sink 思路,将初始帧的 KV 状态固定保留在缓存中,作为贯穿整个长序列的"全局上下文锚点",防止长时间生成后模型"忘掉"开头的内容。
③ 非重叠窗口少步蒸馏:在非重叠的去噪窗口上做少步蒸馏训练,训练时以模型自身生成的历史帧为条件,显式缓解以自生成上下文为条件时的 exposure bias。
与 Self Forcing 的关键差异对比:
| 维度 | Self Forcing | Rolling Forcing |
|---|---|---|
| 去噪粒度 | 逐帧 | 多帧联合窗口 |
| 误差传播 | 帧间严格因果 | 窗口内渐进噪声,因果约束放宽 |
| 长期一致性 | KV Cache 滚动更新 | Attention Sink 固定初始帧锚点 |
| 适用长度 | 短~中等序列 | 分钟级长视频/长音频流 |
效果:单 GPU 上实现多分钟视频的实时流式生成,误差累积显著低于 Self Forcing。
项目主页:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
五、语音克隆场景的具体分析
以基于流匹配的 TTS 模型(F5-TTS、VoiceBox、E2-TTS、VoxFlash-TTS)为例,exposure bias 的症状表现如下:
| 症状 | 根因分析 |
|---|---|
| 音色偏移,说话人相似度下降 | Speaker embedding 在低 ttt 区间注入,恰是 SNR 偏置最严重的区域 |
| 高频细节丢失(齿音、气声变糊) | 高频分量收敛慢,后期步骤的偏置持续叠加 |
| 步数少时效果断崖下降 | ODE 截断误差 + SNR 偏置双重叠加,低步数无法抵消 |
| 韵律/节奏不稳定 | Duration/pitch 隐变量路径被累积扰动打乱 |
| 流式生成音色不一致(分块模型) | 前块误差污染后块的条件输入,跨块漂移 |
流匹配中的 Slow Flow 现象对语音的映射:
低频 mel 分量 ←→ 基频、韵律、音色轮廓 (先收敛,SNR 偏置影响较小)
高频 mel 分量 ←→ 齿音、气声、音色细节 (后收敛,偏置累积最严重)
这也解释了为什么基于频率分解的校正方法(DCW、ReflexFlow 的 FC 组件)对语音场景特别有潜力。
六、三个层次的系统性框架
将全部解法按问题粒度归类:
┌─────────────────────────────────────────────────────────────────┐
│ Layer 1:ODE 数值离散化误差(步内) │
│ 原因:欧拉法一阶截断,高曲率区间误差大 │
│ 解法:Heun solver(二阶) │
│ Sway Sampling(在高曲率区加密采样) │
├─────────────────────────────────────────────────────────────────┤
│ Layer 2:SNR-t Bias / Slow Flow(步间累积) │
│ 原因:预测样本 SNR 持续低于期望,误差方向一致,非随机抵消 │
│ 解法(推理时):DCW 差分校正、Epsilon Scaling、Time-Shift Sampler │
│ 解法(训练时):DDPM-IP、MixFlow、ReflexFlow │
├─────────────────────────────────────────────────────────────────┤
│ Layer 3:自回归上下文分布偏移(块间/帧间) │
│ 原因:训练用 ground-truth 上下文,推理用模型自身输出 │
│ 解法:Self Forcing(修改训练范式) │
└─────────────────────────────────────────────────────────────────┘
三个层次相互独立,可以叠加应用,且叠加后收益通常是正的(DCW 论文已验证在 ADM-ES 基础上进一步提升)。
七、实践路线建议
以流匹配 TTS 模型(Euler + Sway Sampling)为例,按成本由低到高排序:
| 阶段 | 方案 | 成本 | 核心操作 |
|---|---|---|---|
| 即时 | Epsilon Scaling | 极低 | 推理噪声预测 × 缩放系数 s<1s < 1s<1 |
| 即时 | 调优 Sway 系数 sss | 极低 | 消融 s∈[1.2,3.0]s \in [1.2, 3.0]s∈[1.2,3.0],找最优值 |
| 短期 | 欧拉 → Heun | 低(NFE ×2) | 替换 solver,步数减半打平成本 |
| 短期 | 接入 DCW | 低(推理后处理) | plug-in,对每步预测做小波校正 |
| 中期 | MixFlow 后训练 | 中(少量迭代) | 用减慢插值样本对现有模型 fine-tune |
| 中期 | ReflexFlow ADR+FC | 中(需重训练) | 修改训练 loss,重新训练 |
| 长期 | Self Forcing | 高(需重训练) | 仅适用流式分块生成架构 |
| 长期 | Rolling Forcing | 高(需蒸馏训练) | 长序列流式场景,Self Forcing 的升级版 |
八、小结
Exposure Bias 不是扩散模型独有的问题——它在自回归语言模型、RNN seq2seq 中早有研究(Ranzato et al., 2016; Bengio et al., 2015)。但在扩散模型和流匹配的多步推理场景中,表现得更为隐蔽且影响更大:
- 误差有方向性(SNR 持续偏低),不会随机抵消
- 误差跨步累积,最终污染整个生成轨迹
- 在语音克隆这类对音色一致性高度敏感的任务中,影响尤为突出
2023 年至 2026 年间,该方向已形成完整的解决方案谱系。对于使用流匹配的语音合成模型,DCW(零成本)+ MixFlow(少量后训练) 的组合目前是性价比最高的路线;对于流式分块生成架构,Self Forcing 和 Rolling Forcing 则分别代表了中短序列和长序列场景下的演进方向。
参考文献
- Ning, M. et al. Input Perturbation Reduces Exposure Bias in Diffusion Models. ICML 2023. arXiv:2301.11706. Code: https://github.com/forever208/DDPM-IP
- Li, M. et al. Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps. ICLR 2024. arXiv:2305.15583. Code: https://github.com/Mingxiao-Li/TS-DPM
- Ning, M. et al. Elucidating the Exposure Bias in Diffusion Models. ICLR 2024. arXiv:2308.15321.
- Yu, M. et al. Elucidating the SNR-t Bias of Diffusion Probabilistic Models. CVPR 2026. arXiv:2604.16044. Code: https://github.com/AMAP-ML/DCW
- Li, H. et al. MixFlow Training: Alleviating Exposure Bias with Slowed Interpolation Mixture. CVPR 2026. arXiv:2512.19311. Code: https://github.com/fudan-generative-vision/MixFlow
- Huang, G. et al. ReflexFlow: Rethinking Learning Objective for Exposure Bias Alleviation in Flow Matching. arXiv:2512.04904.
- Huang, X. et al. Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion. NeurIPS 2025 Spotlight. arXiv:2506.08009.
- Liu, K. et al. Rolling Forcing: Autoregressive Long Video Diffusion in Real Time. arXiv:2509.25161. Project: https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
- Ho, J. et al. Denoising Diffusion Probabilistic Models. NeurIPS 2020.
- Lipman, Y. et al. Flow Matching for Generative Modeling. ICLR 2023.
- Chen, S. et al. F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching. arXiv:2410.06885.
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)