摘要:扩散模型(Diffusion Probabilistic Models)和流匹配(Flow Matching)模型在语音合成、图像生成、视频生成等任务中取得了显著成果。然而,训练与推理之间存在一个长期被忽视的结构性问题——曝光偏差(Exposure Bias)。本文梳理该方向从 2023 年至 2026 年的完整研究脉络,涵盖 10 篇代表性论文,从问题定义、理论分析、解决方案到实践路线,提供系统性参考。


一、问题的直觉理解

扩散模型训练时,每步去噪的输入 xtx_txt 来自真实的前向加噪过程,SNR 与时间步严格对应。到了推理阶段,模型每步的输入 x^t\hat{x}_tx^t 来自上一步自身的输出,而非真实分布上的点。

这就像一个学生平时练习时,卷子全是标准答案改出来的;但考试时必须在自己上一题的答案基础上继续作答——一旦某步出错,后续所有步骤都在错误基础上叠加。

训练时(Teacher Forcing):
  x_t = √ᾱ_t · x₀ + √(1-ᾱ_t) · ε    ← 真实分布,SNR 严格绑定 t

推理时(自回归展开):
  x̂_{t-1} = denoise(x̂_t, t)          ← 来自模型上一步输出,SNR 已偏离
                ↓
        每步误差单向累积,分布持续漂移

文献中有两种不同粒度的描述方式:

  • Exposure Bias(曝光偏差):侧重样本间的差异,模型在推理时接触到了训练中从未见过的"自身生成"分布。
  • SNR-t Bias(信噪比-时间步偏置):更底层的描述,指单个去噪步内,样本实际 SNR 与时间步标签的不匹配。

后者是前者的根本数学根因之一。


二、研究脉络全景

从 2023 年开始,该方向在顶会上持续爆发,形成了清晰的继承关系:

2023
 ├── ADM-IP / DDPM-IP  (ICML 2023)   ← 发现问题,训练时加扰动
 └── EB-DDPM                          ← 误差上界正则化,需重训

2024
 ├── TS-DPM            (ICLR 2024)   ← 时间步偏移采样,免训练
 └── ADM-ES            (ICLR 2024)   ← Epsilon Scaling,免训练

2025
 ├── Anti-EB           (ICLR 2025)   ← 反偏置提示,每步在线补偿
 ├── MixFlow Training  (CVPR 2026)   ← 流匹配专项,Slow Flow 现象
 ├── ReflexFlow        (arXiv 2025)  ← 流匹配,ADR + 频率补偿
 ├── Self Forcing      (NeurIPS 2025)← 自回归场景,训练范式改变
 ├── Rolling Forcing   (arXiv 2025) ← Self Forcing 延伸,长视频联合去噪
 └── DCW / SNR-t Bias  (CVPR 2026)  ← 推理时小波校正,零成本

三、问题的理论根基:SNR-t Bias

3.1 训练时的严格耦合

扩散模型训练目标为:

L=Et,x0,ϵ[∥ϵθ(xt,t)−ϵ∥22]\mathcal{L} = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon_\theta(x_t, t) - \epsilon \|_2^2 \right]L=Et,x0,ϵ[ϵθ(xt,t)ϵ22]

其中 xt=αˉtx0+1−αˉtϵx_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilonxt=αˉt x0+1αˉt ϵ,SNR 定义为:

SNR(t)=αˉt1−αˉt\text{SNR}(t) = \frac{\bar{\alpha}_t}{1 - \bar{\alpha}_t}SNR(t)=1αˉtαˉt

训练时,SNR 与 ttt 一一对应,是严格绑定的关系。

3.2 推理时的解耦

Yu et al.(CVPR 2026)在论文 Elucidating the SNR-t Bias of Diffusion Probabilistic Models 中,通过理论推导给出了推理时预测样本 x^t\hat{x}_tx^t 的实际 SNR 解析形式:

SNRactual(t)=γ^t2αˉt1−αˉt+(αˉtβt+11−αˉt+1ϕt+1)2\text{SNR}_{\text{actual}}(t) = \frac{\hat{\gamma}_t^2 \bar{\alpha}_t}{1 - \bar{\alpha}_t + \left(\dfrac{\sqrt{\bar{\alpha}_t}\beta_{t+1}}{1 - \bar{\alpha}_{t+1}} \phi_{t+1}\right)^2}SNRactual(t)=1αˉt+(1αˉt+1αˉt βt+1ϕt+1)2γ^t2αˉt

分母中额外的正数项使得推理时实际 SNR 始终低于同一时间步的训练期望值,且这种偏差在每步都会累积,误差方向具有一致性而非随机抵消。

3.3 Slow Flow 现象(流匹配视角)

MixFlow(CVPR 2026)在流匹配框架下发现了"Slow Flow 现象":推理时生成的噪声样本 x^t\hat{x}_tx^t,在真实插值路径上最近邻对应的并非时间步 ttt 的插值点,而是一个噪声水平更高(时间步更小)的点,即真实路径"跑得比预期慢"。

真实路径 x_t:        噪→→→→→→干净  (t: T→0)
推理路径 x̂_t 的实际位置:  噪→→→干净    (等效时间步比 t 更靠近噪声端)
                                 ↑
                        "Slow Flow":路径被误差拖慢了

这与 SNR-t Bias 是同一现象在流匹配框架下的等价描述。


四、各论文解法详解

4.1 训练时加扰动:DDPM-IP / ADM-IP(ICML 2023)

思路:既然推理时模型接收的是带有预测误差的 x^t\hat{x}_tx^t,那就在训练时也对输入加类似的扰动,让模型提前"见过"这类有误差的输入。

xtIP=xt+γ⋅ϵ′,ϵ′∼N(0,I)x_t^{\text{IP}} = x_t + \gamma \cdot \epsilon', \quad \epsilon' \sim \mathcal{N}(0, I)xtIP=xt+γϵ,ϵN(0,I)

加扰动只作用于网络输入,不改变预测目标,保证训练目标不被污染。

效果:CelebA 64×64 上 FID 1.27(当时 SOTA),同时节省 37.5% 训练时间,推理步数也可大幅减少。

局限:简单的高斯扰动无法精确模拟推理时的复杂误差分布,且需要重新训练。

代码:https://github.com/forever208/DDPM-IP

4.2 时间步偏移采样:TS-DPM(ICLR 2024)

思路:推理时预测得到的 x^t−1\hat{x}_{t-1}x^t1,其实际 SNR 比时间步 t−1t-1t1 所对应的期望 SNR 更低(即等效于一个噪声更多的状态)。因此,把下一步的时间步标签从 t−1t-1t1 偏移到更匹配的 tst_sts,让模型用更"诚实"的时间步处理当前样本。

实现要点:根据当前预测样本的近似方差,动态估算更好耦合的 tst_sts,可无缝集成到 DDPM、DDIM 及高阶求解器。

效果:CIFAR-10 10步采样,集成到 F-PNDM 后 FID 从 7.0 → 3.88(↓44.49%),优于 DDIM 100步。无需重训。

代码:https://github.com/Mingxiao-Li/TS-DPM

4.3 Epsilon Scaling:ADM-ES(ICLR 2024)

思路:观察到推理时噪声预测的 ℓ2\ell_22 范数系统性偏高(对应 SNR 偏低导致过估计噪声),因此对噪声预测乘以一个缩放因子来校正:

ϵ^scaled=s⋅ϵθ(x^t,t),s<1\hat{\epsilon}_{\text{scaled}} = s \cdot \epsilon_\theta(\hat{x}_t, t), \quad s < 1ϵ^scaled=sϵθ(x^t,t),s<1

特点:实现极简,无需重训,直接作用于推理代码。适合作为 baseline 验证基础效果。

4.4 推理时小波域差分校正:DCW(CVPR 2026)

思路:每步去噪后,利用预测样本 x^t−1\hat{x}_{t-1}x^t1 与重建样本 xθ0(x^t,t)x^0_\theta(\hat{x}_t, t)xθ0(x^t,t) 之间的差分信号进行校正。差分信号隐含了将预测样本推向真实分布的方向信息。

基础校正(像素空间):

x^t−1←x^t−1+λt(x^t−1−xθ0(x^t,t))\hat{x}_{t-1} \leftarrow \hat{x}_{t-1} + \lambda_t \left( \hat{x}_{t-1} - x^0_\theta(\hat{x}_t, t) \right)x^t1x^t1+λt(x^t1xθ0(x^t,t))

进一步考虑扩散模型"先重建低频、再恢复高频"的规律,在小波域分频操作:

x^t−1f←x^t−1f+λtf(x^t−1f−xθ0,f),f∈{ll,lh,hl,hh}\hat{x}^f_{t-1} \leftarrow \hat{x}^f_{t-1} + \lambda^f_t \left( \hat{x}^f_{t-1} - x^{0,f}_\theta \right), \quad f \in \{ll, lh, hl, hh\}x^t1fx^t1f+λtf(x^t1fxθ0,f),f{ll,lh,hl,hh}

动态权重策略:低频系数随去噪递减,高频系数递增

关键优势:校正在网络前向之后进行,不增加 NFE,plug-and-play,IDDPM 20步 FID ↓42.6%,EDM 13步 FID ↓47.1%。

代码:https://github.com/AMAP-ML/DCW

4.5 流匹配专项:MixFlow Training(CVPR 2026)

思路:基于 Slow Flow 现象,推理时样本等效于一个更高噪声时间步(“减慢的时间步” tslowt_{\text{slow}}tslow)的插值点。因此在后训练阶段,对每个训练时间步 ttt,混入减慢时间步 tslowt_{\text{slow}}tslow 处的插值样本一起训练,让网络学会处理这类"偏慢"的输入:

# MixFlow 的训练采样逻辑(核心改动,仅 ~5 行)
def sample(self, x1):
    t = torch.rand(x1.shape[0])          # 标准训练时间步
    t_slow = self.get_slowed_timestep(t)  # 估算减慢的时间步
    
    x0 = torch.randn_like(x1)
    # 混合:标准插值 + 减慢插值
    xt = (1 - t) * x0 + t * x1
    xt_slow = (1 - t_slow) * x0 + t_slow * x1
    xt_mixed = self.mix(xt, xt_slow)     # 按比例混合
    
    return t, xt_mixed, x1 - x0          # 目标仍是标准向量场

效果:ImageNet 256×256 FID 1.43(无引导)/ 1.10(有引导),ImageNet 512×512 FID 1.55 / 1.10,超越此前所有方法。

特别价值:这是目前专门针对流匹配的 exposure bias 修正中效果最强的方法,对 F5-TTS、VoiceBox、VoxFlash-TTS 等流匹配语音模型直接适用。

代码:https://github.com/fudan-generative-vision/MixFlow

4.6 流匹配专项:ReflexFlow(arXiv 2025)

思路:包含两个互补组件:

  • Anti-Drift Rectification(ADR):训练时用 scheduled sampling,对偏置输入重新设计预测目标,而非沿用标准向量场目标,让模型在有误差的输入下也能预测正确方向。
  • Frequency Compensation(FC):exposure bias 导致低频分量的预测误差系统性偏大,通过对 loss 中频率分量的加权来补偿这种不均匀性。

与 DCW 的差异:DCW 在推理时修正频率分量,ReflexFlow 在训练时修正频率损失权重,两者互补可叠加。

4.7 自回归场景:Self Forcing(NeurIPS 2025 Spotlight)

适用场景:流式/分块自回归生成,即前一块输出条件后一块的生成。

思路:训练时不再用 ground-truth 上下文,而是让模型也执行自回归展开,用自身生成的输出作为下一块的条件(配合 KV Cache),并在整个序列上计算整体 loss:

# 对比:传统 Teacher Forcing vs Self Forcing

# ❌ 传统:训练与推理输入分布不一致
for chunk_i in range(N):
    condition = ground_truth_chunks[:chunk_i]   # 推理时不存在
    loss += frame_loss(model, chunk_i, condition)

# ✅ Self Forcing:训练时就用模型自己的输出
generated = []
for chunk_i in range(N):
    chunk = few_step_diffusion(model, chunk_i, condition=generated)
    generated.append(chunk.detach())  # 随机梯度截断控制成本

loss = sequence_level_loss(generated, ground_truth)  # 序列级整体 loss

三个核心设计:训练时自回归 rollout + KV Cache、序列级整体 loss、随机梯度截断。

4.8 长序列自回归场景:Rolling Forcing(arXiv 2025)

背景:Self Forcing 解决了"训练用 ground-truth、推理用自身输出"的分布鸿沟,但逐帧自回归采样在长序列场景下仍然存在两个问题:误差沿时间轴线性传播,以及缺乏跨越整个序列的全局一致性锚点。Rolling Forcing 是 Self Forcing 的直接延伸,专门针对这两点。

三个核心设计:

① 多帧联合去噪(Joint Denoising):不再逐帧独立去噪,而是在一个去噪窗口内同时处理多帧,且为每帧分配渐进递增的噪声水平

逐帧自回归(Self Forcing):
  frame_1(干净) → frame_2(干净) → frame_3(干净) → ...
  误差严格单向传播:frame_i 的误差 100% 流入 frame_{i+1}

Rolling Forcing 联合去噪窗口:
  [frame_t(低噪) | frame_{t+1}(中噪) | frame_{t+2}(高噪)]
                ↓ 联合去噪
  相邻帧之间的严格因果约束被放宽,误差增长受到抑制

② Attention Sink 机制:借鉴流式 LLM 的 attention sink 思路,将初始帧的 KV 状态固定保留在缓存中,作为贯穿整个长序列的"全局上下文锚点",防止长时间生成后模型"忘掉"开头的内容。

③ 非重叠窗口少步蒸馏:在非重叠的去噪窗口上做少步蒸馏训练,训练时以模型自身生成的历史帧为条件,显式缓解以自生成上下文为条件时的 exposure bias。

与 Self Forcing 的关键差异对比:

维度 Self Forcing Rolling Forcing
去噪粒度 逐帧 多帧联合窗口
误差传播 帧间严格因果 窗口内渐进噪声,因果约束放宽
长期一致性 KV Cache 滚动更新 Attention Sink 固定初始帧锚点
适用长度 短~中等序列 分钟级长视频/长音频流

效果:单 GPU 上实现多分钟视频的实时流式生成,误差累积显著低于 Self Forcing。

项目主页:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/


五、语音克隆场景的具体分析

以基于流匹配的 TTS 模型(F5-TTS、VoiceBox、E2-TTS、VoxFlash-TTS)为例,exposure bias 的症状表现如下:

症状 根因分析
音色偏移,说话人相似度下降 Speaker embedding 在低 ttt 区间注入,恰是 SNR 偏置最严重的区域
高频细节丢失(齿音、气声变糊) 高频分量收敛慢,后期步骤的偏置持续叠加
步数少时效果断崖下降 ODE 截断误差 + SNR 偏置双重叠加,低步数无法抵消
韵律/节奏不稳定 Duration/pitch 隐变量路径被累积扰动打乱
流式生成音色不一致(分块模型) 前块误差污染后块的条件输入,跨块漂移

流匹配中的 Slow Flow 现象对语音的映射:

低频 mel 分量  ←→  基频、韵律、音色轮廓  (先收敛,SNR 偏置影响较小)
高频 mel 分量  ←→  齿音、气声、音色细节  (后收敛,偏置累积最严重)

这也解释了为什么基于频率分解的校正方法(DCW、ReflexFlow 的 FC 组件)对语音场景特别有潜力。


六、三个层次的系统性框架

将全部解法按问题粒度归类:

┌─────────────────────────────────────────────────────────────────┐
│  Layer 1:ODE 数值离散化误差(步内)                              │
│  原因:欧拉法一阶截断,高曲率区间误差大                            │
│  解法:Heun solver(二阶)                                        │
│        Sway Sampling(在高曲率区加密采样)                         │
├─────────────────────────────────────────────────────────────────┤
│  Layer 2:SNR-t Bias / Slow Flow(步间累积)                     │
│  原因:预测样本 SNR 持续低于期望,误差方向一致,非随机抵消          │
│  解法(推理时):DCW 差分校正、Epsilon Scaling、Time-Shift Sampler │
│  解法(训练时):DDPM-IP、MixFlow、ReflexFlow                     │
├─────────────────────────────────────────────────────────────────┤
│  Layer 3:自回归上下文分布偏移(块间/帧间)                        │
│  原因:训练用 ground-truth 上下文,推理用模型自身输出              │
│  解法:Self Forcing(修改训练范式)                                │
└─────────────────────────────────────────────────────────────────┘

三个层次相互独立,可以叠加应用,且叠加后收益通常是正的(DCW 论文已验证在 ADM-ES 基础上进一步提升)。


七、实践路线建议

以流匹配 TTS 模型(Euler + Sway Sampling)为例,按成本由低到高排序:

阶段 方案 成本 核心操作
即时 Epsilon Scaling 极低 推理噪声预测 × 缩放系数 s<1s < 1s<1
即时 调优 Sway 系数 sss 极低 消融 s∈[1.2,3.0]s \in [1.2, 3.0]s[1.2,3.0],找最优值
短期 欧拉 → Heun 低(NFE ×2) 替换 solver,步数减半打平成本
短期 接入 DCW 低(推理后处理) plug-in,对每步预测做小波校正
中期 MixFlow 后训练 中(少量迭代) 用减慢插值样本对现有模型 fine-tune
中期 ReflexFlow ADR+FC 中(需重训练) 修改训练 loss,重新训练
长期 Self Forcing 高(需重训练) 仅适用流式分块生成架构
长期 Rolling Forcing 高(需蒸馏训练) 长序列流式场景,Self Forcing 的升级版

八、小结

Exposure Bias 不是扩散模型独有的问题——它在自回归语言模型、RNN seq2seq 中早有研究(Ranzato et al., 2016; Bengio et al., 2015)。但在扩散模型和流匹配的多步推理场景中,表现得更为隐蔽且影响更大:

  • 误差有方向性(SNR 持续偏低),不会随机抵消
  • 误差跨步累积,最终污染整个生成轨迹
  • 在语音克隆这类对音色一致性高度敏感的任务中,影响尤为突出

2023 年至 2026 年间,该方向已形成完整的解决方案谱系。对于使用流匹配的语音合成模型,DCW(零成本)+ MixFlow(少量后训练) 的组合目前是性价比最高的路线;对于流式分块生成架构,Self Forcing 和 Rolling Forcing 则分别代表了中短序列和长序列场景下的演进方向。


参考文献

  1. Ning, M. et al. Input Perturbation Reduces Exposure Bias in Diffusion Models. ICML 2023. arXiv:2301.11706. Code: https://github.com/forever208/DDPM-IP
  2. Li, M. et al. Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps. ICLR 2024. arXiv:2305.15583. Code: https://github.com/Mingxiao-Li/TS-DPM
  3. Ning, M. et al. Elucidating the Exposure Bias in Diffusion Models. ICLR 2024. arXiv:2308.15321.
  4. Yu, M. et al. Elucidating the SNR-t Bias of Diffusion Probabilistic Models. CVPR 2026. arXiv:2604.16044. Code: https://github.com/AMAP-ML/DCW
  5. Li, H. et al. MixFlow Training: Alleviating Exposure Bias with Slowed Interpolation Mixture. CVPR 2026. arXiv:2512.19311. Code: https://github.com/fudan-generative-vision/MixFlow
  6. Huang, G. et al. ReflexFlow: Rethinking Learning Objective for Exposure Bias Alleviation in Flow Matching. arXiv:2512.04904.
  7. Huang, X. et al. Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion. NeurIPS 2025 Spotlight. arXiv:2506.08009.
  8. Liu, K. et al. Rolling Forcing: Autoregressive Long Video Diffusion in Real Time. arXiv:2509.25161. Project: https://kunhao-liu.github.io/Rolling_Forcing_Webpage/
  9. Ho, J. et al. Denoising Diffusion Probabilistic Models. NeurIPS 2020.
  10. Lipman, Y. et al. Flow Matching for Generative Modeling. ICLR 2023.
  11. Chen, S. et al. F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching. arXiv:2410.06885.
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐