扩散模型中可学习方差调度

在扩散模型中,方差调度是控制噪声添加过程的关键组件。标准扩散模型的前向过程逐步添加噪声到数据中,其噪声方差通常由预定义的调度(如线性或余弦)控制。然而,“可学习方差调度”指的是在训练过程中优化这些方差参数,使模型自适应地学习最优噪声策略,从而提升生成质量或效率。

“可学习方差调度”是扩散模型领域从人工经验设计数据驱动自适应演进的关键技术。它的核心思想是让扩散模型在训练中自主学习每一步的最优噪声水平(方差),以替代传统固定的人工设计调度(如线性或余弦调度),从而更好地适应不同数据集的统计特性。

Alex Nichol 和 Prafulla Dhariwal 在《Improved Denoising Diffusion Probabilistic Models》一文中介绍了对于DDPM模型的改进,让UNet等模型在反向去噪过程预测用于每步的方差参数\sum _{\theta }\left ( x_{t},t \right ),通过混合目标(预测噪声的简单MSE损失 + 用于优化方差的低权重变分下界损失L_vlb)首次实现了方差的端到端学习。

以下我将逐步解释概念、数学基础、实现方法和优势。

1. 扩散模型与方差调度基础

扩散模型的核心是前向过程和反向过程:

  • 前向过程:从数据 $x_0$  开始,逐步添加噪声,时间步 $t$ 的状态为: x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon  其中 $\epsilon \sim \mathcal{N}(0, I)$  是标准高斯噪声,\bar{\alpha}t = \prod_{s=1}^{t} \alpha_s ,而 $\alpha_i = 1 - \beta_i$ 。这里,$\beta_t$ 是时间步$t$ 的噪声方差,称为方差调度。
  • 方差调度 $\beta_t$ :通常固定为预定义函数,例如线性调度 $\beta_t = \frac{t}{T} \beta_{\text{max}}$   ,其中 $T$ 是总时间步。\beta_t  控制噪声强度,范围在 [0,1] 。

在标准设置中,$\beta_t$  是手工设计的,但可学习方差调度将其视为可优化参数。

2. 可学习方差调度的原理

可学习方差调度通过参数化 \beta_t  并融入训练目标来实现:

  • 参数化方法:定义 $\beta_t$  为可学习函数 $\beta_t = f_\theta(t)$ ,其中 $\theta$ 是模型参数。常见方式包括:
    • 简单参数化:$\beta_t$  直接作为一维向量 $\theta = [\beta_1, \beta_2, \dots, \beta_T]$  优化。
    • 神经网络参数化:使用小型网络(如MLP)预测 $\beta_t$ ,例如 $\beta_t = \sigma(g_\theta(t))$ ,其中 $\sigma$ 是sigmoid函数确保  \beta_t \in [0,1] ,$g_\theta$  是神经网络。
  • 优化目标:扩散模型的训练目标是最小化负对数似然或变分下界(ELBO)。加入可学习 $\beta_t$  后,目标函数变为: \mathcal{L}(\theta, \phi) = \mathbb{E}{t, x_0, \epsilon} \left[ | \epsilon - \epsilon\phi(x_t, t) |^2 \right]  ,其中 $\epsilon_\phi$ 是去噪模型(如U-Net),$\theta$ 是方差调度参数,$\phi$ 是模型参数。训练时,同时优化 $\theta$ 和 $\phi$ ,使 $\beta_t$ 自适应数据分布。
3. 实现方法

下面提供一个简化代码示例(使用PyTorch),展示如何实现可学习方差调度。实际中,需集成到完整扩散训练循环中。

import torch
import torch.nn as nn
import torch.optim as optim

class LearnableBetaScheduler(nn.Module):
    def __init__(self, T, init_min=0.0001, init_max=0.02):
        """
        可学习方差调度器
        T: 总时间步数
        init_min, init_max: beta_t 的初始范围(类似标准线性调度)
        """
        super().__init__()
        self.T = T
        # 初始化 beta 参数为可学习向量,范围在 [init_min, init_max]
        self.betas = nn.Parameter(torch.linspace(init_min, init_max, T), requires_grad=True)
    
    def get_beta(self, t):
        """返回时间步 t 的 beta_t,确保值在 [0,1] 内"""
        return self.betas[t].clamp(min=0, max=1)  # 使用clamp防止越界
    
    def forward(self, t):
        return self.get_beta(t)

# 简化的扩散训练步骤(伪代码)
def train_diffusion_model(data_loader, T, num_epochs, lr=0.001):
    # 初始化模型和调度器
    denoising_model = nn.Module()  # 假设这是一个去噪模型(如U-Net)
    beta_scheduler = LearnableBetaScheduler(T)
    optimizer = optim.Adam(
        list(denoising_model.parameters()) + list(beta_scheduler.parameters()), lr=lr
    )
    
    for epoch in range(num_epochs):
        for x0 in data_loader:  # x0 是原始数据
            t = torch.randint(1, T, (x0.size(0),))  # 随机采样时间步
            epsilon = torch.randn_like(x0)  # 噪声
            
            # 计算 alpha_bar 基于可学习 beta
            beta_t = beta_scheduler(t)
            alpha_t = 1 - beta_t
            alpha_bar_t = torch.cumprod(alpha_t, dim=0)  # 累积乘积
            
            # 前向过程生成 x_t
            x_t = torch.sqrt(alpha_bar_t) * x0 + torch.sqrt(1 - alpha_bar_t) * epsilon
            
            # 去噪模型预测噪声
            pred_epsilon = denoising_model(x_t, t)
            
            # 损失函数:均方误差
            loss = torch.mean((epsilon - pred_epsilon) ** 2)
            
            # 反向传播并优化
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
    
    return denoising_model, beta_scheduler

# 使用示例
T = 1000  # 时间步数
model, scheduler = train_diffusion_model(data_loader, T, num_epochs=100)

在这个代码中:

  • LearnableBetaScheduler 类将 $\beta_t$  初始化为线性范围,但允许梯度更新。
  • 训练时,\beta_t  和去噪模型参数一起优化。
  • 注意:实际应用需处理批量数据和时间步采样,并添加边界约束(如 $\beta_t > 0$ )。
4. 可学习方差调度的优势
  • 提升生成质量:学习到的 $\beta_t$  能更好匹配数据分布,减少手工调参的偏差,提高生成样本的保真度。
  • 增加灵活性:适应不同数据集(如图像、音频),尤其在复杂分布下优于固定调度。
  • 潜在效率改进:通过学习最优噪声添加,可能减少所需时间步 $T$ ,加速推理。
  • 研究支持:实验表明,可学习调度在图像生成任务中(如DDPM变体)能降低FID分数,表明性能提升。
总结

可学习方差调度是扩散模型的一种高级技术,通过将噪声方差$\beta_t$ 参数化并融入训练,实现自适应优化。这避免了预定义调度的限制,能显著提升模型性能。实现时,需注意参数初始化和约束以确保稳定性。

本文来源于网络学习后,通过个人总结等完成,感谢各位前辈的总结,如有不妥或有误的地方,欢迎大家来讨论,批评指正!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐