AudioLDM 的核心思想为:不是直接在波形上生成音频,而是在梅尔频谱图的潜在空间中做条件扩散生成;文本条件则通过 CLAP 的音文对齐空间传入模型。

1. 总体框架

AudioLDM 是一种 Text-to-Audio 的潜在扩散模型。其生成链路大致为:

文本提示词
CLAP 文本编码器得到文本嵌入
Latent Diffusion Model / U-Net在潜在空间中逐步去噪
VAE 解码器还原为梅尔频谱图
HiFi-GAN vocoder把梅尔频谱图转换为音频波形。

论文明确说明,AudioLDM 使用 CLAP 表征作为条件,LDM 学习 VAE 潜在空间中的音频表示;采样时使用文本嵌入作为条件生成音频。(Proceedings of Machine Learning Research)

2. 为什么要用 CLAP?

CLAP 可以理解为音频版的 CLIP:它把“音频”和“文本”投射到同一个语义空间中。AudioLDM 中,音频样本 (x) 经过 audio encoder 得到音频嵌入 (E_x),文本描述 (y) 经过 text encoder 得到文本嵌入 (E_y)。由于二者处在同一个跨模态空间中,模型训练时可以用音频嵌入 (E_x) 作条件,而推理时换成文本嵌入 (E_y) 作条件。(Proceedings of Machine Learning Research)

这正是 AudioLDM 的关键设计:训练扩散模型时不强依赖音频—文本配对数据,而是利用 CLAP 已经学到的音文对齐关系。论文指出,LDM 在训练阶段学习“给定音频 CLAP 表征生成音频潜变量”,而在文本到音频生成阶段则提供文本 CLAP 表征来预测噪声。(Proceedings of Machine Learning Research)

3. 为什么不用原始波形,而用潜在空间?

原始音频波形维度很高,直接扩散生成计算代价很大。AudioLDM 先把音频转换为 mel-spectrogram,再通过 VAE 编码到更小的潜在空间 (z)。扩散模型只在这个压缩后的 latent space 中学习生成过程,因此计算更经济。论文中说明,VAE 将梅尔频谱 (X) 压缩为小尺寸潜变量 (z),采样后再由 VAE decoder 重建梅尔频谱。(Proceedings of Machine Learning Research)

这与 Stable Diffusion 的思路相似:图像生成中不直接在像素空间扩散,而是在 VAE latent 中扩散;AudioLDM 则把这一思路迁移到音频领域。

4. 扩散生成机制

训练时,模型对音频 latent (z_0) 逐步加噪,直到接近标准高斯噪声;随后训练 U-Net 学会在给定条件嵌入的情况下预测噪声。论文将扩散过程描述为正向加噪过程和反向去噪过程:正向过程把数据分布逐步变为高斯分布,反向过程则从噪声中逐步生成样本。(Proceedings of Machine Learning Research)

更直观地说:

训练阶段:
真实音频 → mel 频谱 → VAE latent → 加噪 → U-Net 学习去噪

推理阶段:
随机噪声 → 文本条件引导去噪 → 生成 latent → VAE 解码 → vocoder 输出音频

5. 条件控制与 CFG

AudioLDM 也使用 classifier-free guidance, CFG 来增强文本控制能力。训练时,模型会以一定概率丢弃条件,使其同时学到有条件生成和无条件生成;采样时,通过调节 guidance scale,在“更符合文本描述”和“保持生成多样性”之间权衡。论文中说明,AudioLDM 在训练时随机丢弃条件嵌入,并在生成时使用文本嵌入进行 CFG 采样。(Proceedings of Machine Learning Research)

这意味着提示词越具体,模型越容易生成符合语义的声音。例如,“rain sound”通常不如“heavy rain hitting a metal roof with distant thunder”可控。

6. 最后如何变成真实音频?

扩散模型本身生成的是 latent,不是可播放音频。AudioLDM 的后处理链路是:

生成 latent → VAE decoder 重建 mel-spectrogram → HiFi-GAN vocoder 合成 waveform

论文明确提到,VAE decoder 用于从 LDM 生成的 audio prior 重建梅尔频谱,随后采用 HiFi-GAN 从重建的梅尔频谱生成音频样本。(Proceedings of Machine Learning Research)

7. 总结

AudioLDM 的框架原理是:利用 CLAP 建立文本与音频的共享语义条件空间,利用 VAE 将音频压缩到可建模的潜在空间,再用条件潜在扩散模型从噪声中生成音频 latent,最后经 VAE 解码和 HiFi-GAN vocoder 输出真实音频。

它的创新点不在于单独发明了扩散模型、VAE 或 vocoder,而在于把三者与 CLAP 对齐空间组合起来,使文本提示能够有效控制通用音频生成。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐