基于潜在扩散模型的高分辨率图像合成-CVPR2022

一无所知728

374人浏览 · 2026-04-01 18:54:32

一无所知728 · 2026-04-01 18:54:32 发布

期刊：Conference on Computer Vision and Pattern Recognition (CVPR)

论文链接：[2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models

年份：2022

关键词：扩散模型，图像生成

从像素空间走向潜空间：LDM 如何让扩散模型更快、更强？

如果这几年关注过 AIGC、文生图或者 Stable Diffusion，那大概率已经听过 Latent Diffusion Model（LDM） 这个名字。
它对应的经典论文，就是 Robin Rombach 等人在 2022 年提出的 High-Resolution Image Synthesis with Latent Diffusion Models。这篇工作最核心的贡献，不是单纯把图生得更好看，而是回答了一个非常关键的问题：

扩散模型效果很好，但为什么训练和推理这么贵？有没有办法在尽量不损失质量的前提下，把它“做轻”？

这篇论文给出的答案非常优雅：
不要再直接在像素空间里做扩散了，而是先把图像压到一个更紧凑的潜空间（latent space），再在这个潜空间里做扩散生成。

一、这篇论文到底想解决什么问题？

在 LDM 之前，很多扩散模型都是直接在 RGB 像素空间 里做去噪和采样。这样做有一个明显问题：
图像维度太高，尤其在高分辨率场景下，模型每一步都要处理整张大图，训练和推理都非常昂贵。论文里就指出，强大的像素空间扩散模型训练往往要消耗 数百个 GPU days，而推理也因为要顺序执行很多步而代价不小。

但问题在于，图像里的很多像素级细节，其实对“语义内容”并不那么重要。
换句话说，模型花了大量算力，可能只是在拟合一些“人眼不太敏感”的高频细节。论文第 2 页就把这一点讲得很清楚：大部分比特其实对应的是感知上不那么重要的信息，而扩散模型在像素空间中仍然不得不对所有像素做完整计算。

所以作者的核心想法就是：

先用一个自编码器把图像压缩到感知上基本等价、但维度更低的 latent space，再在 latent space 里训练扩散模型。

这就是 Latent Diffusion Model 的出发点。

二、LDM 的整体思路：两阶段框架

这篇论文的方法可以概括成两个阶段。

第一阶段：感知压缩

作者先训练一个 Autoencoder，包括编码器 E 和解码器 D。
输入图像 x 先经过编码器得到 latent 表示 z=E(x)，再通过解码器恢复为 x~=D(z)。这个过程的目标不是做到数学上逐像素完全一致，而是做到 “感知上等价”：重要结构、语义和视觉质量尽量保住，不重要的细碎高频信息则可以适度压缩。论文中，这个压缩模型结合了感知损失和 patch-based adversarial objective，而不是只用简单的 L1/L2 重建。

第二阶段：潜空间扩散

有了 latent 表示以后，扩散模型就不再对原图 xxx 建模，而是对 latent zzz 建模。
也就是说，原本的像素空间扩散目标：

被替换成了 latent 空间版本：

本质上还是扩散模型，只不过工作空间从高维像素空间，变成了低维潜空间。这样一来，扩散模型就能把主要精力放在更有语义意义的成分上，同时计算成本显著下降。

三、这篇论文最妙的点，不只是“压缩”

如果只把这篇论文理解成“先压缩再生成”，其实还不够。
LDM 真正厉害的地方，在于它找到了一个很好的平衡点：

1. 不是暴力压缩，而是“温和压缩”

在以前的一些两阶段生成方法里，为了让后续模型能跑得动，往往要把图像压得很狠，这样就容易损失细节。LDM 不一样，它利用扩散模型和 U-Net 对二维空间结构的天然优势，因此不需要像某些离散 latent 方法那样做过强压缩，能够在复杂度降低和细节保留之间找到更好的折中。论文的实验也显示，适中的压缩倍率（如 f=4 或 f=8）通常表现最好。

2. 它把条件控制做成了通用机制

LDM 不仅能做无条件图像生成，还能接入多种条件，比如文本、类别标签、语义图、bounding boxes 等。
论文提出了一个很重要的设计：在 U-Net 中加入 cross-attention，把外部条件通过一个条件编码器映射到中间特征层中。也就是说，模型不只是“从噪声生成图像”，而是可以在生成过程中持续接收文本或布局等条件信息。

这个设计后来几乎成了现代文生图系统的标配。

3. 它支持更灵活的任务形式

论文中，LDM 不只是拿来做无条件生成，还做了很多条件任务，包括：

文本生成图像
类别条件生成
layout-to-image
语义图到图像
超分辨率
图像修复（inpainting）

这说明 LDM 的价值不只是“更省算力”，而是提供了一个统一且灵活的生成框架。

四、实验结果说明了什么？

从实验上看，这篇论文的结论很明确：
在显著降低计算成本的同时，LDM 依然能在多个任务上取得非常强的效果。

论文在 CelebA-HQ、FFHQ、LSUN、ImageNet、MS-COCO 等数据集上进行了验证，结果显示：

在无条件图像生成上，LDM 在多个数据集上取得了很有竞争力的 FID；
在 class-conditional ImageNet 上，带 classifier-free guidance 的 LDM-4-G 达到了很强的表现；
在 text-to-image 任务中，1.45B 参数的文本条件 LDM 在 COCO 上已经能和当时非常强的方法同台竞争；
在 inpainting 和 super-resolution 上，LDM 也展示了优秀性能，同时比像素空间扩散更高效。

更重要的是，论文反复强调：
LDM 的优势不是单纯提高某一个指标，而是在“性能—算力”之间做到了更好的平衡。

五、为什么这篇论文这么重要？

如果要用一句话概括这篇论文的意义，我觉得可以这么说：

LDM 让扩散模型第一次真正从“效果很好但太贵”走向“效果强、又更可用”。

它的重要性主要体现在三个层面。

第一，它重新定义了扩散模型的工作空间

扩散模型不必死守像素空间，latent space 同样可以成为高质量生成的主战场。

第二，它为后来的大规模生成模型打下了结构基础

尤其是 latent diffusion + cross-attention 这条路线，后来直接影响了主流文生图模型的发展。Stable Diffusion 官方仓库也明确写道，它本身就是一种 latent text-to-image diffusion model。

第三，它启发了很多跨任务、跨模态扩散工作

因为它把“自编码器压缩”“潜空间生成”“条件注入”这三部分拆得很清楚，所以后来很多研究都能沿着这个框架去改造：
可以换 encoder/decoder，可以换条件输入，也可以把 latent diffusion 嵌到恢复、编辑、控制生成等更复杂任务里。

六、这篇论文也不是没有局限

当然，LDM 也不是完美无缺。
论文自己就提到一个很现实的问题：虽然 LDM 比像素空间扩散高效得多，但它依然是顺序采样的生成模型，所以在推理速度上仍然慢于 GAN。另一方面，由于最终图像仍然需要通过 decoder 从 latent 还原回像素空间，因此对于特别强调像素级精确恢复的任务，第一阶段 autoencoder 的重建能力可能会成为瓶颈。

这也说明，LDM 更擅长的是高质量生成与感知质量，而不是所有场景下的“严格像素保真”。

七、总结

High-Resolution Image Synthesis with Latent Diffusion Models 这篇论文提出了 LDM 框架，用“自编码器压缩 + 潜空间扩散 + 条件交叉注意力”三步，把高质量扩散生成从昂贵的像素空间迁移到更高效的 latent space 中，在图像生成、文生图、超分和修复等多个任务上都取得了非常强的效果。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI低代码避坑｜8大痛点致90%项目延期、70%企业返工

AtomGit开源社区

P1：基于Pytorch实现mnist手写数字识别

经过两次卷积和池化：第一次卷积后：28→26（因为卷积核 3，无 padding），然后池化：26→13。然后优化器（比如 SGD）会根据这个“差的程度”去调整模型的内部参数（权重），让下一次猜测更接近正确答案。这其实是一个多分类的学习任务，相当于利用CNN神经网络进行图片特征提取、识别，最终对图片进行10分类（0-9）。：转成浮点数（True→1, False→0）并求和，得到这个 batch

AtomGit开源社区

RAG向量模型维度（向量维度）神经网络训练出来的隐式特征、同一个collection必须固定维度、维度灾难、隐藏层大小hidden size、语义坐标系

本质是：“LLM + 外部知识检索”用户问题↓Embedding 向量化↓向量数据库检索↓找出最相似内容↓拼接 Prompt↓LLM 生成答案核心在于：“如何判断两段文本语义是否相似”而这就是 embedding 模型的职责。Embedding：本质是：“把文本转换成数学向量”"猫喜欢吃鱼"就是向量（Vector）每个数字是一个特征所有数字共同表达文本语义把语言转换成高维数学空间而 embeddi