自回归、扩散、混合:三大统一多模态范式怎么选?

LLM精进之路

258人浏览 · 2026-06-03 18:16:06

LLM精进之路 · 2026-06-03 18:16:06 发布

上一篇我们用一张地图认识了 GPT-4o 之后最热的方向：统一理解与生成。今天把其中三条主路——纯自回归、纯扩散、AR+扩散混合——压缩讲清楚：它们怎么工作、代表作是谁、强在哪、又卡在哪。

先记住一句话：

AR 擅长“想”，Diffusion 擅长“画”。

自回归（AR）和语言模型天然一致，靠 next-token prediction 一个接一个生成，擅长语义推理与组合控制；但逐 token 生成图像慢，且容易误差累积。扩散（Diffusion）通过反复去噪生成，图像保真度高、可并行，却不太适合“一步步推理”。三条路线，本质上都是在调和这对矛盾。

1. 纯自回归：万物皆 Token

▲ 纯自回归路线：图像与文本都离散成 token，统一 next-token 预测

它怎么工作？

纯 AR 的核心信念是：既然语言可以 token 化，图像也可以 token 化。

图像被切成离散视觉 token，与文本 token 拼成统一序列，交给同一个 Transformer，用同一个目标训练：

$$p(x)=\prod_{t=1}^{T}p(x_t|x_{理解时，模型输入图文 token，输出文本答案；生成时，模型输出图像 token，再由解码器还原成图像。Chameleon 最早系统验证了这条路的可行性。

代表作

模型	亮点	链接
Chameleon	早期 token 化混合模态，统一自回归生成图文	arXiv:2405.09818
Emu3 / Emu3.5	“Next-Token Prediction is All You Need”，证明纯 AR 也能很强	arXiv:2409.18869
Janus-Pro	解耦视觉编码，缓解理解与生成共用编码器的冲突	arXiv:2501.17811

优势与短板

优势：

接口最干净：一套 token、一个模型、一个目标；
与 LLM 生态天然兼容；
擅长语义推理、组合控制；
架构简洁，最容易 scale。

短板：

图像离散化会损失细节；
逐 token 生成图像效率低；
长序列生成容易误差累积。

一句话：纯 AR 赌的是 简洁 + 可扩展。它现在未必画得最美，但架构最优雅，长期想象空间大。

2. 纯扩散：并行去噪

▲ 纯扩散路线：从全 mask 开始，并行迭代去噪

它怎么工作？

纯扩散换了一种生成哲学：不是从左到右生成，而是先打草稿，再反复精修。

以 Masked Diffusion 为例，模型先把文本和图像 token 大量 mask 掉，再逐步预测被遮住的内容。它的目标可写成：

相比 AR，扩散有两个明显特点：

双向上下文：不只看左边，而是看全局；
并行生成：不必一个 token 一个 token 吐出来。

因此它天然适合联合 inpainting、图像编辑、可控生成等任务。

代表作

模型	亮点	链接
UniDisc	统一多模态离散扩散，可做理解、生成和 inpainting	arXiv:2503.20853
LLaDA-V / 2.0-Uni	将扩散语言模型扩展到多模态	HF: LLaDA2.0-Uni
Lavida-O	弹性大掩码扩散，统一多任务理解与生成	arXiv:2509.19244
Omni-Diffusion	掩码离散扩散统一建模多模态联合分布	HF: Omni-Diffusion

优势与短板

优势：

图像保真度和多样性更好；
支持并行生成；
适合 inpainting、编辑、局部重绘；
可灵活权衡速度与质量。

短板：

文本适合离散扩散，图像常用连续扩散，统一难度高；
复杂推理能力仍在追赶 AR；
训练和工程门槛较高，目前相对小众。

一句话：纯扩散赌的是 生成质量 + 并行可控。它不算最卷，但硬骨头很多，适合想做差异化的人。

3. AR + 扩散混合：各司其职

▲ 混合路线：AR 负责语义规划，扩散/流匹配负责高保真生成

它怎么工作？

混合路线最务实：AR 负责“想清楚”，Diffusion 负责“画得好”。

通常做法是：用自回归主干完成理解、推理、文本生成和语义规划；再将图像生成交给扩散模型或 Flow Matching 解码器。整体目标可以理解为：

其中 AR 部分负责语言与语义结构，扩散部分负责高质量视觉合成。GPT-4o、BAGEL、Show-o2 等都可以归入这一大方向。

代表作

模型	亮点	链接
Transfusion	一个模型中结合文本 next-token 与图像扩散生成	arXiv:2408.11039
Show-o / Show-o2	单 Transformer：文本自回归 + 图像离散扩散	arXiv:2408.12528
BAGEL	原生统一、支持交错生成的开源基座	arXiv:2505.14683
BLIP3-o	在 CLIP 特征空间用流匹配生成，提升对齐与多样性	arXiv:2505.09568

优势与短板

优势：

理解强，生成也美；
适合图像编辑、多轮交互、图文交错生成；
开源 baseline 多，复现和改进都比较方便；
当前社区最热，产出密集。

短板：

架构比纯 AR / 纯扩散更复杂；
AR 与扩散的训练目标、数据分布、表示空间需要对齐；
工程调参成本更高。

一句话：混合路线赌的是 我全都要。它是当前最安全、最主流的路线，适合快速上手和出成果。

三条路线怎么选？

路线	一句话哲学	代表作	适合谁
纯自回归	简洁 + 可扩展	Emu3.5 / Janus-Pro	想押注长期 scaling、做统一架构
纯扩散	生成质量 + 并行可控	UniDisc / LLaDA	想差异化、避开内卷、啃硬骨头
AR+扩散混合	我全都要	Show-o2 / BAGEL	想快速复现、跟主流、做应用与改进