自回归、扩散、混合:三大统一多模态范式怎么选?
上一篇我们用一张地图认识了 GPT-4o 之后最热的方向:统一理解与生成。今天把其中三条主路——纯自回归、纯扩散、AR+扩散混合——压缩讲清楚:它们怎么工作、代表作是谁、强在哪、又卡在哪。
先记住一句话:
AR 擅长“想”,Diffusion 擅长“画”。
自回归(AR)和语言模型天然一致,靠 next-token prediction 一个接一个生成,擅长语义推理与组合控制;但逐 token 生成图像慢,且容易误差累积。扩散(Diffusion)通过反复去噪生成,图像保真度高、可并行,却不太适合“一步步推理”。三条路线,本质上都是在调和这对矛盾。
1. 纯自回归:万物皆 Token
▲ 纯自回归路线:图像与文本都离散成 token,统一 next-token 预测
它怎么工作?
纯 AR 的核心信念是:既然语言可以 token 化,图像也可以 token 化。
图像被切成离散视觉 token,与文本 token 拼成统一序列,交给同一个 Transformer,用同一个目标训练:
$$p(x)=\prod_{t=1}^{T}p(x_t|x_{理解时,模型输入图文 token,输出文本答案;生成时,模型输出图像 token,再由解码器还原成图像。Chameleon 最早系统验证了这条路的可行性。
代表作
| 模型 | 亮点 | 链接 |
|---|---|---|
| Chameleon | 早期 token 化混合模态,统一自回归生成图文 | arXiv:2405.09818 |
| Emu3 / Emu3.5 | “Next-Token Prediction is All You Need”,证明纯 AR 也能很强 | arXiv:2409.18869 |
| Janus-Pro | 解耦视觉编码,缓解理解与生成共用编码器的冲突 | arXiv:2501.17811 |
优势与短板
优势:
-
接口最干净:一套 token、一个模型、一个目标;
-
与 LLM 生态天然兼容;
-
擅长语义推理、组合控制;
-
架构简洁,最容易 scale。
短板:
-
图像离散化会损失细节;
-
逐 token 生成图像效率低;
-
长序列生成容易误差累积。
一句话:纯 AR 赌的是 简洁 + 可扩展。它现在未必画得最美,但架构最优雅,长期想象空间大。
2. 纯扩散:并行去噪
▲ 纯扩散路线:从全 mask 开始,并行迭代去噪
它怎么工作?
纯扩散换了一种生成哲学:不是从左到右生成,而是先打草稿,再反复精修。
以 Masked Diffusion 为例,模型先把文本和图像 token 大量 mask 掉,再逐步预测被遮住的内容。它的目标可写成:
相比 AR,扩散有两个明显特点:
-
双向上下文:不只看左边,而是看全局;
-
并行生成:不必一个 token 一个 token 吐出来。
因此它天然适合联合 inpainting、图像编辑、可控生成等任务。
代表作
| 模型 | 亮点 | 链接 |
|---|---|---|
| UniDisc | 统一多模态离散扩散,可做理解、生成和 inpainting | arXiv:2503.20853 |
| LLaDA-V / 2.0-Uni | 将扩散语言模型扩展到多模态 | HF: LLaDA2.0-Uni |
| Lavida-O | 弹性大掩码扩散,统一多任务理解与生成 | arXiv:2509.19244 |
| Omni-Diffusion | 掩码离散扩散统一建模多模态联合分布 | HF: Omni-Diffusion |
优势与短板
优势:
-
图像保真度和多样性更好;
-
支持并行生成;
-
适合 inpainting、编辑、局部重绘;
-
可灵活权衡速度与质量。
短板:
-
文本适合离散扩散,图像常用连续扩散,统一难度高;
-
复杂推理能力仍在追赶 AR;
-
训练和工程门槛较高,目前相对小众。
一句话:纯扩散赌的是 生成质量 + 并行可控。它不算最卷,但硬骨头很多,适合想做差异化的人。
3. AR + 扩散混合:各司其职
▲ 混合路线:AR 负责语义规划,扩散/流匹配负责高保真生成
它怎么工作?
混合路线最务实:AR 负责“想清楚”,Diffusion 负责“画得好”。
通常做法是:用自回归主干完成理解、推理、文本生成和语义规划;再将图像生成交给扩散模型或 Flow Matching 解码器。整体目标可以理解为:
其中 AR 部分负责语言与语义结构,扩散部分负责高质量视觉合成。GPT-4o、BAGEL、Show-o2 等都可以归入这一大方向。
代表作
| 模型 | 亮点 | 链接 |
|---|---|---|
| Transfusion | 一个模型中结合文本 next-token 与图像扩散生成 | arXiv:2408.11039 |
| Show-o / Show-o2 | 单 Transformer:文本自回归 + 图像离散扩散 | arXiv:2408.12528 |
| BAGEL | 原生统一、支持交错生成的开源基座 | arXiv:2505.14683 |
| BLIP3-o | 在 CLIP 特征空间用流匹配生成,提升对齐与多样性 | arXiv:2505.09568 |
优势与短板
优势:
-
理解强,生成也美;
-
适合图像编辑、多轮交互、图文交错生成;
-
开源 baseline 多,复现和改进都比较方便;
-
当前社区最热,产出密集。
短板:
-
架构比纯 AR / 纯扩散更复杂;
-
AR 与扩散的训练目标、数据分布、表示空间需要对齐;
-
工程调参成本更高。
一句话:混合路线赌的是 我全都要。它是当前最安全、最主流的路线,适合快速上手和出成果。
三条路线怎么选?
| 路线 | 一句话哲学 | 代表作 | 适合谁 |
|---|---|---|---|
| 纯自回归 | 简洁 + 可扩展 | Emu3.5 / Janus-Pro | 想押注长期 scaling、做统一架构 |
| 纯扩散 | 生成质量 + 并行可控 | UniDisc / LLaDA | 想差异化、避开内卷、啃硬骨头 |
| AR+扩散混合 | 我全都要 | Show-o2 / BAGEL | 想快速复现、跟主流、做应用与改进 |
最后:怎么动手?
如果不确定从哪条路开始,建议先复现一个混合 baseline,比如 Show-o 或 BAGEL,跑通完整链路:数据、tokenizer、训练目标、推理生成。等建立手感后,再决定深挖纯 AR、纯扩散,还是继续做混合架构。
无论押哪条路线,三个问题都绕不开:
-
Tokenization:图像如何离散化?文本和视觉 token 如何对齐?
-
跨模态注意力:图文信息如何有效交互?
-
训练数据:理解、生成、编辑、交错数据如何配比?
从这三点任选一个深挖,都是现成的好选题。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)