上一篇我们用一张地图认识了 GPT-4o 之后最热的方向:统一理解与生成。今天把其中三条主路——纯自回归、纯扩散、AR+扩散混合——压缩讲清楚:它们怎么工作、代表作是谁、强在哪、又卡在哪。

先记住一句话:

AR 擅长“想”,Diffusion 擅长“画”。

自回归(AR)和语言模型天然一致,靠 next-token prediction 一个接一个生成,擅长语义推理与组合控制;但逐 token 生成图像慢,且容易误差累积。扩散(Diffusion)通过反复去噪生成,图像保真度高、可并行,却不太适合“一步步推理”。三条路线,本质上都是在调和这对矛盾。

1. 纯自回归:万物皆 Token

▲ 纯自回归路线:图像与文本都离散成 token,统一 next-token 预测

它怎么工作?

纯 AR 的核心信念是:既然语言可以 token 化,图像也可以 token 化。

图像被切成离散视觉 token,与文本 token 拼成统一序列,交给同一个 Transformer,用同一个目标训练:

$$p(x)=\prod_{t=1}^{T}p(x_t|x_{理解时,模型输入图文 token,输出文本答案;生成时,模型输出图像 token,再由解码器还原成图像。Chameleon 最早系统验证了这条路的可行性。

代表作

模型 亮点 链接
Chameleon 早期 token 化混合模态,统一自回归生成图文 arXiv:2405.09818
Emu3 / Emu3.5 “Next-Token Prediction is All You Need”,证明纯 AR 也能很强 arXiv:2409.18869
Janus-Pro 解耦视觉编码,缓解理解与生成共用编码器的冲突 arXiv:2501.17811

优势与短板

优势:

  • 接口最干净:一套 token、一个模型、一个目标;

  • 与 LLM 生态天然兼容;

  • 擅长语义推理、组合控制;

  • 架构简洁,最容易 scale。

短板:

  • 图像离散化会损失细节;

  • 逐 token 生成图像效率低;

  • 长序列生成容易误差累积。

一句话:纯 AR 赌的是 简洁 + 可扩展。它现在未必画得最美,但架构最优雅,长期想象空间大。

2. 纯扩散:并行去噪

▲ 纯扩散路线:从全 mask 开始,并行迭代去噪

它怎么工作?

纯扩散换了一种生成哲学:不是从左到右生成,而是先打草稿,再反复精修

以 Masked Diffusion 为例,模型先把文本和图像 token 大量 mask 掉,再逐步预测被遮住的内容。它的目标可写成:

相比 AR,扩散有两个明显特点:

  1. 双向上下文:不只看左边,而是看全局;

  2. 并行生成:不必一个 token 一个 token 吐出来。

因此它天然适合联合 inpainting、图像编辑、可控生成等任务。

代表作

模型 亮点 链接
UniDisc 统一多模态离散扩散,可做理解、生成和 inpainting arXiv:2503.20853
LLaDA-V / 2.0-Uni 将扩散语言模型扩展到多模态 HF: LLaDA2.0-Uni
Lavida-O 弹性大掩码扩散,统一多任务理解与生成 arXiv:2509.19244
Omni-Diffusion 掩码离散扩散统一建模多模态联合分布 HF: Omni-Diffusion

优势与短板

优势:

  • 图像保真度和多样性更好;

  • 支持并行生成;

  • 适合 inpainting、编辑、局部重绘;

  • 可灵活权衡速度与质量。

短板:

  • 文本适合离散扩散,图像常用连续扩散,统一难度高;

  • 复杂推理能力仍在追赶 AR;

  • 训练和工程门槛较高,目前相对小众。

一句话:纯扩散赌的是 生成质量 + 并行可控。它不算最卷,但硬骨头很多,适合想做差异化的人。

3. AR + 扩散混合:各司其职

▲ 混合路线:AR 负责语义规划,扩散/流匹配负责高保真生成

它怎么工作?

混合路线最务实:AR 负责“想清楚”,Diffusion 负责“画得好”。

通常做法是:用自回归主干完成理解、推理、文本生成和语义规划;再将图像生成交给扩散模型或 Flow Matching 解码器。整体目标可以理解为:

其中 AR 部分负责语言与语义结构,扩散部分负责高质量视觉合成。GPT-4o、BAGEL、Show-o2 等都可以归入这一大方向。

代表作

模型 亮点 链接
Transfusion 一个模型中结合文本 next-token 与图像扩散生成 arXiv:2408.11039
Show-o / Show-o2 单 Transformer:文本自回归 + 图像离散扩散 arXiv:2408.12528
BAGEL 原生统一、支持交错生成的开源基座 arXiv:2505.14683
BLIP3-o 在 CLIP 特征空间用流匹配生成,提升对齐与多样性 arXiv:2505.09568

优势与短板

优势:

  • 理解强,生成也美;

  • 适合图像编辑、多轮交互、图文交错生成;

  • 开源 baseline 多,复现和改进都比较方便;

  • 当前社区最热,产出密集。

短板:

  • 架构比纯 AR / 纯扩散更复杂;

  • AR 与扩散的训练目标、数据分布、表示空间需要对齐;

  • 工程调参成本更高。

一句话:混合路线赌的是 我全都要。它是当前最安全、最主流的路线,适合快速上手和出成果。

三条路线怎么选?

路线 一句话哲学 代表作 适合谁
纯自回归 简洁 + 可扩展 Emu3.5 / Janus-Pro 想押注长期 scaling、做统一架构
纯扩散 生成质量 + 并行可控 UniDisc / LLaDA 想差异化、避开内卷、啃硬骨头
AR+扩散混合 我全都要 Show-o2 / BAGEL 想快速复现、跟主流、做应用与改进

最后:怎么动手?

如果不确定从哪条路开始,建议先复现一个混合 baseline,比如 Show-o 或 BAGEL,跑通完整链路:数据、tokenizer、训练目标、推理生成。等建立手感后,再决定深挖纯 AR、纯扩散,还是继续做混合架构。

无论押哪条路线,三个问题都绕不开:

  1. Tokenization:图像如何离散化?文本和视觉 token 如何对齐?

  2. 跨模态注意力:图文信息如何有效交互?

  3. 训练数据:理解、生成、编辑、交错数据如何配比?

从这三点任选一个深挖,都是现成的好选题。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐