LlamaGen——自回归模型在图像生成领域的复兴

beyyi

477人浏览 · 2026-05-23 09:56:40

beyyi · 2026-05-23 09:56:40 发布

文献深度阅读：LlamaGen

——自回归模型在图像生成领域的复兴

一、论文基本信息

论文标题：Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

作者：Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan

发表时间：2024年6月（arXiv:2406.06525）

研究机构：香港大学、字节跳动

论文链接：https://arxiv.org/abs/2406.06525

二、研究背景与动机

扩散模型（Diffusion Models）自2020年以来一直是图像生成领域的主流技术路线，其通过逐步去噪的过程生成高质量图像，在Stable Diffusion、DALL-E 2、Imagen等模型中取得了巨大成功。然而，扩散模型的迭代采样过程导致推理速度较慢，且与当前大语言模型（LLM）的自回归范式存在本质差异。

自回归模型在NLP领域的成功（如GPT系列、Llama）引发了一个重要问题：

"如果将Llama等原始自回归模型的'下一个token预测'范式应用于视觉生成领域，是否能够达到甚至超越扩散模型的性能？"

LlamaGen正是对这一问题的肯定回答。该研究证明了，即使没有针对视觉信号的归纳偏置，朴素的自回归模型架构在适当扩展的情况下，同样可以实现最先进的图像生成性能。

三、核心方法与技术细节

3.1 图像Tokenizer的重新设计

研究团队首先重新审视了图像Tokenizer的设计空间。与2020年的VQ-GAN相比，他们提出了三个关键认知：

1. 更大的Codebook Size：增加码本大小可以提高表征能力

2. 更低的Codebook Vector Dimension：降低向量维度有助于提高码本利用率

3. 更多的Token数量：更好的图像重建需要更多的Token

最终设计的Tokenizer在ImageNet上达到了0.94的rFID（重建FID）和97%的码本使用率，下采样比率为16。这一结果表明，基于离散表征的Tokenizer性能已经与扩散模型中广泛使用的连续VAE持平。

3.2 Llama架构的迁移

LlamaGen的模型架构完全基于Llama语言模型，包括：

• RMSNorm预归一化：稳定深层网络的训练

• SwiGLU激活函数：替代传统ReLU，提升表达能力

• RoPE位置编码：旋转位置编码，更好地捕捉序列中的位置信息

值得注意的是，作者有意保持与Llama语言模型完全一致的架构，没有引入图像生成领域常用的技术（如AdaLN），以验证原始自回归架构的有效性。

3.3 两阶段训练策略

第一阶段：在LAION-COCO的5000万子集上训练，图像分辨率为256×256。数据筛选基于图像URL有效性、美学分数、水印分数、CLIP图文相似度和图像大小。

第二阶段：在1000万内部高美学质量图像上微调，分辨率为512×512。文本描述由LLaVa生成，显著提升了生成图像的视觉质量。

四、实验结果与分析

4.1 ImageNet基准测试

在ImageNet 256×256基准上，LlamaGen取得了令人瞩目的成绩：

• LlamaGen-3B模型FID达到2.18，超越了流行的扩散模型LDM和DiT

• 在FID、IS、Precision、Recall等指标上均表现出强劲竞争力

• 在各个参数量级上均优于之前的自回归模型

这一结果有力地证明了：最朴素的自回归模型架构有能力作为先进图像生成系统的基础模型。

4.2 推理速度优势

基于原生自回归架构的图像生成模型可以无缝采用现有的LLM部署框架（如vLLM）。实验表明，基于vLLM的部署方式为LlamaGen带来了326%-414%的推理加速，这是统一模型架构带来的显著优势。

4.3 文生图能力

经过两阶段训练后，LlamaGen展现出：

• 良好的图文对齐能力

• 高质量的视觉生成效果

• 支持长文本输入，生成与描述高度一致的图像

五、与相关工作的对比

与扩散模型的对比：LlamaGen在性能上超越了LDM、DiT等扩散模型，同时具有更快的推理速度和与LLM统一的架构优势。

与VAR的对比：同期发表的VAR（Visual Autoregressive Modeling）同样探索了自回归图像生成，但采用了"下一尺度预测"的范式。LlamaGen则坚持最原始的"下一token预测"，两者代表了自回归图像生成的不同技术路线。

与DALL-E、Parti的对比：这些早期自回归模型展现了巨大潜力但未开源。LlamaGen提供了开源的完整方案，推动了社区对自回归视觉生成的探索。

六、优缺点分析

优点：

1. 架构简洁优雅，完全基于成熟的Llama架构，易于理解和复现

2. 推理速度快，可复用LLM的优化基础设施（如vLLM）

3. 与语言模型架构统一，为未来的多模态统一建模奠定基础

4. 完全开源，包括模型和代码，促进了社区发展

缺点：

1. 作者坦言目前仅达到Stable Diffusion v1阶段，距离SDXL、ControlNet、Sora等更高级功能仍有差距

2. 生成高分辨率图像（如1024×1024）的能力尚未充分验证

3. 视频生成能力尚未探索

七、个人见解与思考

LlamaGen的出现标志着图像生成领域的一个重要转折点。扩散模型虽然在过去几年取得了巨大成功，但其与LLM架构的差异一直是构建统一多模态模型的障碍。LlamaGen证明了自回归架构在视觉生成中的可行性，为"一个模型同时处理理解和生成任务"的愿景提供了有力支撑。

从更宏观的视角看，这反映了深度学习领域的一个周期性规律：技术路线往往在"专用优化"和"统一架构"之间摆动。扩散模型代表了针对图像生成任务的专用优化，而LlamaGen则展示了统一架构的潜力。随着模型规模的增长和计算资源的丰富，统一架构的优势将愈发明显。

此外，LlamaGen的成功也提醒我们：在追逐最新技术的同时，不应忽视基础架构的潜力。有时候，"朴素"的方法在适当的扩展和优化下，同样可以达到甚至超越复杂方法的效果。

八、未来展望

基于LlamaGen的研究成果，未来可以从以下几个方向深入探索：

1. 更高分辨率和多宽高比：类似SDXL的技术路线

2. 可控生成：引入ControlNet等条件控制机制

3. 视频生成：向Sora方向扩展，探索时序建模

4. 多模态统一：在同一个模型中联合训练理解和生成任务

九、总结

LlamaGen是一项具有里程碑意义的研究，它成功地挑战了扩散模型在图像生成领域的主导地位，证明了自回归架构同样可以达到最先进的性能。更重要的是，它为构建统一的多模态基础模型提供了可行的技术路径。随着研究的深入，我们有理由期待自回归模型在视觉生成领域取得更大的突破。

十、参考信息

论文地址：https://arxiv.org/abs/2406.06525

项目主页：https://peizesun.github.io/llamagen/

GitHub：https://github.com/FoundationVision/LlamaGen

在线体验：https://huggingface.co/spaces/FoundationVision/LlamaGen

Hugging Face模型：https://huggingface.co/FoundationVision/LlamaGen

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

comfyui Z-Image运行报错：error in loading state dict for llama2 size mismatch 的解决方法

AtomGit开源社区

基于langchain4j的ai编程助手项目（完整篇）

AtomGit开源社区

算法时代的生存法则：企业如何守住品牌信息的真实底线

AtomGit开源社区

所有评论(0)

查看更多评论

beyyi

@m0_70584799

已为社区贡献12条内容

LlamaGen——自回归模型在图像生成领域的复兴

beyyi

文献深度阅读：LlamaGen

一、论文基本信息

二、研究背景与动机

三、核心方法与技术细节

3.1 图像Tokenizer的重新设计

3.2 Llama架构的迁移

3.3 两阶段训练策略

四、实验结果与分析

4.1 ImageNet基准测试

4.2 推理速度优势

4.3 文生图能力

五、与相关工作的对比

六、优缺点分析

七、个人见解与思考

八、未来展望

九、总结

十、参考信息

所有评论(0)

温馨提示：您尚未绑定手机号

beyyi