文献深度阅读:LlamaGen

——自回归模型在图像生成领域的复兴

一、论文基本信息

论文标题:Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

作者:Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan

发表时间:2024年6月(arXiv:2406.06525)

研究机构:香港大学、字节跳动

论文链接:https://arxiv.org/abs/2406.06525

二、研究背景与动机

扩散模型(Diffusion Models)自2020年以来一直是图像生成领域的主流技术路线,其通过逐步去噪的过程生成高质量图像,在Stable Diffusion、DALL-E 2、Imagen等模型中取得了巨大成功。然而,扩散模型的迭代采样过程导致推理速度较慢,且与当前大语言模型(LLM)的自回归范式存在本质差异。

自回归模型在NLP领域的成功(如GPT系列、Llama)引发了一个重要问题:

"如果将Llama等原始自回归模型的'下一个token预测'范式应用于视觉生成领域,是否能够达到甚至超越扩散模型的性能?"

LlamaGen正是对这一问题的肯定回答。该研究证明了,即使没有针对视觉信号的归纳偏置,朴素的自回归模型架构在适当扩展的情况下,同样可以实现最先进的图像生成性能。

三、核心方法与技术细节

3.1 图像Tokenizer的重新设计

研究团队首先重新审视了图像Tokenizer的设计空间。与2020年的VQ-GAN相比,他们提出了三个关键认知:

1. 更大的Codebook Size:增加码本大小可以提高表征能力

2. 更低的Codebook Vector Dimension:降低向量维度有助于提高码本利用率

3. 更多的Token数量:更好的图像重建需要更多的Token

最终设计的Tokenizer在ImageNet上达到了0.94的rFID(重建FID)和97%的码本使用率,下采样比率为16。这一结果表明,基于离散表征的Tokenizer性能已经与扩散模型中广泛使用的连续VAE持平。

3.2 Llama架构的迁移

LlamaGen的模型架构完全基于Llama语言模型,包括:

• RMSNorm预归一化:稳定深层网络的训练

• SwiGLU激活函数:替代传统ReLU,提升表达能力

• RoPE位置编码:旋转位置编码,更好地捕捉序列中的位置信息

值得注意的是,作者有意保持与Llama语言模型完全一致的架构,没有引入图像生成领域常用的技术(如AdaLN),以验证原始自回归架构的有效性。

3.3 两阶段训练策略

第一阶段:在LAION-COCO的5000万子集上训练,图像分辨率为256×256。数据筛选基于图像URL有效性、美学分数、水印分数、CLIP图文相似度和图像大小。

第二阶段:在1000万内部高美学质量图像上微调,分辨率为512×512。文本描述由LLaVa生成,显著提升了生成图像的视觉质量。

四、实验结果与分析

4.1 ImageNet基准测试

在ImageNet 256×256基准上,LlamaGen取得了令人瞩目的成绩:

• LlamaGen-3B模型FID达到2.18,超越了流行的扩散模型LDM和DiT

• 在FID、IS、Precision、Recall等指标上均表现出强劲竞争力

• 在各个参数量级上均优于之前的自回归模型

这一结果有力地证明了:最朴素的自回归模型架构有能力作为先进图像生成系统的基础模型。

4.2 推理速度优势

基于原生自回归架构的图像生成模型可以无缝采用现有的LLM部署框架(如vLLM)。实验表明,基于vLLM的部署方式为LlamaGen带来了326%-414%的推理加速,这是统一模型架构带来的显著优势。

4.3 文生图能力

经过两阶段训练后,LlamaGen展现出:

• 良好的图文对齐能力

• 高质量的视觉生成效果

• 支持长文本输入,生成与描述高度一致的图像

五、与相关工作的对比

与扩散模型的对比:LlamaGen在性能上超越了LDM、DiT等扩散模型,同时具有更快的推理速度和与LLM统一的架构优势。

与VAR的对比:同期发表的VAR(Visual Autoregressive Modeling)同样探索了自回归图像生成,但采用了"下一尺度预测"的范式。LlamaGen则坚持最原始的"下一token预测",两者代表了自回归图像生成的不同技术路线。

与DALL-E、Parti的对比:这些早期自回归模型展现了巨大潜力但未开源。LlamaGen提供了开源的完整方案,推动了社区对自回归视觉生成的探索。

六、优缺点分析

优点:

1. 架构简洁优雅,完全基于成熟的Llama架构,易于理解和复现

2. 推理速度快,可复用LLM的优化基础设施(如vLLM)

3. 与语言模型架构统一,为未来的多模态统一建模奠定基础

4. 完全开源,包括模型和代码,促进了社区发展

缺点:

1. 作者坦言目前仅达到Stable Diffusion v1阶段,距离SDXL、ControlNet、Sora等更高级功能仍有差距

2. 生成高分辨率图像(如1024×1024)的能力尚未充分验证

3. 视频生成能力尚未探索

七、个人见解与思考

LlamaGen的出现标志着图像生成领域的一个重要转折点。扩散模型虽然在过去几年取得了巨大成功,但其与LLM架构的差异一直是构建统一多模态模型的障碍。LlamaGen证明了自回归架构在视觉生成中的可行性,为"一个模型同时处理理解和生成任务"的愿景提供了有力支撑。

从更宏观的视角看,这反映了深度学习领域的一个周期性规律:技术路线往往在"专用优化"和"统一架构"之间摆动。扩散模型代表了针对图像生成任务的专用优化,而LlamaGen则展示了统一架构的潜力。随着模型规模的增长和计算资源的丰富,统一架构的优势将愈发明显。

此外,LlamaGen的成功也提醒我们:在追逐最新技术的同时,不应忽视基础架构的潜力。有时候,"朴素"的方法在适当的扩展和优化下,同样可以达到甚至超越复杂方法的效果。

八、未来展望

基于LlamaGen的研究成果,未来可以从以下几个方向深入探索:

1. 更高分辨率和多宽高比:类似SDXL的技术路线

2. 可控生成:引入ControlNet等条件控制机制

3. 视频生成:向Sora方向扩展,探索时序建模

4. 多模态统一:在同一个模型中联合训练理解和生成任务

九、总结

LlamaGen是一项具有里程碑意义的研究,它成功地挑战了扩散模型在图像生成领域的主导地位,证明了自回归架构同样可以达到最先进的性能。更重要的是,它为构建统一的多模态基础模型提供了可行的技术路径。随着研究的深入,我们有理由期待自回归模型在视觉生成领域取得更大的突破。

十、参考信息

论文地址:https://arxiv.org/abs/2406.06525

项目主页:https://peizesun.github.io/llamagen/

GitHub:https://github.com/FoundationVision/LlamaGen

在线体验:https://huggingface.co/spaces/FoundationVision/LlamaGen

Hugging Face模型:https://huggingface.co/FoundationVision/LlamaGen

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐