VAR——NeurIPS 2024最佳论文：视觉自回归建模的新范式

beyyi

597人浏览 · 2026-05-23 14:00:00

beyyi · 2026-05-23 14:00:00 发布

一、论文基本信息

论文标题：Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

作者：Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang

发表时间：2024年4月（arXiv:2404.02905），NeurIPS 2024最佳论文

研究机构：北京大学、字节跳动

论文链接：https://arxiv.org/abs/2404.02905

二、研究背景与动机

自回归模型在自然语言处理领域取得了巨大成功，GPT系列、Llama等大语言模型展现了强大的生成能力和可扩展性。然而，在计算机视觉领域，自回归模型长期被扩散模型压制。传统的自回归图像生成方法采用光栅扫描（raster-scan）顺序，逐像素或逐token生成图像，这种方式存在几个根本性问题：

1. 生成顺序与人类视觉感知不符：人类理解图像是从整体到局部，而非逐行扫描

2. 长程依赖建模困难：光栅扫描顺序下，空间上相邻的像素在序列中可能相距很远

3. 生成质量与效率的权衡：为了提高质量需要更多采样步骤，导致推理速度下降

VAR（Visual Autoregressive Modeling）的核心理念是：

"重新定义图像上的自回归学习为从粗到细的'下一尺度预测'，而非标准的'下一token预测'"

三、核心方法与技术细节

3.1 多尺度图像表征

VAR采用多尺度VQ-VAE将图像编码为不同分辨率的token图：

• 原始图像被编码为K个不同尺度的离散token图

• 从低分辨率（如1×1）到高分辨率（如32×32）逐步细化

• 每个尺度的token图作为下一个尺度的条件

3.2 下一尺度预测范式

与传统自回归的"下一token预测"不同，VAR采用"下一尺度预测"：

训练阶段：给定前k-1个尺度的token图，预测第k个尺度的token图

推理阶段：从最低分辨率开始，逐步生成更高分辨率的图像

这种从粗到细的生成过程更符合人类视觉认知，同时大大降低了序列长度（从O(H×W)降到O(log(H×W))），显著提升了生成效率。

3.3 模型架构

VAR采用Transformer架构，但针对多尺度生成进行了特殊设计：

• 尺度嵌入（Scale Embedding）：为不同尺度的token图添加位置信息

• 自注意力机制：在每个尺度内部以及跨尺度之间建立依赖关系

• 条件生成：支持类别条件（class-conditional）和文本条件（text-conditional）生成

四、实验结果与分析

4.1 ImageNet基准测试的突破性成果

在ImageNet 256×256基准上，VAR取得了革命性的突破：

• FID从18.65（AR基线）降至1.73，提升了10倍以上

• IS从80.4提升至350.2

• 推理速度提升约20倍

这是自回归模型首次在图像生成质量上超越扩散Transformer（DiT）。

4.2 与扩散Transformer的全面对比

VAR在多个维度上超越了DiT：

图像质量：FID更低，生成图像更清晰、更真实

推理速度：单次前向传播即可完成生成，无需迭代去噪

数据效率：在较少训练数据下仍能达到良好性能

可扩展性：展现出与LLM类似的Scaling Laws

4.3 Scaling Laws的验证

VAR模型展现出与大语言模型相似的幂律扩展规律（Power-Law Scaling Laws）：

• 模型性能随参数规模增加而可预测地提升

• 线性相关系数接近-0.998，提供了强有力的证据

• 这一发现为大规模视觉模型的训练提供了理论基础

4.4 零样本泛化能力

VAR在下游任务上展现出强大的零样本泛化能力，包括图像修复（in-painting）、图像扩展（out-painting）和图像编辑。这表明VAR初步具备了LLM的两个重要特性：Scaling Laws和零样本任务泛化。

五、与相关工作的对比

与传统自回归模型的对比：VAR摒弃了光栅扫描顺序，采用多尺度生成策略，从根本上解决了长程依赖建模困难的问题。

与扩散模型的对比：VAR作为自回归模型，生成过程是确定性的单次前向传播，而扩散模型需要多步迭代去噪。VAR在速度和可解释性上具有优势。

与LlamaGen的对比：两者同期探索自回归图像生成，但技术路线不同。LlamaGen坚持"下一token预测"，而VAR采用"下一尺度预测"。VAR在多尺度建模上更具创新性，而LlamaGen在架构简洁性和与LLM的统一性上更胜一筹。

六、优缺点分析

优点：

1. 创新的多尺度生成范式，更符合人类视觉认知

2. 首次使自回归模型在图像生成上超越扩散模型

3. 推理速度快，无需迭代采样

4. 验证Scaling Laws，为大模型训练提供理论支撑

5. 零样本泛化能力强，具备通用视觉模型的潜力

缺点：

1. 多尺度VQ-VAE的设计和训练较为复杂

2. 生成过程虽然快，但每个尺度仍需完整的Transformer前向传播

3. 在极高分辨率（如4K）生成上的能力尚未充分验证

七、个人见解与思考

VAR获得NeurIPS 2024最佳论文实至名归。这项研究不仅技术上具有突破性，更重要的是它提供了一个全新的视角来思考图像生成问题。

从认知科学的角度看，VAR的多尺度生成范式与人类视觉感知机制高度契合。人类观察图像时，首先把握整体轮廓和主要结构，然后逐步关注细节。VAR的"从粗到细"生成过程正是对这一认知过程的模拟。相比之下，光栅扫描顺序是一种"机器友好"但"人类不友好"的方式。

从计算效率的角度看，VAR将序列长度从O(H×W)降低到O(log(H×W))，这是一个质的飞跃。对于高分辨率图像生成，这种效率提升尤为关键。

从统一建模的角度看，VAR和LlamaGen等自回归模型的崛起，预示着视觉生成领域正在向与NLP统一的方向发展。未来的多模态大模型很可能会采用自回归作为统一的生成范式，而VAR为此提供了重要的技术基础。

八、未来展望

VAR的成功开启了视觉自回归建模的新篇章，未来可能的发展方向包括：

1. 视频生成：将多尺度思想扩展到时间维度，实现高质量视频生成

2. 3D生成：探索多尺度表征在3D内容生成中的应用

3. 多模态统一：将VAR与语言模型结合，构建统一的多模态基础模型

4. 可控生成：引入更精细的条件控制机制，如布局、姿态、风格等

5. 高效推理：进一步优化模型结构和推理过程，实现实时生成

九、总结

VAR是一项具有里程碑意义的研究，它通过"下一尺度预测"的创新范式，成功解决了传统自回归图像生成的核心问题，首次使自回归模型在性能上超越扩散模型。更重要的是，VAR展现了Scaling Laws和零样本泛化能力，初步具备了大型语言模型的关键特性。

作为NeurIPS 2024最佳论文，VAR不仅代表了当前视觉生成领域的最高水平，更为未来统一的多模态基础模型指明了方向。我们有理由期待，基于VAR的技术路线将在视觉生成领域带来更多突破性进展。

十、参考信息

论文地址：https://arxiv.org/abs/2404.02905

项目主页：https://var.vision/

GitHub：https://github.com/FoundationVision/VAR

在线演示：https://var.vision/

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

comfyui Z-Image运行报错：error in loading state dict for llama2 size mismatch 的解决方法

AtomGit开源社区

基于langchain4j的ai编程助手项目（完整篇）

AtomGit开源社区

算法时代的生存法则：企业如何守住品牌信息的真实底线

AtomGit开源社区

所有评论(0)

查看更多评论

beyyi

@m0_70584799

已为社区贡献12条内容

VAR——NeurIPS 2024最佳论文：视觉自回归建模的新范式

beyyi

一、论文基本信息

二、研究背景与动机

三、核心方法与技术细节

3.1 多尺度图像表征

3.2 下一尺度预测范式

3.3 模型架构

四、实验结果与分析

4.1 ImageNet基准测试的突破性成果

4.2 与扩散Transformer的全面对比

4.3 Scaling Laws的验证

4.4 零样本泛化能力

五、与相关工作的对比

六、优缺点分析

七、个人见解与思考

八、未来展望

九、总结

十、参考信息

所有评论(0)

温馨提示：您尚未绑定手机号

beyyi