VAR——NeurIPS 2024最佳论文:视觉自回归建模的新范式
一、论文基本信息
论文标题:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
作者:Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang
发表时间:2024年4月(arXiv:2404.02905),NeurIPS 2024最佳论文
研究机构:北京大学、字节跳动
论文链接:https://arxiv.org/abs/2404.02905
二、研究背景与动机
自回归模型在自然语言处理领域取得了巨大成功,GPT系列、Llama等大语言模型展现了强大的生成能力和可扩展性。然而,在计算机视觉领域,自回归模型长期被扩散模型压制。传统的自回归图像生成方法采用光栅扫描(raster-scan)顺序,逐像素或逐token生成图像,这种方式存在几个根本性问题:
1. 生成顺序与人类视觉感知不符:人类理解图像是从整体到局部,而非逐行扫描
2. 长程依赖建模困难:光栅扫描顺序下,空间上相邻的像素在序列中可能相距很远
3. 生成质量与效率的权衡:为了提高质量需要更多采样步骤,导致推理速度下降
VAR(Visual Autoregressive Modeling)的核心理念是:
"重新定义图像上的自回归学习为从粗到细的'下一尺度预测',而非标准的'下一token预测'"
三、核心方法与技术细节
3.1 多尺度图像表征
VAR采用多尺度VQ-VAE将图像编码为不同分辨率的token图:
• 原始图像被编码为K个不同尺度的离散token图
• 从低分辨率(如1×1)到高分辨率(如32×32)逐步细化
• 每个尺度的token图作为下一个尺度的条件
3.2 下一尺度预测范式
与传统自回归的"下一token预测"不同,VAR采用"下一尺度预测":
训练阶段:给定前k-1个尺度的token图,预测第k个尺度的token图
推理阶段:从最低分辨率开始,逐步生成更高分辨率的图像
这种从粗到细的生成过程更符合人类视觉认知,同时大大降低了序列长度(从O(H×W)降到O(log(H×W))),显著提升了生成效率。
3.3 模型架构
VAR采用Transformer架构,但针对多尺度生成进行了特殊设计:
• 尺度嵌入(Scale Embedding):为不同尺度的token图添加位置信息
• 自注意力机制:在每个尺度内部以及跨尺度之间建立依赖关系
• 条件生成:支持类别条件(class-conditional)和文本条件(text-conditional)生成
四、实验结果与分析
4.1 ImageNet基准测试的突破性成果
在ImageNet 256×256基准上,VAR取得了革命性的突破:
• FID从18.65(AR基线)降至1.73,提升了10倍以上
• IS从80.4提升至350.2
• 推理速度提升约20倍
这是自回归模型首次在图像生成质量上超越扩散Transformer(DiT)。
4.2 与扩散Transformer的全面对比
VAR在多个维度上超越了DiT:
图像质量:FID更低,生成图像更清晰、更真实
推理速度:单次前向传播即可完成生成,无需迭代去噪
数据效率:在较少训练数据下仍能达到良好性能
可扩展性:展现出与LLM类似的Scaling Laws
4.3 Scaling Laws的验证
VAR模型展现出与大语言模型相似的幂律扩展规律(Power-Law Scaling Laws):
• 模型性能随参数规模增加而可预测地提升
• 线性相关系数接近-0.998,提供了强有力的证据
• 这一发现为大规模视觉模型的训练提供了理论基础
4.4 零样本泛化能力
VAR在下游任务上展现出强大的零样本泛化能力,包括图像修复(in-painting)、图像扩展(out-painting)和图像编辑。这表明VAR初步具备了LLM的两个重要特性:Scaling Laws和零样本任务泛化。
五、与相关工作的对比
与传统自回归模型的对比:VAR摒弃了光栅扫描顺序,采用多尺度生成策略,从根本上解决了长程依赖建模困难的问题。
与扩散模型的对比:VAR作为自回归模型,生成过程是确定性的单次前向传播,而扩散模型需要多步迭代去噪。VAR在速度和可解释性上具有优势。
与LlamaGen的对比:两者同期探索自回归图像生成,但技术路线不同。LlamaGen坚持"下一token预测",而VAR采用"下一尺度预测"。VAR在多尺度建模上更具创新性,而LlamaGen在架构简洁性和与LLM的统一性上更胜一筹。
六、优缺点分析
优点:
1. 创新的多尺度生成范式,更符合人类视觉认知
2. 首次使自回归模型在图像生成上超越扩散模型
3. 推理速度快,无需迭代采样
4. 验证Scaling Laws,为大模型训练提供理论支撑
5. 零样本泛化能力强,具备通用视觉模型的潜力
缺点:
1. 多尺度VQ-VAE的设计和训练较为复杂
2. 生成过程虽然快,但每个尺度仍需完整的Transformer前向传播
3. 在极高分辨率(如4K)生成上的能力尚未充分验证
七、个人见解与思考
VAR获得NeurIPS 2024最佳论文实至名归。这项研究不仅技术上具有突破性,更重要的是它提供了一个全新的视角来思考图像生成问题。
从认知科学的角度看,VAR的多尺度生成范式与人类视觉感知机制高度契合。人类观察图像时,首先把握整体轮廓和主要结构,然后逐步关注细节。VAR的"从粗到细"生成过程正是对这一认知过程的模拟。相比之下,光栅扫描顺序是一种"机器友好"但"人类不友好"的方式。
从计算效率的角度看,VAR将序列长度从O(H×W)降低到O(log(H×W)),这是一个质的飞跃。对于高分辨率图像生成,这种效率提升尤为关键。
从统一建模的角度看,VAR和LlamaGen等自回归模型的崛起,预示着视觉生成领域正在向与NLP统一的方向发展。未来的多模态大模型很可能会采用自回归作为统一的生成范式,而VAR为此提供了重要的技术基础。
八、未来展望
VAR的成功开启了视觉自回归建模的新篇章,未来可能的发展方向包括:
1. 视频生成:将多尺度思想扩展到时间维度,实现高质量视频生成
2. 3D生成:探索多尺度表征在3D内容生成中的应用
3. 多模态统一:将VAR与语言模型结合,构建统一的多模态基础模型
4. 可控生成:引入更精细的条件控制机制,如布局、姿态、风格等
5. 高效推理:进一步优化模型结构和推理过程,实现实时生成
九、总结
VAR是一项具有里程碑意义的研究,它通过"下一尺度预测"的创新范式,成功解决了传统自回归图像生成的核心问题,首次使自回归模型在性能上超越扩散模型。更重要的是,VAR展现了Scaling Laws和零样本泛化能力,初步具备了大型语言模型的关键特性。
作为NeurIPS 2024最佳论文,VAR不仅代表了当前视觉生成领域的最高水平,更为未来统一的多模态基础模型指明了方向。我们有理由期待,基于VAR的技术路线将在视觉生成领域带来更多突破性进展。
十、参考信息
论文地址:https://arxiv.org/abs/2404.02905
项目主页:https://var.vision/
GitHub:https://github.com/FoundationVision/VAR
在线演示:https://var.vision/
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)