VGGT-Omega: Scaling Feed-Forward 3D Reconstruction

Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al.

Visual Geometry Group, Oxford + Meta AI | CVPR 2026 Oral | arXiv 2605.15195

Paper | Project Page

一句话总结

VGGT-Omega 是 VGGT 的大规模升级版,通过Register Attention、简化预测头和自监督训练,将训练显存降至前作的 30%,从而支持 15 倍数据规模10B 参数模型。首次证明 3D 重建模型存在类似 LLM 的幂律 Scaling Law,在 Sintel 相机估计上提升 77%(CVPR 2026 Oral)。

核心问题

前馈式 3D 重建模型(如 VGGT、DUSt3R、MASt3R)已证明可以媲美传统优化方法(COLMAP),同时提供可复用的几何感知特征。但一个关键问题未被回答:

  • 这类模型能否像 LLM 那样从规模扩大中持续获益?
  • 如果可以,如何克服 GPU 显存瓶颈以训练更大模型、使用更多数据?

VGGT 的全局注意力机制是 O(N^2) 的显存和计算瓶颈,DPT 卷积头占据大量中间激活显存,多个密集预测头进一步加剧问题。

为什么选 Register Attention?

方案 优势 劣势
Full Global Attention (VGGT) 所有 Token 可跨帧交互 O(N^2) 显存/计算;注意力图实际很稀疏
Token Merging / Sparse Attention 减少 Token 数量 可能丢失关键细节信息
Register Attention (本文) 仅 16 个 Register 跨帧交互;无性能损失 全替换会降质(保留 25% 全局层为最优)

关键发现:全局注意力图实际非常稀疏(Fig 3),只有极少数 Token 真正参与跨帧信息交换。Register 正是这些 Token 的显式化版本。

整体框架

VGGT-Omega架构

图2:VGGT-Omega 架构。每帧添加 Camera Token + 16 个 Scene Token (Register),交替进行全局/Register 注意力和帧内注意力。密集预测头简化为 MLP + Pixel Shuffle。

三大架构改进

  • Register Attention:25% 的全局注意力层替换为 Register-only 注意力(仅 Register 跨帧通信),节省 23% FLOPs、16% 显存,性能不降反升
  • 简化密集预测头:移除 DPT 中的高分辨率卷积层,改用 MLP + Pixel Shuffle,大幅节省显存
  • 单头多任务:仅保留一个 Dense Head(深度预测)+ 一个 Sparse Head(相机参数),用多任务 Loss 联合监督,取代原来的多个独立头

总效果:训练显存降至 VGGT 的 ~30%,推理速度提升 20-25%。

Scaling Law:3D 重建的幂律

Scaling Law

图1:模型规模和数据规模的 Scaling 曲线。Point Error 随模型/数据增大呈幂律下降。

维度 范围 Point Error 变化
模型规模 0.2B - 1B - 5B - 10B 0.107 - 0.073 - 0.057 - 0.046
数据规模 2K - 100K - 1M - 2M 序列 0.275 - 0.160 - 0.129 - 0.073

核心发现:3D 重建模型首次展现出类似 LLM 的幂律 Scaling 行为。数据和模型规模的持续扩大带来单调性能提升,无明显饱和。

方法详解

训练损失

$$\mathcal{L} = \lambda_{\mathrm{cam}} \mathcal{L}_{\mathrm{cam}} + \lambda_{\mathrm{depth}} \mathcal{L}_{\mathrm{depth}} + \lambda_{\mathrm{point}} \mathcal{L}_{\mathrm{point}} + \lambda_{\mathrm{match}} \mathcal{L}_{\mathrm{match}}$$

  • Camera Loss:L1 损失比较预测和 GT 相机参数(四元数旋转 + 平移 + FOV)
  • Depth Loss:相对尺度深度 + 梯度一致性 + 不确定性估计
  • Point Loss:将深度反投影为 3D 点,与 GT 点云对齐
  • Matching Loss:对比学习拉近对应 3D 位置的 Token 特征,推开不对应的

动态场景重建

关键设计选择:仅预测深度图和相机参数,不显式建模运动

  • 相机参数与场景运动天然解耦:深度描述几何,相机描述观测位姿
  • 避免引入昂贵的运动分割/光流输出
  • 模型通过大规模动态数据训练自动学习运动感知(PCA 聚类能无监督分割运动物体)

数据标注流水线

40M 互联网视频 出发:

  • VLM 过滤(去除 50% 不可重建视频)
  • Grounding DINO 提取动态区域 Mask
  • 多方法特征匹配(SIFT + SuperPoint + SuperGlue + ALIKED + LightGlue)
  • VGGT + COLMAP 联合标注相机和深度
  • 多视图一致性 + XGBoost 分类器过滤低质量样本

最终产出:0.8M 高质量标注序列(200K 动态 + 600K 静态)+ 3M 公开数据 = 4M 总量(15x VGGT)。

自监督训练(DINO 风格)

Teacher-Student 蒸馏,在 18M 无标注视频上训练:

  • Student:梯度下降更新;Teacher:EMA 更新
  • 相同输入不同增强 + 帧顺序打乱
  • Student 匹配 Teacher 的特征分布 (L2) + 预测 (camera, depth)
  • Point Error 从 0.073 降至 0.070,且泛化能力显著提升

主要结果

相机位姿估计

方法 7 Scenes (AUC@3) Sintel (AUC@3) DyCheck (AUC@3)
VGGT 10.9 15.0 21.0
MegaSaM 10.6 22.5 26.8
DA3 18.7 16.2 32.1
VGGT-Omega 1B 29.6 35.3 38.4
VGGT-Omega 10B 36.4 40.0 43.7

Sintel AUC@3: 22.5 - 40.0,相对提升 77%。在所有静态和动态 Benchmark 上全面超越 VGGT、DA3、MegaSaM。

深度估计

方法 Sintel delta1.25 Sintel AbsRel ETH3D delta1.25
MegaSaM 74.1 0.207 94.8
DA3 86.1 0.118 99.6
VGGT-Omega 1B 89.5 0.097 99.8
VGGT-Omega 10B 93.5 0.081 99.8

推理效率

推理效率对比

图7:单张 80GB A100 上的显存和速度对比。VGGT-Omega 可处理 >1000 帧而不 OOM,DA3 在 ~750 帧即耗尽显存。

Register Token 下游应用

方法 Spatial SR% Object SR% Goal SR% Average SR%
OpenVLA-OFT 97.6 98.4 97.9 97.1
+ Frozen Scene Tokens 99.3 99.2 99.0 98.5

冻结的 VGGT-Omega Register Token 作为即插即用几何特征,直接提升 VLA 机器人操控性能。

语言对齐:Register Token 通过 CLIP 风格对比学习可与文本对齐,Top-1 检索准确率 76.8%,零样本 47.5%。证明重建学到的 Register 携带高层语义信息。

核心创新点

创新 类型 说明
Register Attention 全新机制 限制跨帧信息仅通过 Register 交换,23% FLOPs 节省无性能损失
3D 重建 Scaling Law 全新发现 首次证明前馈重建模型存在幂律 Scaling
Register 复用于 VLA/语言 全新应用 重建作为空间理解的 Proxy Task,Register 是天然的场景表征
MLP+PixelShuffle 替代 DPT 工程改进 大幅节省显存,定性略有 blocky artifacts 但指标相当
40M 视频标注流水线 工程系统 VLM 过滤 + COLMAP + 分类器,产出 0.8M 高质量动态场景标注

局限性与展望

  • 标注依赖优化:数据流水线仍需 COLMAP 迭代优化,非全端到端可扩展
  • 10B 模型推理成本:论文未报告实时性指标,10B 模型部署可行性存疑
  • 自监督增益有限:Point Error 仅从 0.073 降至 0.070,当前协议可能次优
  • MLP 头 Blocky Artifacts:深度图中出现块状伪影(尤其室外远距离场景),保留浅卷积层作为折衷
  • 内部数据不公开:40M 视频集合为 Meta 内部数据,社区无法完全复现
  • 动态建模隐式:不显式建模运动/光流,难以用于需要逐像素运动估计的下游任务

总结

VGGT-Omega 的核心贡献在于:首次证明 3D 重建模型遵循幂律 Scaling Law,并通过 Register Attention 等架构改进,使大规模训练成为可能。更深远的启示是"重建即空间理解的 Pretraining"这一范式 -- Register Token 无需微调即可提升 VLA 性能、对齐语言,暗示 3D 几何重建可能是通往通用空间智能的 Proxy Task。作为 CVPR 2026 Oral,这篇论文对 3D 视觉、机器人、自动驾驶等领域都有深远影响。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐