2605.VGGT-Omega 论文解读: 3D重建的Scaling Law, Register Attention效率革命 | Oxford+Meta CVPR26 Oral
VGGT-Omega: Scaling Feed-Forward 3D Reconstruction
Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al.
Visual Geometry Group, Oxford + Meta AI | CVPR 2026 Oral | arXiv 2605.15195
一句话总结
VGGT-Omega 是 VGGT 的大规模升级版,通过Register Attention、简化预测头和自监督训练,将训练显存降至前作的 30%,从而支持 15 倍数据规模和 10B 参数模型。首次证明 3D 重建模型存在类似 LLM 的幂律 Scaling Law,在 Sintel 相机估计上提升 77%(CVPR 2026 Oral)。
核心问题
前馈式 3D 重建模型(如 VGGT、DUSt3R、MASt3R)已证明可以媲美传统优化方法(COLMAP),同时提供可复用的几何感知特征。但一个关键问题未被回答:
- 这类模型能否像 LLM 那样从规模扩大中持续获益?
- 如果可以,如何克服 GPU 显存瓶颈以训练更大模型、使用更多数据?
VGGT 的全局注意力机制是 O(N^2) 的显存和计算瓶颈,DPT 卷积头占据大量中间激活显存,多个密集预测头进一步加剧问题。
为什么选 Register Attention?
| 方案 | 优势 | 劣势 |
|---|---|---|
| Full Global Attention (VGGT) | 所有 Token 可跨帧交互 | O(N^2) 显存/计算;注意力图实际很稀疏 |
| Token Merging / Sparse Attention | 减少 Token 数量 | 可能丢失关键细节信息 |
| Register Attention (本文) | 仅 16 个 Register 跨帧交互;无性能损失 | 全替换会降质(保留 25% 全局层为最优) |
关键发现:全局注意力图实际非常稀疏(Fig 3),只有极少数 Token 真正参与跨帧信息交换。Register 正是这些 Token 的显式化版本。
整体框架
图2:VGGT-Omega 架构。每帧添加 Camera Token + 16 个 Scene Token (Register),交替进行全局/Register 注意力和帧内注意力。密集预测头简化为 MLP + Pixel Shuffle。
三大架构改进:
- Register Attention:25% 的全局注意力层替换为 Register-only 注意力(仅 Register 跨帧通信),节省 23% FLOPs、16% 显存,性能不降反升
- 简化密集预测头:移除 DPT 中的高分辨率卷积层,改用 MLP + Pixel Shuffle,大幅节省显存
- 单头多任务:仅保留一个 Dense Head(深度预测)+ 一个 Sparse Head(相机参数),用多任务 Loss 联合监督,取代原来的多个独立头
总效果:训练显存降至 VGGT 的 ~30%,推理速度提升 20-25%。
Scaling Law:3D 重建的幂律
图1:模型规模和数据规模的 Scaling 曲线。Point Error 随模型/数据增大呈幂律下降。
| 维度 | 范围 | Point Error 变化 |
|---|---|---|
| 模型规模 | 0.2B - 1B - 5B - 10B | 0.107 - 0.073 - 0.057 - 0.046 |
| 数据规模 | 2K - 100K - 1M - 2M 序列 | 0.275 - 0.160 - 0.129 - 0.073 |
核心发现:3D 重建模型首次展现出类似 LLM 的幂律 Scaling 行为。数据和模型规模的持续扩大带来单调性能提升,无明显饱和。
方法详解
训练损失
$$\mathcal{L} = \lambda_{\mathrm{cam}} \mathcal{L}_{\mathrm{cam}} + \lambda_{\mathrm{depth}} \mathcal{L}_{\mathrm{depth}} + \lambda_{\mathrm{point}} \mathcal{L}_{\mathrm{point}} + \lambda_{\mathrm{match}} \mathcal{L}_{\mathrm{match}}$$
- Camera Loss:L1 损失比较预测和 GT 相机参数(四元数旋转 + 平移 + FOV)
- Depth Loss:相对尺度深度 + 梯度一致性 + 不确定性估计
- Point Loss:将深度反投影为 3D 点,与 GT 点云对齐
- Matching Loss:对比学习拉近对应 3D 位置的 Token 特征,推开不对应的
动态场景重建
关键设计选择:仅预测深度图和相机参数,不显式建模运动。
- 相机参数与场景运动天然解耦:深度描述几何,相机描述观测位姿
- 避免引入昂贵的运动分割/光流输出
- 模型通过大规模动态数据训练自动学习运动感知(PCA 聚类能无监督分割运动物体)
数据标注流水线
从 40M 互联网视频 出发:
- VLM 过滤(去除 50% 不可重建视频)
- Grounding DINO 提取动态区域 Mask
- 多方法特征匹配(SIFT + SuperPoint + SuperGlue + ALIKED + LightGlue)
- VGGT + COLMAP 联合标注相机和深度
- 多视图一致性 + XGBoost 分类器过滤低质量样本
最终产出:0.8M 高质量标注序列(200K 动态 + 600K 静态)+ 3M 公开数据 = 4M 总量(15x VGGT)。
自监督训练(DINO 风格)
Teacher-Student 蒸馏,在 18M 无标注视频上训练:
- Student:梯度下降更新;Teacher:EMA 更新
- 相同输入不同增强 + 帧顺序打乱
- Student 匹配 Teacher 的特征分布 (L2) + 预测 (camera, depth)
- Point Error 从 0.073 降至 0.070,且泛化能力显著提升
主要结果
相机位姿估计
| 方法 | 7 Scenes (AUC@3) | Sintel (AUC@3) | DyCheck (AUC@3) |
|---|---|---|---|
| VGGT | 10.9 | 15.0 | 21.0 |
| MegaSaM | 10.6 | 22.5 | 26.8 |
| DA3 | 18.7 | 16.2 | 32.1 |
| VGGT-Omega 1B | 29.6 | 35.3 | 38.4 |
| VGGT-Omega 10B | 36.4 | 40.0 | 43.7 |
Sintel AUC@3: 22.5 - 40.0,相对提升 77%。在所有静态和动态 Benchmark 上全面超越 VGGT、DA3、MegaSaM。
深度估计
| 方法 | Sintel delta1.25 | Sintel AbsRel | ETH3D delta1.25 |
|---|---|---|---|
| MegaSaM | 74.1 | 0.207 | 94.8 |
| DA3 | 86.1 | 0.118 | 99.6 |
| VGGT-Omega 1B | 89.5 | 0.097 | 99.8 |
| VGGT-Omega 10B | 93.5 | 0.081 | 99.8 |
推理效率
图7:单张 80GB A100 上的显存和速度对比。VGGT-Omega 可处理 >1000 帧而不 OOM,DA3 在 ~750 帧即耗尽显存。
Register Token 下游应用
| 方法 | Spatial SR% | Object SR% | Goal SR% | Average SR% |
|---|---|---|---|---|
| OpenVLA-OFT | 97.6 | 98.4 | 97.9 | 97.1 |
| + Frozen Scene Tokens | 99.3 | 99.2 | 99.0 | 98.5 |
冻结的 VGGT-Omega Register Token 作为即插即用几何特征,直接提升 VLA 机器人操控性能。
语言对齐:Register Token 通过 CLIP 风格对比学习可与文本对齐,Top-1 检索准确率 76.8%,零样本 47.5%。证明重建学到的 Register 携带高层语义信息。
核心创新点
| 创新 | 类型 | 说明 |
|---|---|---|
| Register Attention | 全新机制 | 限制跨帧信息仅通过 Register 交换,23% FLOPs 节省无性能损失 |
| 3D 重建 Scaling Law | 全新发现 | 首次证明前馈重建模型存在幂律 Scaling |
| Register 复用于 VLA/语言 | 全新应用 | 重建作为空间理解的 Proxy Task,Register 是天然的场景表征 |
| MLP+PixelShuffle 替代 DPT | 工程改进 | 大幅节省显存,定性略有 blocky artifacts 但指标相当 |
| 40M 视频标注流水线 | 工程系统 | VLM 过滤 + COLMAP + 分类器,产出 0.8M 高质量动态场景标注 |
局限性与展望
- 标注依赖优化:数据流水线仍需 COLMAP 迭代优化,非全端到端可扩展
- 10B 模型推理成本:论文未报告实时性指标,10B 模型部署可行性存疑
- 自监督增益有限:Point Error 仅从 0.073 降至 0.070,当前协议可能次优
- MLP 头 Blocky Artifacts:深度图中出现块状伪影(尤其室外远距离场景),保留浅卷积层作为折衷
- 内部数据不公开:40M 视频集合为 Meta 内部数据,社区无法完全复现
- 动态建模隐式:不显式建模运动/光流,难以用于需要逐像素运动估计的下游任务
总结
VGGT-Omega 的核心贡献在于:首次证明 3D 重建模型遵循幂律 Scaling Law,并通过 Register Attention 等架构改进,使大规模训练成为可能。更深远的启示是"重建即空间理解的 Pretraining"这一范式 -- Register Token 无需微调即可提升 VLA 性能、对齐语言,暗示 3D 几何重建可能是通往通用空间智能的 Proxy Task。作为 CVPR 2026 Oral,这篇论文对 3D 视觉、机器人、自动驾驶等领域都有深远影响。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)