2605.VGGT-Omega 论文解读: 3D重建的Scaling Law, Register Attention效率革命 | Oxford+Meta CVPR26 Oral

koala7580

502人浏览 · 2026-05-25 16:39:31

koala7580 · 2026-05-25 16:39:31 发布

VGGT-Omega: Scaling Feed-Forward 3D Reconstruction

Jianyuan Wang, Minghao Chen, Shangzhan Zhang, Nikita Karaev, Johannes Schonberger, et al.

Visual Geometry Group, Oxford + Meta AI | CVPR 2026 Oral | arXiv 2605.15195

Paper | Project Page

一句话总结

VGGT-Omega 是 VGGT 的大规模升级版，通过Register Attention、简化预测头和自监督训练，将训练显存降至前作的 30%，从而支持 15 倍数据规模和 10B 参数模型。首次证明 3D 重建模型存在类似 LLM 的幂律 Scaling Law，在 Sintel 相机估计上提升 77%（CVPR 2026 Oral）。

核心问题

前馈式 3D 重建模型（如 VGGT、DUSt3R、MASt3R）已证明可以媲美传统优化方法（COLMAP），同时提供可复用的几何感知特征。但一个关键问题未被回答：

这类模型能否像 LLM 那样从规模扩大中持续获益？
如果可以，如何克服 GPU 显存瓶颈以训练更大模型、使用更多数据？

VGGT 的全局注意力机制是 O(N^2) 的显存和计算瓶颈，DPT 卷积头占据大量中间激活显存，多个密集预测头进一步加剧问题。

为什么选 Register Attention？

方案	优势	劣势
Full Global Attention (VGGT)	所有 Token 可跨帧交互	O(N^2) 显存/计算；注意力图实际很稀疏
Token Merging / Sparse Attention	减少 Token 数量	可能丢失关键细节信息
Register Attention (本文)	仅 16 个 Register 跨帧交互；无性能损失	全替换会降质（保留 25% 全局层为最优）

关键发现：全局注意力图实际非常稀疏（Fig 3），只有极少数 Token 真正参与跨帧信息交换。Register 正是这些 Token 的显式化版本。

整体框架

图2：VGGT-Omega 架构。每帧添加 Camera Token + 16 个 Scene Token (Register)，交替进行全局/Register 注意力和帧内注意力。密集预测头简化为 MLP + Pixel Shuffle。

三大架构改进：

Register Attention：25% 的全局注意力层替换为 Register-only 注意力（仅 Register 跨帧通信），节省 23% FLOPs、16% 显存，性能不降反升
简化密集预测头：移除 DPT 中的高分辨率卷积层，改用 MLP + Pixel Shuffle，大幅节省显存
单头多任务：仅保留一个 Dense Head（深度预测）+ 一个 Sparse Head（相机参数），用多任务 Loss 联合监督，取代原来的多个独立头

总效果：训练显存降至 VGGT 的 ~30%，推理速度提升 20-25%。

Scaling Law：3D 重建的幂律

图1：模型规模和数据规模的 Scaling 曲线。Point Error 随模型/数据增大呈幂律下降。

维度	范围	Point Error 变化
模型规模	0.2B - 1B - 5B - 10B	0.107 - 0.073 - 0.057 - 0.046
数据规模	2K - 100K - 1M - 2M 序列	0.275 - 0.160 - 0.129 - 0.073

核心发现：3D 重建模型首次展现出类似 LLM 的幂律 Scaling 行为。数据和模型规模的持续扩大带来单调性能提升，无明显饱和。

方法详解

训练损失

$$\mathcal{L} = \lambda_{\mathrm{cam}} \mathcal{L}_{\mathrm{cam}} + \lambda_{\mathrm{depth}} \mathcal{L}_{\mathrm{depth}} + \lambda_{\mathrm{point}} \mathcal{L}_{\mathrm{point}} + \lambda_{\mathrm{match}} \mathcal{L}_{\mathrm{match}}$$

Camera Loss：L1 损失比较预测和 GT 相机参数（四元数旋转 + 平移 + FOV）
Depth Loss：相对尺度深度 + 梯度一致性 + 不确定性估计
Point Loss：将深度反投影为 3D 点，与 GT 点云对齐
Matching Loss：对比学习拉近对应 3D 位置的 Token 特征，推开不对应的

动态场景重建

关键设计选择：仅预测深度图和相机参数，不显式建模运动。

相机参数与场景运动天然解耦：深度描述几何，相机描述观测位姿
避免引入昂贵的运动分割/光流输出
模型通过大规模动态数据训练自动学习运动感知（PCA 聚类能无监督分割运动物体）

数据标注流水线

从 40M 互联网视频 出发：

VLM 过滤（去除 50% 不可重建视频）
Grounding DINO 提取动态区域 Mask
多方法特征匹配（SIFT + SuperPoint + SuperGlue + ALIKED + LightGlue）
VGGT + COLMAP 联合标注相机和深度
多视图一致性 + XGBoost 分类器过滤低质量样本

最终产出：0.8M 高质量标注序列（200K 动态 + 600K 静态）+ 3M 公开数据 = 4M 总量（15x VGGT）。

自监督训练（DINO 风格）

Teacher-Student 蒸馏，在 18M 无标注视频上训练：

Student：梯度下降更新；Teacher：EMA 更新
相同输入不同增强 + 帧顺序打乱
Student 匹配 Teacher 的特征分布 (L2) + 预测 (camera, depth)
Point Error 从 0.073 降至 0.070，且泛化能力显著提升

主要结果

相机位姿估计

方法	7 Scenes (AUC@3)	Sintel (AUC@3)	DyCheck (AUC@3)
VGGT	10.9	15.0	21.0
MegaSaM	10.6	22.5	26.8
DA3	18.7	16.2	32.1
VGGT-Omega 1B	29.6	35.3	38.4
VGGT-Omega 10B	36.4	40.0	43.7

Sintel AUC@3: 22.5 - 40.0，相对提升 77%。在所有静态和动态 Benchmark 上全面超越 VGGT、DA3、MegaSaM。

深度估计

方法	Sintel delta1.25	Sintel AbsRel	ETH3D delta1.25
MegaSaM	74.1	0.207	94.8
DA3	86.1	0.118	99.6
VGGT-Omega 1B	89.5	0.097	99.8
VGGT-Omega 10B	93.5	0.081	99.8

推理效率

图7：单张 80GB A100 上的显存和速度对比。VGGT-Omega 可处理 >1000 帧而不 OOM，DA3 在 ~750 帧即耗尽显存。

Register Token 下游应用

方法	Spatial SR%	Object SR%	Goal SR%	Average SR%
OpenVLA-OFT	97.6	98.4	97.9	97.1
+ Frozen Scene Tokens	99.3	99.2	99.0	98.5

冻结的 VGGT-Omega Register Token 作为即插即用几何特征，直接提升 VLA 机器人操控性能。

语言对齐：Register Token 通过 CLIP 风格对比学习可与文本对齐，Top-1 检索准确率 76.8%，零样本 47.5%。证明重建学到的 Register 携带高层语义信息。

核心创新点

创新	类型	说明
Register Attention	全新机制	限制跨帧信息仅通过 Register 交换，23% FLOPs 节省无性能损失
3D 重建 Scaling Law	全新发现	首次证明前馈重建模型存在幂律 Scaling
Register 复用于 VLA/语言	全新应用	重建作为空间理解的 Proxy Task，Register 是天然的场景表征
MLP+PixelShuffle 替代 DPT	工程改进	大幅节省显存，定性略有 blocky artifacts 但指标相当
40M 视频标注流水线	工程系统	VLM 过滤 + COLMAP + 分类器，产出 0.8M 高质量动态场景标注

局限性与展望

标注依赖优化：数据流水线仍需 COLMAP 迭代优化，非全端到端可扩展
10B 模型推理成本：论文未报告实时性指标，10B 模型部署可行性存疑
自监督增益有限：Point Error 仅从 0.073 降至 0.070，当前协议可能次优
MLP 头 Blocky Artifacts：深度图中出现块状伪影（尤其室外远距离场景），保留浅卷积层作为折衷
内部数据不公开：40M 视频集合为 Meta 内部数据，社区无法完全复现
动态建模隐式：不显式建模运动/光流，难以用于需要逐像素运动估计的下游任务

总结

VGGT-Omega 的核心贡献在于：首次证明 3D 重建模型遵循幂律 Scaling Law，并通过 Register Attention 等架构改进，使大规模训练成为可能。更深远的启示是"重建即空间理解的 Pretraining"这一范式 -- Register Token 无需微调即可提升 VLA 性能、对齐语言，暗示 3D 几何重建可能是通往通用空间智能的 Proxy Task。作为 CVPR 2026 Oral，这篇论文对 3D 视觉、机器人、自动驾驶等领域都有深远影响。