【浙大&南洋理工最新综述】Feed-Forward 3D Scene Modeling(三)
4.3 Model Efficiency
现有的3D重建方法要么依赖于缓慢的逐场景优化,要么需要庞大的可泛化模型,因此难以适用于实时应用和内存受限的环境。图5比较了代表性新视图合成方法在不同输入视图设置下的效率。近期研究主要从两个方向解决这些瓶颈:提升特征效率,以及压缩显式3D表示。

4.3.1 Feature Efficiency
特征效率优化是推动前馈式3D重建走向实时应用和内存受限部署的关键。现有方法主要从以下几个角度入手:
1.非VGGT系列的效率优化
- 射线采样优化:ENeRF 和 ProNeRF 通过可学习深度引导或投影感知采样,减少每条射线上的查询次数,降低计算负担。
- 输入/特征压缩:TinySplat 实现无需训练的感受野与空间压缩;ZPressor 通过IB引导的注意力将稠密特征融合为紧凑潜在表示。
- 骨干网络混合:Long-LRM 结合 Mamba2 和 Transformer,高效处理长序列(32视图、25万token)。
- 表示解耦与迭代更新:iLRM 将图像与表示解耦,学习紧凑状态上的迭代更新规则,而非直接稠密映射。
非VGGT系列
| 方法 | 核心机制 | 特点描述 |
|---|---|---|
| ENeRF [161] | 可学习深度引导采样器 | 显著减少每条射线的查询次数,适用于交互式自由视点视频 |
| ProNeRF [162] | 投影感知采样 + 动态不透明度调整 + 探索-利用调度 | 预测少量信息丰富的射线样本,平衡全局覆盖与局部细节 |
| TinySplat [163] | 无需训练的感受野压缩 + 空间压缩 | 轻量级网络在压缩输入上运行 |
| ZPressor [164] | IB引导的锚点-支持交叉注意力 | 将稠密视图特征融合为紧凑潜在表示Z,可被任意3DGS头解码 |
| Long-LRM [33] | token合并 + Mamba2-Transformer混合骨干 | 处理32视图约25万token,解码为逐像素高斯 |
| iLRM [106] | 图像与表示解耦 + 迭代交叉/自注意力更新 | 学习紧凑状态上的更新规则,而非直接映射 |
2.VGGT系列的效率优化
围绕 VGGT 这一基础模型,近期工作从多个互补角度提升其效率:
- Token合并:FastVGGT(无需训练,保留主导token)、LiteVGGT(几何感知缓存合并)
- 训练后量化:QuantVGGT(压缩模型,降低内存和延迟)
- 稀疏注意力:Sparse VGGT(块稀疏核)、Speed3R(稀疏双分支)
- KV缓存管理:Evict3R(基于注意力重要性的驱逐策略)
- 任务重定义:SR3R(将超分辨率问题表述为前馈映射)
| 方法 | 核心机制 | 特点描述 |
|---|---|---|
| FastVGGT [166] | 无需训练的token合并(保留首帧或主导token) | 减少冗余帧间交互 |
| QuantVGGT [167] | 训练后量化 | 压缩前馈VGGT,降低内存和延迟,精度损失最小 |
| Sparse VGGT [168] | 自适应块稀疏核替代稠密全局注意力 | 利用跨视图稀疏性加速,保持精度,提升可扩展性 |
| Evict3R [169] | 无需训练的KV缓存驱逐策略(基于注意力重要性) | 强制执行每层内存预算,同时保留长期上下文 |
| LiteVGGT [171] | 几何感知的缓存token合并 | 显著减少长图像序列的运行时间和内存 |
| Speed3R [170] | 稀疏双分支设计(计算集中在信息丰富token) | 更快的大规模重建 |
| SR3R [165] | 前馈映射:稀疏低分辨率视图 → 高分辨率3DGS | 将3D超分辨率问题重新表述 |
总体趋势
最终目标是在保持重建质量的前提下,尽可能降低计算和内存开销,使前馈式3D重建能够真正落地于实时交互和资源受限设备。
- 从稠密到稀疏:无论是射线采样、注意力机制还是token交互,都在向稀疏化、信息引导的方向演进。
- 从固定架构到自适应:根据注意力重要性、几何信息量等动态分配计算资源。
- 从训练时优化到部署时优化:无需训练(training-free)的token合并、KV缓存驱逐、训练后量化等成为重要手段。
- 从通用骨干到专用设计:针对长序列、实时部署、内存受限等场景,设计混合骨干(Mamba+Transformer)、解耦表示等专门架构。
4.3.2 Representation Compaction
在表示层面,一条并行研究路线聚焦于显式高斯压缩。
基于图网络的高斯压缩
GGN:通过在高斯图上进行消息传递,学习高斯组之间的关系,再通过分组池化实现合并与剪枝。这是一种结构化、可学习的压缩方式。
自适应分布与数量的动态压缩
PixelGaussian:通过关键点评分和可变形注意力构建级联适配器,指导哪些高斯应该被剪枝、哪些应该分裂;再用图像-高斯细化器对保留下来的高斯进行精修。实现了根据局部几何复杂度动态调整高斯分布和数量。
针对整场景输入的冗余消除
FreeSplat++:采用像素级三元组融合消除重叠冗余,并利用多视图深度一致性调整不透明度,实现加权漂浮物去除。
LongSplat:在高斯身份表示(GIR)空间中引入身份感知的冗余压缩,实现在线数量控制。
特征高效编码器中的基本数量控制
Long-LRM / iLRM:虽然不是专门的压缩方法,但通过不透明度正则化、置信度掩码、事后剪枝等简单手段,也能将高斯数量控制在合理范围内,作为其高效设计的一部分。
| 方法 | 核心机制 | 特点描述 |
|---|---|---|
| GGN [141] | 高斯图消息传递 + 分组池化 | 通过图神经网络学习高斯间关系,合并与剪除基元 |
| PixelGaussian [139] | 关键点评分 + 可变形注意力(级联适配器)+ 图像-高斯细化器 | 同时自适应调整高斯分布与数量,剪枝与分裂相结合 |
| FreeSplat++ [172] | 像素级三元组融合 + 加权漂浮物去除(基于多视图深度一致性) | 消除重叠冗余,优化整场景输入 |
| LongSplat [173] | GIR空间中的身份感知冗余压缩 | 在线控制基元数量 |
| Long-LRM [33] / iLRM [106] | 不透明度正则化、置信度掩码、事后剪枝 | 特征高效编码器中的基本数量控制手段 |
总体趋势是:
- 从被动到主动:从事后剪枝(post-hoc pruning)演进到在重建过程中主动控制高斯分布与数量。
- 从统一处理到自适应:根据局部几何复杂度(PixelGaussian)或身份信息(LongSplat)进行差异化压缩。
- 从独立压缩到联合优化:压缩机制与重建过程深度融合(如可变形注意力、图消息传递)。
- 从数量压缩到质量保持:在减少高斯数量的同时,通过加权融合、深度一致性等策略保持甚至提升重建质量。
4.4 Augmentation Strategies
神经渲染方法(如 NeRF 和 3DGS)在3D重建和新视图合成方面取得了显著进展,但它们仍然受到稀疏输入、不准确的位姿以及训练多样性不足的限制。为了应对这些挑战,近期研究越来越关注能够丰富数据分布或视觉表示的增广策略(见图6)。数据增广通过引入合成场景、新视图或伪真值信号来扩展训练语料,从而提升模型的泛化能力。相比之下,视觉增广则利用生成式先验来增强渲染输出、抑制伪影并生成合理的细节。这些互补的方向共同为构建鲁棒且可扩展的神经渲染系统提供了更坚实的基础。

4.4.1 Data Augmentation
前馈式3D重建方法本质上受到训练数据规模和多样性的限制。因此,数据增广策略成为提升重建性能的关键手段。通过在训练过程中引入新视图、新结构或合成场景来人工丰富训练分布,从而增强模型的泛化能力。
模拟数据生成(从有限输入扩展无限数据)
Puzzles:从单张图像或视频片段出发,通过模拟相机运动和几何变化,合成无限的带位姿视频-深度数据。核心是利用模拟来突破真实数据的获取瓶颈。
大规模程序化合成(几何多样性驱动)
MegaSynth:通过程序化生成数十万个非语义3D场景,证明即使不依赖语义信息,仅靠低层几何多样性也能在大规模场景下提供有效的监督信号。
基于真实数据的视图增广(提升数据质量)
Aug3D:专注于室外数据集,利用SfM技术生成新视图,从而为前馈式新视图合成提供更高质量的训练样本。
伪地面真值生成(结合生成模型与一致性过滤)
MVBoost:将多视图生成模型与重建一致性检查相结合,生成可靠的伪地面真值数据,构建大规模训练资源。
| 方法 | 核心机制 | 增广类型 | 特点描述 |
|---|---|---|---|
| Puzzles [174] | 从单张图像或视频片段合成无限带位姿视频-深度数据 | 模拟相机运动 + 几何变化 | 利用模拟数据扩展训练分布 |
| MegaSynth [175] | 程序化生成数十万个非语义3D场景 | 大规模合成场景(几何多样性) | 仅靠低层几何多样性即可提供鲁棒监督 |
| Aug3D [176] | SfM-based 新视图生成 | 基于真实数据的视图增广 | 提升室外数据集质量,为前馈NVS提供更好训练样本 |
| MVBoost [177] | 多视图生成模型 + 重建一致性检查 → 伪地面真值数据 | 伪标签生成 + 一致性过滤 | 构建大规模可靠训练资源 |
4.4.2 Visual Augmentation
近年来,NeRF 和 3DGS 等神经渲染技术在 3D 重建和新视角合成方面取得了显著进展,但仍面临伪影、缺失区域以及对稀疏输入和不准确位姿敏感等问题。这些问题主要源于对逐场景优化和有限先验的依赖。
为克服这些限制,研究者越来越多地将大规模 2D 生成模型(尤其是扩散模型)引入 NVS 任务。早期工作从 GAN 发展到扩散模型,虽提升了质量但计算成本高。近期方法(如 Deceptive-NeRF、3DGS-Enhancer)通过扩散先验增强伪观测数据,在降低成本的同时提升质量。
多个工作直接将扩散/生成架构集成到高斯管线中:
- MVSplat360 通过特征注入引导扩散去噪;
- LatentSplat 在潜空间编码不确定性,统一回归与生成;
- ProSplat 采用一步精炼并引入参考视角与对极注意力;
- DIFIX3D+ 则通过单步扩散模型高效去除伪影,同时保持 3D 一致性,且适用于 NeRF 和 3DGS。
在动态视频 NVS 方面,CogNVS 采用几何重建与生成先验的混合策略,结合视频扩散修复和测试时微调,实现了对野外动态场景的零样本适应,性能显著超越现有方法。
总体而言,将强大的生成先验(尤其是扩散模型)与 3D 表示(NeRF/3DGS)相结合,已成为提升 NVS 质量、鲁棒性和泛化能力的重要趋势,尤其在高斯基管线中展现出良好前景。
1.新视角合成(NVS)中的不同方法对比
| 方法类型 | 代表性工作 / 特点 | 优点 | 缺点 / 局限性 |
|---|---|---|---|
| 几何先验方法 | [32, 38, 207, 243–247] | 增强稀疏视角重建 | 对噪声敏感,密集捕获下提升有限 |
| 前馈模型 | [13, 248–251] | 聚合参考信息或直接预测新视角 | 模糊区域结果模糊 |
| 生成先验(早期) | GANeRF [252] | 利用 GAN 生成 | 依赖逐场景训练 |
| 生成先验(扩散模型) | [253–256](直接生成),[257–261](引导优化) | 生成质量高,利用大规模数据先验 | 计算成本高 |
| 近期增强方法 | Deceptive-NeRF, 3DGS-Enhancer [262, 263] | 增强伪观测,降低成本,提升质量 | — |
2.集成扩散/生成架构的高斯(Gaussian)方法
| 方法名称 | 核心思想 | 关键技术 | 特点 |
|---|---|---|---|
| MVSplat360 [178] | 3DGS + Stable Video Diffusion | 将高斯渲染特征注入扩散潜空间,引导去噪 | 生成真实感、3D一致的新视角 |
| LatentSplat [180] | 变分 3D 高斯 + 轻量生成 2D 网络 | 潜空间显式编码不确定性 | 统一回归与生成建模,可扩展重建 |
| ProSplat [179] | 一步扩散精炼 | 参考视角注入 + 对极注意力 | 保证纹理补全与几何一致性 |
| DIFIX3D+ [181] | 单步扩散模型 Difix | 训练时增强伪视角并反馈,推理时作神经增强器 | 高效去伪影,保持3D一致性,适用 NeRF 和 3DGS |
3.动态场景与视频 NVS 方法
| 方法名称 | 应用场景 | 核心策略 | 关键技术 |
|---|---|---|---|
| CogNVS [264] | 单目视频的动态新视角合成 | 混合策略:几何重建 + 生成先验 | 共可见像素 3D 重建,隐藏像素视频扩散修复,自监督扩散模型测试时微调 |
4.5 Temporal-aware Models
在前馈式3D领域,时序感知模型通过捕捉跨帧的几何与运动一致性,能够实现低延迟的4D场景重建。如图7所示,这些方法可根据其处理时间的方式分为几类:
- 在线流式模型:针对实时流式输入,逐帧更新场景状态;
- 离线处理模型:一次性处理整个序列或时间窗口,生成全局一致的4D重建结果,更注重保真度而非速度;
- 交互式模型:以在线骨干网络为基础,增加用户控制功能,实现实时物理反馈或编辑反馈。
其他方法则专注于前馈管线中的特定任务,例如动态物体移除或多视角融合。

4.5.1 Online Streaming
在线时序感知模型通过逐帧处理并增量式更新场景表示,实现了实时、开放式的3D/4D重建,特别适合流式输入和长时间运行场景。
StreamSplat 是最轻量级的代表,从短时序线索中估计每高斯的运动与形变,单次前向完成更新,无需任何标定或测试时优化。
DGS-LRM 进一步扩展到了可变形内容,利用Plücker射线和时空Transformer编码时间,能以交互速率从单目视频中预测可变形高斯和场景流。
Cut3R 通过维护跨帧的持久循环状态来传递几何信息,有效改善了长序列中的漂移和闪烁问题。
Stream3R 将点图预测设计为仅解码器的因果Transformer,使得从极长图像流中进行可扩展的时序3D重建成为可能。
LongStream 则聚焦于极长序列上的稳定重建,通过规范化解耦的流式视觉几何、关键帧相对位姿和缓存一致的训练,实现了公制尺度下的高稳定性。
总体而言,这些方法共同推动了在线、实时、可扩展的4D重建技术发展,各自在不同维度(计算效率、形变处理、长序列一致性、可扩展性、尺度稳定性)上做出了针对性贡献,适用于从实时交互到长时间动态场景重建的广泛应用。
4.5.2 Offline Processing
离线时序感知模型通过聚合完整视频片段或长时序窗口,在单次前馈传递中预测全局一致的4D表示。它们让网络能够以非因果方式跨时间观察,用更高的延迟和内存开销换取了更强的时序一致性。
在高斯表示路线方面:
L4GM 和 4D-LRM 将LRM的思想扩展到时间维度,分别实现了逐帧高斯快速生成和可任意查询的4D高斯场。
4DGT 采用滚动时间窗口直接预测一致4D高斯,并通过密度控制提升效率。
4Real-Video-V2 在VGGT基础上引入高斯头和动态层,单次整合多视角与时空线索。
MoVieS 通过共享编码器和三个独立头统一建模外观、深度和运动,填充到高斯网格中,仍采用窗口式处理。
在DUSt3R点图路线方面:
MonST3R 通过在动态视频上微调DUSt3R并结合光流稳定化,实现片段级重建。
Easi3R 提出无需训练的变体,利用解耦注意力分离动静内容,同时恢复相机和4D点图。
在任务驱动的应用方面:
-
MonoFusion 针对稀疏视角,独立重建每相机4D表示并逐时间步融合。
-
EgoMono4D 专注于自中心视频,通过自监督前馈循环联合估计内参、位姿和深度。
-
BTimer 支持从随意拍摄视频中重建指定时刻的3D快照,实现“子弹时间”特效。
总体而言,离线时序感知模型与上一轮介绍的在线模型形成互补:在线模型追求低延迟和实时流式处理,而离线模型优先保证全局一致性和重建质量,适用于对时序连贯性要求较高的非实时应用场景。高斯表示和DUSt3R路线是当前离线4D重建的两大主流技术方向。
离线时序感知模型总览
| 方法名称 | 基础架构路线 | 输入形式 | 输出形式 | 关键特点 |
|---|---|---|---|---|
| L4GM [186] | LRM扩展 | 单目视频 | 每帧高斯 | 第一帧生成先验 + 时序自注意力 |
| 4D-LRM [190] | LRM扩展 | 短序列 | 可查询的4D高斯场 | 联合建模空间与时间 |
| MonST3R [187] | DUSt3R扩展 | 动态视频 | 片段级重建 | SEA-RAFT光流稳定 + 逐对点图聚合 |
| Easi3R [191] | DUSt3R变体 | 动态视频 | 相机 + 密集4D点图 | 无训练,解耦注意力分离动静内容 |
| 4DGT [192] | 高斯动态表示 | 滚动时间窗口 | 一致4D高斯集 | 密度控制修剪基元 |
| 4Real-Video-V2 [193] | VGGT + 高斯 | 视频 | 4D高斯场 | 高斯头 + 动态层,单次整合多视角及时序 |
| MoVieS [194] | 高斯网格 | 窗口(非流式) | 高斯网格填充 | 共享编码器 + 三头(外观/深度/运动) |
任务驱动的离线方法
| 方法名称 | 目标应用场景 | 核心策略 | 输出/功能 |
|---|---|---|---|
| MonoFusion [195] | 稀疏视角采集 | 每相机独立重建单目4D,逐时间步融合 | 多视角4D融合表示 |
| EgoMono4D [188] | 自中心视频 | 自监督前馈循环,序列级联合估计 | 内参、位姿、稠密深度 |
| BTimer [189] | 子弹时间特效 | 从随意拍摄视频中按时间戳重建 | 指定时刻的完整3D快照 |
4.5.3 Interactive Modeling
在线模型以因果方式逐帧更新场景;离线模型则对整个序列进行批处理,以获得全局一致的输出。此外,交互式模型允许用户注入外力、编辑内容或调整材质,并通过实时仿真获得符合物理规律的结果的即时反馈。
PIXIE [197] 遵循这一范式。它首先离线重建几何和稠密视觉特征(NeRF + CLIP)。随后,在单次前馈传递中预测材质场,使得物理求解器能够按需对场景进行动画化和仿真,从而在固定的逐场景几何上实现快速交互。
PhysGM [198] 代表了一种完全摊销的方法,能够从单张图像或稀疏视角中同时预测3D高斯场景及其物理属性。该方法依赖单次前向推理,完全消除了逐场景优化的需求。由于生成的参数与物理仿真兼容,该系统支持低延迟的编辑和动画任务。该框架采用两阶段训练过程,包括监督学习和DPO [265],以实现视觉真实感与计算效率之间的良好平衡。
4.5.4 Specialized Tasks
与追求通用4D重建器不同,这类方法更聚焦于特定的应用目标。
DAS3R [199] 面向静态建图中的动态物体移除任务,通过学习每个高斯的“静态”属性,并采用动态感知训练,在渲染时抑制运动物体。从而能够从动态视频中重建出干净、完整的静态背景。
St4RTrack [200] 将重建与跟踪集成到一个统一模型中,通过同时预测世界空间点图和持久化的时序对应关系。该架构利用单次前馈传递来建立几何与运动,无需独立的跟踪模块。通过将这些元素一起处理,该框架确保了视频序列中点身份的一致性。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)