2024 CVPR | Gaussian-Flow:基于双域形变模型的 4D 动态场景重建与实时渲染
论文核心信息
- 论文题目:Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian Particle(基于动态 3D 高斯粒子的 4D 重建)
- 作者:Youtian Lin、Zuozhuo Dai、Siyu Zhu、Yao Yao
- 单位:南京大学、阿里巴巴集团、复旦大学
- 会议:CVPR 2024(计算机视觉与模式识别顶会)
- 代码地址:https://nju-3dv.github.io/projects/Gaussian-Flow
摘要(Abstract)
研究目标
解决动态场景重建中训练慢、渲染效率低的问题,突破传统 NeRF 类方法的计算瓶颈,同时避免逐帧 3DGS 建模的存储冗余,实现从单目 / 多视角视频中高效重建 4D 动态场景并支持实时渲染。
提出方法
提出 Gaussian-Flow:采用纯显式的 3D 高斯粒子表示动态场景,设计双域形变模型(DDDM),通过时域多项式拟合与频域傅里叶级数拟合结合的方式,建模每个高斯属性的时变残差;引入自适应时间戳缩放和双重正则化(KNN 刚性约束 + 时间平滑约束),保证运动的空间一致性和时间连续性,无需神经场辅助即可高效捕捉复杂动态。
结果与贡献
训练速度比逐帧 3DGS 建模快 5 倍,渲染帧率与静态 3DGS 相当(125 FPS);在 D-NeRF、HyperNeRF 等数据集上,新视角合成质量显著超越现有方法,PSNR 最高达 34.27,同时支持动态场景的分割、编辑与合成等下游任务。
核心创新点
- 双域形变模型(DDDM):融合多项式(捕捉平滑运动)与傅里叶级数(捕捉剧烈运动),高效建模高斯属性的时变特征,避免单一域拟合的局限性。
- 纯显式动态表示:无需隐式神经场,仅通过高斯粒子的属性形变建模 4D 场景,完全继承 3DGS 的高速训练与渲染特性。
- 自适应时间戳缩放:动态调整时间输入尺度,避免剧烈运动导致的优化不稳定,提升复杂运动的拟合精度。
- 双重正则化机制:通过 KNN 刚性约束保证空间一致性,时间平滑约束保证运动连续性,提升重建鲁棒性。
1. 背景知识
1.1 研究问题
动态场景重建需同时建模空间结构与时间演化,传统 NeRF 类方法依赖光线采样和神经场查询,训练与渲染速度极慢;现有 3DGS 扩展方法要么逐帧优化导致存储爆炸,要么引入神经场导致渲染效率下降,难以平衡重建质量与效率。
1.2 关键挑战
- 动态建模效率:需在显式表示框架下高效捕捉高斯粒子的时变属性,避免额外计算开销。
- 运动拟合泛化性:单一拟合方式难以同时处理平滑运动与剧烈运动,易出现过拟合或欠拟合。
- 空间与时间一致性:离散高斯粒子独立优化易导致空间错位,时间维度缺乏约束易产生运动抖动。
1.3 核心解决思路
- 时变建模:将每个高斯的属性分解为基准值与时间残差,残差通过双域拟合捕捉复杂运动,兼顾平滑性与灵活性。
- 效率优化:纯显式表示避免神经场查询,借助 3DGS 的瓦片化光栅化实现实时渲染。
- 一致性约束:通过 KNN 邻居约束保证局部空间刚性,时间扰动约束保证运动平滑,提升动态重建质量。
2. 方法概览
2.1 整体框架
- 输入:单目或多视角视频序列、SfM 稀疏点云(初始化用)
- 输出:支持实时渲染的 4D 动态场景表示(含高斯基准属性与双域形变参数)
- 流程:先通过 SfM 稀疏点云初始化 3D 高斯粒子集合,再优化每个高斯的基准属性(位置、旋转、颜色等)与双域形变参数;引入自适应时间戳缩放缓解剧烈运动优化问题,通过双重正则化约束运动一致性;最终通过 3DGS 光栅化流水线实现动态场景的实时渲染。
- 核心优势:在保持 3DGS 实时渲染特性的同时,实现动态场景的高效重建,训练速度提升 5 倍,且支持场景编辑等下游任务。
2.2 核心模块
- 模块 A:双域形变模型(DDDM)(第 3.2 节)
- 模块 B:自适应时间戳缩放(第 3.3 节)
- 模块 C:双重正则化约束(第 3.4 节)
3. 关键模块详解

3.1 3D 高斯溅射基础
场景由大量 3D 高斯粒子表示,每个高斯包含均值位置(\mu)、协方差矩阵(\sum)、不透明度(\alpha)和视图相关颜色c。
G(x)=exp(−12(x−μ)TΣ−1(x−μ)) G(x) = \exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\right) G(x)=exp(−21(x−μ)TΣ−1(x−μ))
Σ′=JWΣWTJT \Sigma' = J W \Sigma W^T J^T Σ′=JWΣWTJT
协方差矩阵通过缩放向量s和旋转四元数q参数化((\sum = R\Lambda(s)\Lambda(s)^T R^T))。投影到 2D 屏幕空间后,通过 alpha 混合得到渲染图像:
C=∑i=1nciαi∏j=1i−1(1−αi) C=\sum_{i=1}^{n} c_{i} \alpha_{i} \prod_{j=1}^{i-1}(1-\alpha_{i}) C=i=1∑nciαij=1∏i−1(1−αi)
其中n为像素重叠的高斯数量,(T_i=\prod_{j=1}^{i-1}(1-\alpha_j))为透射率。
3.2 双域形变模型(DDDM)
3.2.1 时变属性分解
作者明确做了一个 非常重要的假设:
| Gaussian 属性 | 是否随时间变化 | 原因 |
|---|---|---|
| 位置 μ | ✅ | 物体会动 |
| 旋转 q | ✅ | 姿态会变 |
| 颜色 / 辐射 c | ✅ | 外观随视角/时间变化 |
| 尺度 s | ❌ | 稳定性 & 简化 |
| 不透明度 α | ❌ | 避免不稳定 |
每个高斯的时变属性(位置(\mu)、旋转q、颜色c)分解为基准属性(参考帧(t_0)时的取值(S_0))与时间残差(D(t)):
S(t)=S0+D(t) S(t) = S_0 + D(t) S(t)=S0+D(t)
其中
D(t)=PN(t)+FL(t) D(t) = P_N(t) + F_L(t) D(t)=PN(t)+FL(t)
,(P_N(t))为N阶多项式(捕捉平滑运动),(F_L(t))为L阶傅里叶级数(捕捉高频剧烈运动),分别定义为:
PN(t)=∑n=0Nantn P_N(t)=\sum_{n=0}^{N} a_{n} t^{n} PN(t)=n=0∑Nantn
FL(t)=∑l=1L(fsinlcos(lt)+fcoslsin(lt)) F_L(t)=\sum_{l=1}^{L}\left(f_{sin }^{l} cos (l t)+f_{cos }^{l} sin (l t)\right) FL(t)=l=1∑L(fsinlcos(lt)+fcoslsin(lt))
每个属性的不同维度独立建模时变残差,确保运动拟合的灵活性。
3.2.2 拟合优势
-
多项式拟合:低阶即可高效捕捉缓慢、平滑的运动,计算开销小。
-
傅里叶级数:擅长建模周期性、剧烈运动,弥补多项式拟合的高频缺失。
-
双域融合:结合两者优势,在复杂动态场景中实现高精度拟合,同时避免过拟合导致的轨迹振荡。
不同维度是独立变化的
所以:
μx(t)=μx0+Dμx(t) \mu_x(t) = \mu_{x0} + D_{\mu_x}(t) μx(t)=μx0+Dμx(t)
同理:对 q 的每一个分量,单独建一个时间函数
也就是说:
q(t)=[qw(t)qx(t)qy(t)qz(t)]=[qw0+Dqw(t)qx0+Dqx(t)qy0+Dqy(t)qz0+Dqz(t)] q(t) = \begin{bmatrix}q_w(t)\\q_x(t)\\ q_y(t)\\ q_z(t) \end{bmatrix} = \begin{bmatrix} q_{w0} + D_{q_w}(t)\\ q_{x0} + D_{q_x}(t)\\ q_{y0} + D_{q_y}(t)\\ q_{z0} + D_{q_z}(t)\end{bmatrix} q(t)= qw(t)qx(t)qy(t)qz(t) = qw0+Dqw(t)qx0+Dqx(t)qy0+Dqy(t)qz0+Dqz(t)
3.3 自适应时间戳缩放
作者没有去:
- 增加阶数
- 增加正则
- 改优化器
为解决剧烈运动在短时间内导致的优化不稳定问题,对时间输入进行动态缩放:
(t_s = \lambda_s \cdot t + \lambda_b)
其中(t\in[0,1])为归一化帧索引,(\lambda_s)(缩放因子)和(\lambda_b)(基准因子)初始化为 1 和 0,通过优化自适应调整,避免因运动幅度过大导致的参数爆炸。
| 符号 | 含义 |
|---|---|
| ttt | 原始时间(归一化帧索引) |
| tst_sts | 送入 D(t) 的“有效时间” |
| λs\lambda_sλs | 时间缩放(stretch / compress) |
| λb\lambda_bλb | 时间平移(offset) |

3.4 双重正则化约束
问题 1:空间上不连续
-
Gaussian 是 离散点
-
每个点:
- 独立优化
- 没有“物体”的概念
-
现实世界里:
- 邻近点应该 一起动
👉 否则会出现:
-
点彼此穿插
-
局部撕裂
-
几何不连贯
问题 2:时间上不平滑
- DDDM 的时间函数 自由度很高
- 没有约束:
- 会出现抖动
- 高频噪声
- 非物理变化
👉 所以作者引入 两个正则:
- 一个管时间
- 一个管空间
3.4.1 时间平滑约束
对时间戳t施加微小扰动(\epsilon)((\epsilon=0.1/\text{frames})),鼓励相邻时间步的形变残差一致,保证运动平滑:
Lt=∥D(t)−D(t+ϵ)∥2 \mathcal{L}_t = \| D(t) - D(t+\epsilon) \|_2 Lt=∥D(t)−D(t+ϵ)∥2
3.4.2 KNN 刚性约束
优化分为两个交替阶段:前一阶段启用自适应密度控制(高斯分裂 / 克隆),后一阶段冻结高斯数量,对每个高斯的 K 近邻施加形变一致性约束,保证局部空间刚性:
其中:
Ls=∑j∈Ni∥D(t)i−D(t)j∥2 \mathcal{L}_s = \sum_{j \in \mathcal{N}_i} \| D(t)_i - D(t)_j \|_2 Ls=j∈Ni∑∥D(t)i−D(t)j∥2
其中(\mathcal{N}_i)为第i个高斯的 K 近邻集合。
附上前阶段的loss计算公式:
Lrec=∑t∑p∈Ω∥I^(p,t)−I(p,t)∥2 \mathcal{L}_{\text{rec}}=\sum_{t}\sum_{p \in \Omega}\left\|\hat{I}(p, t) - I(p, t)\right\|^2 Lrec=t∑p∈Ω∑
I^(p,t)−I(p,t)
2
3.5 整体优化目标
minΘLrec+λtLt+λsLs \min_{\Theta} \mathcal{L}_{rec} + \lambda_t \mathcal{L}_t + \lambda_s \mathcal{L}_s ΘminLrec+λtLt+λsLs
其中(\Theta)包含高斯基准属性、双域形变参数、时间缩放因子;(\mathcal{L}_{rec})为渲染图像与输入图像的光度损失(MSE+D-SSIM);(\lambda_t)和(\lambda_s)为正则化权重。
4. 实验与结果(Experiments & Results)
4.1 实验设置
- 数据集与划分:采用 D-NeRF(合成数据)、HyperNeRF(单目真实数据)、Plenoptic Video(多视角视频)数据集;遵循官方训练 - 测试划分,图像分辨率下采样至 540×960(HyperNeRF)、1352×1014(Plenoptic)。
- 指标:新视角合成采用 PSNR、SSIM、LPIPS;同时报告训练时间、渲染帧率(FPS)和 GPU 内存占用。
- 实现细节:使用 Adam 优化器,位置学习率 4e-4,旋转与形变参数学习率分别为 0.002 和 4e-4;训练 30K/60K 迭代;基于 Taichi 实现 DDDM 并行计算;实验使用单张 NVIDIA RTX 4090 GPU。
4.2 核心性能结果
4.2.1 定量对比
-
D-NeRF 数据集:PSNR 达 34.27,SSIM 0.98,超越 TiNeuVox(32.67)、4D-GS(33.30)等方法,LPIPS 与 4D-GS 持平(0.03)。

-
HyperNeRF 数据集:30K 迭代时平均 PSNR 25.6,SSIM 0.847;60K 迭代时 PSNR 提升至 26.3,SSIM 0.862,训练时间仅需 7 分钟,远快于 NeRF(16 小时)、HyperNeRF(32 小时)。

-
Plenoptic Video 数据集:60K 迭代时 PSNR 达 32.0,SSIM 0.97,训练时间仅 41.8 分钟,比 DyNeRF(1344 小时)快 1900 倍,比 K-Planes(1.8 小时)快 2.6 倍。


4.2.2 定性对比
- 单目场景(HyperNeRF):准确捕捉物体的非刚性形变(如剥香蕉、3D 打印机工作),薄结构区域的渲染清晰度接近真实场景。
- 多视角场景(Plenoptic):成功重建火焰等动态细节,颜色还原与结构准确性优于 NeRFPlayer、DyNeRF 等方法,无明显伪影。
4.2.3 效率对比
- 训练速度:比逐帧 3DGS 快 5 倍,比 4D-GS 快 2.6 倍(Plenoptic 数据集)。
- 渲染帧率:达 125 FPS,与静态 3DGS 相当,远超 NeRF 类方法(<1 FPS)和神经场辅助方法(<10 FPS)。
4.3 消融实验
- 双域形变模型的有效性:仅用多项式拟合 PSNR 28.48,仅用傅里叶级数 PSNR 29.12,双域融合后 PSNR 提升至 29.92,SSIM 达 0.94,验证了双域互补的优势。
- 正则化的作用:移除 KNN 刚性约束后 PSNR 下降 1.44,移除时间平滑约束后 PSNR 下降 0.8,双重约束同时启用时性能最优。

- 形变阶数影响:傅里叶级数阶数为 16 时性能最佳,阶数超过 32 后因过参数化导致 PSNR 下降。
5. 贡献总结(Contribution)
- 提出 Gaussian-Flow 框架,基于纯显式 3D 高斯粒子实现 4D 动态场景重建,兼顾训练效率与渲染速度,训练比逐帧 3DGS 快 5 倍,渲染达实时水平。
- 设计双域形变模型(DDDM),融合多项式与傅里叶级数拟合,高效捕捉平滑与剧烈运动,突破单一域拟合的局限。
- 引入自适应时间戳缩放和双重正则化,解决剧烈运动优化不稳定问题,保证运动的空间一致性与时间连续性。
- 支持动态场景的分割、编辑与合成等下游任务,为 4D 重建的实际应用提供新思路。
6. 局限与未来工作
- 对极薄结构(如 3D 打印机丝线)的重建质量仍有提升空间,现有形变模型难以精准捕捉细微动态。
- 未考虑相机位姿误差的影响,若输入视频的位姿估计不准确,可能导致运动建模偏差。
- 未来可优化薄结构建模能力,引入位姿联合优化,拓展至更大规模动态场景(如城市级)的重建。
7. 可扩展点
- 动态交互编辑:基于高斯粒子的显式表示,可进一步开发交互式动态调整工具,支持手动修改运动轨迹或替换动态物体。
- 多模态融合:结合事件相机或 IMU 数据,补充快速运动场景的信息,提升剧烈运动下的重建鲁棒性。
- 压缩与部署:对双域形变参数进行量化或稀疏化,降低存储开销,适配移动设备或边缘计算场景。
- 动态光照建模:扩展 DDDM 至光照属性,捕捉动态场景中的光照变化,提升渲染的真实感。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)