2024 CVPR | Gaussian-Flow：基于双域形变模型的 4D 动态场景重建与实时渲染

L2037163949

1222人浏览 · 2025-12-20 11:52:17

L2037163949 · 2025-12-20 11:52:17 发布

论文核心信息

论文题目：Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian Particle（基于动态 3D 高斯粒子的 4D 重建）
作者：Youtian Lin、Zuozhuo Dai、Siyu Zhu、Yao Yao
单位：南京大学、阿里巴巴集团、复旦大学
会议：CVPR 2024（计算机视觉与模式识别顶会）
代码地址：https://nju-3dv.github.io/projects/Gaussian-Flow

摘要（Abstract）

研究目标

解决动态场景重建中训练慢、渲染效率低的问题，突破传统 NeRF 类方法的计算瓶颈，同时避免逐帧 3DGS 建模的存储冗余，实现从单目 / 多视角视频中高效重建 4D 动态场景并支持实时渲染。

提出方法

提出 Gaussian-Flow：采用纯显式的 3D 高斯粒子表示动态场景，设计双域形变模型（DDDM），通过时域多项式拟合与频域傅里叶级数拟合结合的方式，建模每个高斯属性的时变残差；引入自适应时间戳缩放和双重正则化（KNN 刚性约束 + 时间平滑约束），保证运动的空间一致性和时间连续性，无需神经场辅助即可高效捕捉复杂动态。

结果与贡献

训练速度比逐帧 3DGS 建模快 5 倍，渲染帧率与静态 3DGS 相当（125 FPS）；在 D-NeRF、HyperNeRF 等数据集上，新视角合成质量显著超越现有方法，PSNR 最高达 34.27，同时支持动态场景的分割、编辑与合成等下游任务。

核心创新点

双域形变模型（DDDM）：融合多项式（捕捉平滑运动）与傅里叶级数（捕捉剧烈运动），高效建模高斯属性的时变特征，避免单一域拟合的局限性。
纯显式动态表示：无需隐式神经场，仅通过高斯粒子的属性形变建模 4D 场景，完全继承 3DGS 的高速训练与渲染特性。
自适应时间戳缩放：动态调整时间输入尺度，避免剧烈运动导致的优化不稳定，提升复杂运动的拟合精度。
双重正则化机制：通过 KNN 刚性约束保证空间一致性，时间平滑约束保证运动连续性，提升重建鲁棒性。

1. 背景知识

1.1 研究问题

动态场景重建需同时建模空间结构与时间演化，传统 NeRF 类方法依赖光线采样和神经场查询，训练与渲染速度极慢；现有 3DGS 扩展方法要么逐帧优化导致存储爆炸，要么引入神经场导致渲染效率下降，难以平衡重建质量与效率。

1.2 关键挑战

动态建模效率：需在显式表示框架下高效捕捉高斯粒子的时变属性，避免额外计算开销。
运动拟合泛化性：单一拟合方式难以同时处理平滑运动与剧烈运动，易出现过拟合或欠拟合。
空间与时间一致性：离散高斯粒子独立优化易导致空间错位，时间维度缺乏约束易产生运动抖动。

1.3 核心解决思路

时变建模：将每个高斯的属性分解为基准值与时间残差，残差通过双域拟合捕捉复杂运动，兼顾平滑性与灵活性。
效率优化：纯显式表示避免神经场查询，借助 3DGS 的瓦片化光栅化实现实时渲染。
一致性约束：通过 KNN 邻居约束保证局部空间刚性，时间扰动约束保证运动平滑，提升动态重建质量。

2. 方法概览

2.1 整体框架

输入：单目或多视角视频序列、SfM 稀疏点云（初始化用）
输出：支持实时渲染的 4D 动态场景表示（含高斯基准属性与双域形变参数）
流程：先通过 SfM 稀疏点云初始化 3D 高斯粒子集合，再优化每个高斯的基准属性（位置、旋转、颜色等）与双域形变参数；引入自适应时间戳缩放缓解剧烈运动优化问题，通过双重正则化约束运动一致性；最终通过 3DGS 光栅化流水线实现动态场景的实时渲染。
核心优势：在保持 3DGS 实时渲染特性的同时，实现动态场景的高效重建，训练速度提升 5 倍，且支持场景编辑等下游任务。

2.2 核心模块

模块 A：双域形变模型（DDDM）（第 3.2 节）
模块 B：自适应时间戳缩放（第 3.3 节）
模块 C：双重正则化约束（第 3.4 节）

3. 关键模块详解

在这里插入图片描述

3.1 3D 高斯溅射基础

场景由大量 3D 高斯粒子表示，每个高斯包含均值位置(\mu)、协方差矩阵(\sum)、不透明度(\alpha)和视图相关颜色c。
$\exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\right)$
$\Sigma' = J W \Sigma W^T J^T$

协方差矩阵通过缩放向量s和旋转四元数q参数化（(\sum = R\Lambda(s)\Lambda(s)^T R^T)）。投影到 2D 屏幕空间后，通过 alpha 混合得到渲染图像：
$C=\sum_{i=1}^{n} c_{i} \alpha_{i} \prod_{j=1}^{i-1}(1-\alpha_{i})$

其中n为像素重叠的高斯数量，(T_i=\prod_{j=1}^{i-1}(1-\alpha_j))为透射率。

3.2 双域形变模型（DDDM）

3.2.1 时变属性分解

作者明确做了一个 非常重要的假设：

Gaussian 属性	是否随时间变化	原因
位置 μ	✅	物体会动
旋转 q	✅	姿态会变
颜色 / 辐射 c	✅	外观随视角/时间变化
尺度 s	❌	稳定性 & 简化
不透明度 α	❌	避免不稳定

每个高斯的时变属性（位置(\mu)、旋转q、颜色c）分解为基准属性（参考帧(t_0)时的取值(S_0)）与时间残差(D(t))：

$S(t) = S_0 + D(t)$
其中
$D(t) = P_N(t) + F_L(t)$
，(P_N(t))为N阶多项式（捕捉平滑运动），(F_L(t))为L阶傅里叶级数（捕捉高频剧烈运动），分别定义为：

$P_N(t)=\sum_{n=0}^{N} a_{n} t^{n}$

$F_L(t)=\sum_{l=1}^{L}\left(f_{sin }^{l} cos (l t)+f_{cos }^{l} sin (l t)\right)$

每个属性的不同维度独立建模时变残差，确保运动拟合的灵活性。

3.2.2 拟合优势

多项式拟合：低阶即可高效捕捉缓慢、平滑的运动，计算开销小。
傅里叶级数：擅长建模周期性、剧烈运动，弥补多项式拟合的高频缺失。
双域融合：结合两者优势，在复杂动态场景中实现高精度拟合，同时避免过拟合导致的轨迹振荡。

不同维度是独立变化的

所以：
$\mu_x(t) = \mu_{x0} + D_{\mu_x}(t)$
同理：

对 q 的每一个分量，单独建一个时间函数

也就是说：

$\begin{bmatrix}q_w(t)\\q_x(t)\\ q_y(t)\\ q_z(t) \end{bmatrix} = \begin{bmatrix} q_{w0} + D_{q_w}(t)\\ q_{x0} + D_{q_x}(t)\\ q_{y0} + D_{q_y}(t)\\ q_{z0} + D_{q_z}(t)\end{bmatrix}$

3.3 自适应时间戳缩放

作者没有去：

增加阶数
增加正则
改优化器

为解决剧烈运动在短时间内导致的优化不稳定问题，对时间输入进行动态缩放：

(t_s = \lambda_s \cdot t + \lambda_b)

其中(t\in[0,1])为归一化帧索引，(\lambda_s)（缩放因子）和(\lambda_b)（基准因子）初始化为 1 和 0，通过优化自适应调整，避免因运动幅度过大导致的参数爆炸。

符号	含义
$t$	原始时间（归一化帧索引）
$t_s$	送入 D(t) 的“有效时间”
$λs\lambda_s$	时间缩放（stretch / compress）
$λb\lambda_b$	时间平移（offset）

在这里插入图片描述

3.4 双重正则化约束

问题 1：空间上不连续

Gaussian 是 离散点
每个点：
- 独立优化
- 没有“物体”的概念
现实世界里：
- 邻近点应该 一起动

👉 否则会出现：

点彼此穿插
局部撕裂
几何不连贯

问题 2：时间上不平滑

DDDM 的时间函数 自由度很高
没有约束：
- 会出现抖动
- 高频噪声
- 非物理变化

👉 所以作者引入 两个正则：

一个管时间
一个管空间

3.4.1 时间平滑约束

对时间戳t施加微小扰动(\epsilon)（(\epsilon=0.1/\text{frames})），鼓励相邻时间步的形变残差一致，保证运动平滑：

$\mathcal{L}_t = \| D(t) - D(t+\epsilon) \|_2$

3.4.2 KNN 刚性约束

优化分为两个交替阶段：前一阶段启用自适应密度控制（高斯分裂 / 克隆），后一阶段冻结高斯数量，对每个高斯的 K 近邻施加形变一致性约束，保证局部空间刚性：
其中：

$\mathcal{L}_s = \sum_{j \in \mathcal{N}_i} \| D(t)_i - D(t)_j \|_2$

其中(\mathcal{N}_i)为第i个高斯的 K 近邻集合。

附上前阶段的loss计算公式：
$Lrec=∑t∑p∈Ω∥I^(p,t)−I(p,t)∥2 \mathcal{L}_{\text{rec}}=\sum_{t}\sum_{p \in \Omega}\left\|\hat{I}(p, t) - I(p, t)\right\|^2$

3.5 整体优化目标

$\min_{\Theta} \mathcal{L}_{rec} + \lambda_t \mathcal{L}_t + \lambda_s \mathcal{L}_s$

其中(\Theta)包含高斯基准属性、双域形变参数、时间缩放因子；(\mathcal{L}_{rec})为渲染图像与输入图像的光度损失（MSE+D-SSIM）；(\lambda_t)和(\lambda_s)为正则化权重。

4. 实验与结果（Experiments & Results）

4.1 实验设置

数据集与划分：采用 D-NeRF（合成数据）、HyperNeRF（单目真实数据）、Plenoptic Video（多视角视频）数据集；遵循官方训练 - 测试划分，图像分辨率下采样至 540×960（HyperNeRF）、1352×1014（Plenoptic）。
指标：新视角合成采用 PSNR、SSIM、LPIPS；同时报告训练时间、渲染帧率（FPS）和 GPU 内存占用。
实现细节：使用 Adam 优化器，位置学习率 4e-4，旋转与形变参数学习率分别为 0.002 和 4e-4；训练 30K/60K 迭代；基于 Taichi 实现 DDDM 并行计算；实验使用单张 NVIDIA RTX 4090 GPU。

4.2 核心性能结果

4.2.1 定量对比

D-NeRF 数据集：PSNR 达 34.27，SSIM 0.98，超越 TiNeuVox（32.67）、4D-GS（33.30）等方法，LPIPS 与 4D-GS 持平（0.03）。
HyperNeRF 数据集：30K 迭代时平均 PSNR 25.6，SSIM 0.847；60K 迭代时 PSNR 提升至 26.3，SSIM 0.862，训练时间仅需 7 分钟，远快于 NeRF（16 小时）、HyperNeRF（32 小时）。
Plenoptic Video 数据集：60K 迭代时 PSNR 达 32.0，SSIM 0.97，训练时间仅 41.8 分钟，比 DyNeRF（1344 小时）快 1900 倍，比 K-Planes（1.8 小时）快 2.6 倍。

在这里插入图片描述

在这里插入图片描述
4.2.2 定性对比

单目场景（HyperNeRF）：准确捕捉物体的非刚性形变（如剥香蕉、3D 打印机工作），薄结构区域的渲染清晰度接近真实场景。
多视角场景（Plenoptic）：成功重建火焰等动态细节，颜色还原与结构准确性优于 NeRFPlayer、DyNeRF 等方法，无明显伪影。

4.2.3 效率对比

训练速度：比逐帧 3DGS 快 5 倍，比 4D-GS 快 2.6 倍（Plenoptic 数据集）。
渲染帧率：达 125 FPS，与静态 3DGS 相当，远超 NeRF 类方法（<1 FPS）和神经场辅助方法（<10 FPS）。

4.3 消融实验

双域形变模型的有效性：仅用多项式拟合 PSNR 28.48，仅用傅里叶级数 PSNR 29.12，双域融合后 PSNR 提升至 29.92，SSIM 达 0.94，验证了双域互补的优势。
正则化的作用：移除 KNN 刚性约束后 PSNR 下降 1.44，移除时间平滑约束后 PSNR 下降 0.8，双重约束同时启用时性能最优。

在这里插入图片描述

形变阶数影响：傅里叶级数阶数为 16 时性能最佳，阶数超过 32 后因过参数化导致 PSNR 下降。

5. 贡献总结（Contribution）

提出 Gaussian-Flow 框架，基于纯显式 3D 高斯粒子实现 4D 动态场景重建，兼顾训练效率与渲染速度，训练比逐帧 3DGS 快 5 倍，渲染达实时水平。
设计双域形变模型（DDDM），融合多项式与傅里叶级数拟合，高效捕捉平滑与剧烈运动，突破单一域拟合的局限。
引入自适应时间戳缩放和双重正则化，解决剧烈运动优化不稳定问题，保证运动的空间一致性与时间连续性。
支持动态场景的分割、编辑与合成等下游任务，为 4D 重建的实际应用提供新思路。