【4D 场景生成】DIFF4SPLAT: Repurposing Video Diffusion Models for Dynamic Scene Generation

weixin_46687145

358人浏览 · 2026-06-08 23:08:09

weixin_46687145 · 2026-06-08 23:08:09 发布

在这里插入图片描述

DIFF4SPLAT：复用视频扩散模型实现动态场景生成

源码链接：https://paulpanwang.github.io/Diff4Splat
openreview（ICLR-2026撤稿）：https://openreview.net/forum?id=WRmU41PpEK&referrer=%5Bthe%20profile%20of%20Chenguo%20Lin%5D(%2Fprofile%3Fid%3D~Chenguo_Lin1)
发表：CVPR-2026

摘要

本文提出DIFF4SPLAT，一款基于前向推理的框架，可由单张图像生成动态场景。该方法结合了视频扩散模型强大的生成先验，以及从大规模4D数据集中学习得到的几何约束与运动约束。输入单张图像、相机轨迹以及可选的文本提示词后，本模型能够直接预测由可形变3D高斯场表征的动态场景。该方案仅通过单次前向推理即可同时还原场景外观、几何结构与运动信息，无需在测试阶段执行优化操作，也不需要额外的后处理流程。本框架的核心是视频隐空间Transformer，该模块对现有视频扩散模型进行能力增强，使其能够联合建模时空依赖关系，并逐帧预测3D高斯基元。依托面向外观保真度、几何精度与运动一致性设计的多目标监督损失，DIFF4SPLAT可在30秒内生成高保真动态场景。本文在视频生成、新视角合成、几何提取多项任务中验证了该方法的有效性：对比面向动态场景合成的各类优化型方法，本文方案的生成效果与之持平甚至更优，同时推理效率得到大幅提升。
在这里插入图片描述

图1给定单张图像、指定相机轨迹以及可选文本提示词，本文基于扩散模型的框架无需测试阶段优化，可直接生成可形变3D高斯场。该表征可支持视频生成、深度渲染、新视角合成等多种应用，实现动态场景的实时渲染与交互式虚拟漫游。

1 引言

由单张图像生成动态3D场景是计算机视觉领域极具挑战性的研究方向，该技术有望为沉浸式内容创作、机器人技术与仿真模拟领域带来变革。但目前主流技术路线陷入了难以突破的困境。其中一类方案采用多阶段流水线：先完成视频生成，再开展三维重建[30,97]。这类方法运行速度缓慢、易产生误差，同时无法实现端到端的灵活控制。另一类方案选择直接进行前向生成，但目前该方向大多仅能输出2D视频帧序列[2,64]或是静态3D场景[40]，无法还原真正4D表示所必需的显式动态三维几何信息。这一现状暴露出领域内的核心短板：目前缺少一套能够高效、直接生成具备可操控性的显式场景表征的框架。

针对上述问题，本文提出DIFF4SPLAT这一全新的动态3D生成范式，将扩散模型主干网络与可形变3D高斯场表征[96]融合为统一的端到端可训练模型。如图1所示，本框架仅需单次前向推理即可输出完整的4D场景表征，无需针对单个场景进行专属优化。本方法的核心为视频隐空间Transformer，该架构用于弥补2D时空特征与4D动态场景之间的表征鸿沟。该Transformer结合相机嵌入与时序嵌入，解析扩散模型输出的隐空间特征并将其视作动态点云，再通过轻量化分支回归得到可形变3D高斯的各项参数。该设计迫使扩散模型学习具备强表达能力的显式三维几何与运动先验，与以往相关研究[40]形成明显区别。为支撑模型训练，本文搭建了一套大规模数据处理流水线，对真实场景视频[26,114]进行标注，获取训练所需的公制尺度4D标签。

现有方法的另一核心瓶颈在于，生成显式4D表征需要极高的计算开销。传统多阶段方案需要先得到生成视频[2,64,110]，再针对单一场景进行高成本优化，才能完成从二维到三维的转换，整体效率极低。这一问题十分突出：例如DimensionX[72]处理单段视频需要耗费数小时的GPU算力，即便是当前性能领先的Mosca[31]方法也需要耗时半小时，这类方案基本无法落地于实际应用场景。本文直面该痛点，将生成过程与场景表征整合为单次前向推理流程，把整体耗时压缩至约30秒。相比当前最优的优化类方法，本方案推理速度提升60倍，首次让动态3D场景生成技术具备了落地实用的条件。

本文主要贡献归纳如下：

提出一种全新的动态3D场景生成范式：训练扩散模型通过单次前向推理直接生成可形变3D高斯场，解决了前向推理效率与显式三维表征之间的矛盾。
设计新型视频隐空间Transformer架构，打通2D隐特征与结构化4D表征之间的壁垒，实现可形变3D高斯场的直接预测。
构建带有公制尺度几何与运动标注的大规模4D数据集，后续将开源该数据集，助力领域后续研究工作。
开展大量实验验证本文统一框架的性能：该方法可由单张图像生成高保真动态3D场景，在生成质量与运行效率上均优于复杂的两阶段流水线方案。

2 相关工作

视频扩散模型

视频扩散模型[21]目前已具备生成高画质、时序连贯视频的出色能力。研究人员通常将条件图像生成领域的相关方案[37,56,107]适配至视频任务中，以此实现细粒度内容控制，这类方案会融合多种输入信号，包括RGB图像[6,91,92]、深度图[15,93]、运动轨迹[58,100]以及语义图[60]。尽管该方向已有诸多进展，但显式相机运动控制仍是尚待深入探索的领域。现有方法大多依赖预定义的运动类别[6,17]或是可学习的低秩适配（LoRA）模块[22]来实现相机控制。MotionCtrl[84]这类方法虽然引入了相机外参，但在复杂场景下的控制精度有限；MultiDiff[57]则受限于类别专属训练的约束。近期多项研究[18,19,94]采用普吕克坐标[70]实现相机控制，不过这类方法在生成真实视频内容时依旧存在难题。值得注意的是，当前绝大多数相关研究仅将视频生成为二维帧序列，很少关注动态三维表征的联合生成问题。

静态3D场景生成

生成模型[20,66,80,95]与三维表征技术[29,55]的不断发展，极大推动了静态三维场景生成领域的研究。该领域主要分为两大研究分支：第一类聚焦于基于布局图、场景图完成结构化场景生成[4,16,44,45,48,61,78,105]；另一类与本文研究关联更为紧密，主要基于文本[13,113]、单张图像[13,23,35,40,102]等弱条件信号实现开放世界场景生成。这类方法通常以图像扩散模型[20,66]作为主干网络，借助其强大能力构建三维先验[13,46,75,86,102,113]。随着视频扩散模型的兴起，也有部分研究[40,52,72,103]尝试利用该类模型提升三维空间一致性。本文与上述工作的核心区别在于，我们聚焦于动态场景生成，重点解决场景运动建模这一关键难题。

动态3D场景生成

静态三维生成方法天生无法处理带运动的场景，因此拓展至动态4D场景生成[11,33,42,49,83,106,110,116]成为领域内顺理成章的研究方向，同时该任务也具备更高的难度。例如Lyra[3]提出了一种自蒸馏框架，旨在将视频扩散模型中蕴含的隐式三维知识蒸馏为显式的3D高斯溅射（3DGS）表征。受数据集条件限制[14,24,50,85,99,104,114]，以往工作大多只能拆解任务、解决细分问题：部分方法需要输入完整视频以及首帧多视角图像[79,90,101]；还有方法基于单目视频生成动态3D高斯溅射结果[12,42,69,89]，或是依赖开销极高的单场景优化流程[31,38,73,81,87,109]。近期也出现了部分前向推理类工作，可生成动态点图[10,116]，但该类表征难以实现照片级真实感，渲染结果容易出现空洞与伪影。与之不同，本文提出了一种具备泛化能力的通用方案，仅依靠单张图像即可生成显式可形变高斯场，且全程无需针对单一场景做优化。

3 方法论

在这里插入图片描述

图 2 DIFF4SPLAT 整体架构本文提出一种基于单张图像的高保真动态 3D 高斯溅射（3DGS）生成方法，该方法包含四项核心创新：(1) 采用自研 Transformer 对视频扩散隐特征进行处理（见 3.2 节）；(2) 动态 3D 高斯溅射形变机制（见 3.3 节）；(3) 结合光度损失、几何损失与运动损失的统一监督方案（见 3.4 节）；(4) 保障几何结构与纹理鲁棒性的渐进式训练策略。

本文旨在基于单张图像 $I_0 \in \mathbb{R}^{H \times W \times 3}$ 、文本提示词 $C_{\text{ctx}}$ 以及相机位姿 $\in \mathbb{R}^{T \times H \times W \times 6}$ （普吕克嵌入[25]），生成动态4D场景表征。整套方法架构如图2所示，将预训练视频扩散模型与本文提出的隐空间重建Transformer相结合，融合二维外观先验、几何特征与运动线索，实现高保真4D内容合成。整体流程分为四大模块：首先，以输入图像 $I_0$ 和相机位姿 $P$ 为条件，预训练视频扩散模型输出隐空间张量 $\in \mathbb{R}^{n \times h \times w \times c}$ ，其中 $n$ 为特征数量， $h 、 w$ 分别为隐空间的高度与宽度维度。随后，本文设计的隐空间动态重建模型（LDRM，见3.2节）对该隐张量与相机条件进行处理，预测可形变高斯场，用于新视角与时序渲染。其次，本文在静态3D高斯溅射（3DGS）[29]的基础上增设高效帧间形变模型（见3.3节），以此刻画场景的动态变化。第三，采用统一监督策略（见3.4节），结合光度损失、几何损失与运动损失共同约束模型训练。最后，采用渐进式训练策略，保障纹理还原精度与几何结构的鲁棒性。

3.1 数据构建

本文搭建了一套可扩展的4D数据标注流水线，专门用于将真实场景视频转换为公制尺度下的时空点图。数据构建过程整合了两类互补的数据源：
(1) 合成数据集：本文选用7个合成数据集，分别为 TartanAir[82]、MatrixCity[36]、PointOdyssey[112]、DynamicReplica[27]、SPRING[54]、VKITTI2[8] 以及 MultiCamVideo[5]。这类数据集可提供精准的几何与运动真值标注，同时涵盖静态、动态等多种相机轨迹，是模型学习鲁棒几何先验与动态先验的核心数据基础。

(2) 真实场景数据集：引入 RealEstate10K[115] 与 Stereo4D[26] 两个真实场景数据集。这类数据具备真实场景的复杂特征与自然变化规律，对提升模型泛化能力至关重要。但该类数据集普遍存在相机运动范围有限、缺少公制尺度信息的问题，因此本文对其进行预处理，主要用于学习高保真外观特征。参考现有研究[116]，本文借助 VideoDepthAnything[9] 与 MegaSaM[39] 恢复数据的公制尺度，让生成框架实现更精准的相机控制[2]。

在这里插入图片描述

算法1 基于相对深度对齐的公制深度重建

1: 输入：RGB图像 $I$ 、预训练DepthAnything模型 $\mathcal{F}_{DA}$ 、MegaSaM模型 $\mathcal{F}_{MS}$ 、公制深度基准模型 $\mathcal{P}_M$
2: 输出：稠密且具备公制尺度的深度图 $D^*$

3: $D_{rel} \leftarrow \mathcal{F}_{DA}(I)$ ▷ 生成相对深度图
4: $\mathcal{S} \leftarrow \mathcal{F}_{MS}(I)$ ▷ 生成分割掩码集合
5: $\mathcal{A} \leftarrow \emptyset$ ▷ 初始化锚点集合

6: for each mask $M_i \in \mathcal{S}$ do
7: $d_{gt,i} \leftarrow \mathcal{P}_M(M_i)$ ▷ 查询该掩码对应的真值公制深度
8: if $d_{gt,i}$ 为有效测量值 then
9: $V_i \leftarrow \{D_{rel}(u, v) \mid M_i(u, v) = 1\}$ ▷ 提取对应区域的相对深度值
10: $d_{rel,i} \leftarrow \text{median}(V_i)$ ▷ 计算稳健代表值
11: $\mathcal{A} \leftarrow \mathcal{A} \cup \{(d_{rel,i}, d_{gt,i})\}$ ▷ 将配对数据加入锚点集合
12: end if
13: end for

14: ▷ 通过求解最小二乘问题估计最优缩放系数与偏移量
15: $(s^*, t^*) \leftarrow \arg\min_{s,t} \sum_{(d_{rel,i},d_{gt,i}) \in \mathcal{A}} (s \cdot d_{rel,i} + t - d_{gt,i})^2$

16: ▷ 将变换参数作用于整张相对深度图
17: $D^* \leftarrow s^* \cdot D_{rel} + t^*$

经过这套完整的数据处理流水线，本文最终构建得到约13万组高质量4D训练场景。同时执行严格的质量管控流程，包括动态目标掩码、重投影误差过滤等操作，最终整理出13万段多样化视频数据，所有视频均由固定相机拍摄动态场景。对于 RealEstate10K[114] 这类真实场景数据集，其仅能通过 COLMAP[67] 估计得到相对相机参数，无法确定全局尺度。针对该问题，本文结合 VideoDepth Anything[9] 与 MegaSaM[39] 两大基础模型，重新估计公制深度图与相机外参，实现帧间几何信息对齐。

3.2 隐空间动态重建模型

直接利用视频扩散模型开展面向三维的隐空间合成存在明显难点：这类模型缺乏显式相机控制能力，且动态内容一致性较差，会严重影响三维重建效果。参考近期隐扩散模型相关工作[7,41,59,65]，本文提出隐空间动态重建模型（LDRM），以此规避开销高昂的单场景优化流程。LDRM 以预训练视频扩散模型为基础，结合输入图像与相机位姿作为条件，生成具备三维感知能力的紧凑隐空间张量 $Z$ ；该张量能够保证多视角下结构与外观的一致性，十分适用于二维特征向三维空间的映射。

给定隐空间张量 $\in \mathbb{R}^{n \times h \times w \times c}$ 与相机位姿，本文构造长度一致的隐特征令牌与位姿令牌并完成拼接。拼接后的特征送入Transformer模块[1]处理，随后由轻量化解码器回归得到3D高斯的各项属性。最后通过三维反卷积层，将高斯属性映射至原始视频像素空间。

输入 → LDRM Transformer 编码 → 双分支解码器 → 输出低分辨率高斯特征图 G_low + 低分辨率形变图 D_low → 三维反卷积上采样 → 得到高分辨率高斯特征图 G + 高分辨率形变图 D → 静态参数 + 动态形变 → 最终可形变 4D 高斯场 → 光栅化渲染出像素视频

三维反卷积的作用：LDRM 的解码器为了节省算力，输出的初始高斯特征图分辨率极低（通常是原始视频的 1/8 或 1/16），比如原始视频是 512×512 像素，解码器输出的高斯特征图只有 64×64。三维反卷积会把 64×64 的特征图上采样到 512×512，让每个像素位置都对应一个独立的高斯基元，保证渲染画面的清晰度和连续性。

1.上游：视频扩散模型 → 输出 2D 视频隐特征；
2.LDRM 模块：隐特征 + 相机位姿转为令牌 → Transformer 融合特征 → 解码器输出纯 3D 高斯参数；
3.三维反卷积（映射到像素空间）：绑定像素与高斯、对齐分辨率（服务训练 + 渲染）；
4.下游：可形变高斯场添加运动参数 → 高斯光栅化 → 输出最终动态视频 / 新视角画面。

3.3 可形变高斯场

静态三维场景可由 $M$ 个高斯基元 $\{G_p\}_{p=1}^{\overline{M}}$ 的集合表示。单个高斯 $G_p$ 由均值位置 $\mu_p \in \mathbb{R}^3$ 、缩放因子 $s_p \in \mathbb{R}^3$ 、朝向四元数 $q_p \in \mathbb{R}^4$ 、不透明度 $\alpha_p \in \mathbb{R}$ 以及颜色特征 $c_p \in \mathbb{R}^C$ 共同定义。本文采用球谐函数（SH）建模视角相关效果。单个高斯的空间作用范围计算公式如下：
$G_p(x) := \exp\left( -\frac{1}{2}(x-\mu_p)^\top \Sigma_p^{-1} (x-\mu_p) \right) \tag{1}$
式中 $\Sigma_p$ 为协方差矩阵，由缩放因子 $s_p$ 与四元数 $q_p$ 计算得到。

公式：离高斯基元中心越近，它对当前位置画面的影响越大；距离越远，影响快速减弱，直到可以忽略。

参考现有研究[43,47,97]，本文引入可形变3D高斯表达式来表征动态场景。对于第 $p$ 个高斯在第 $t$ 个时刻的状态，预测的形变场包含三部分：均值位置偏移量 $\Delta \mu_p^t \in \mathbb{R}^3$ 、旋转修正量 $\Delta q_p^t \in \mathbb{R}^4$ 、缩放修正量 $\Delta s_p^t \in \mathbb{R}^3$ 。时刻 $t$ 下高斯的形变参数更新规则为：
$\mu_p^t := \mu_p^0 + \Delta \mu_p^t$ ，
$q_p^t := q_p^0 \otimes \Delta q_p^t$ （四元数乘法），
$s_p^t := s_p^0 + \Delta s_p^t$ 。

完成参数更新后的形变高斯，通过可微高斯光栅化流水线完成渲染。可形变高斯场与LDRM相结合，LDRM会输出高斯特征图 $\in \mathbb{R}^{(T \times H \times W) \times K_g}$ ，其中 $K_g$ 代表单个高斯基元的参数数量。与此同时，LDRM还会输出对应的形变图 $\in \mathbb{R}^{(T \times H \times W) \times K_d}$ 。形变维度 $K_d=10$ ，具体由位置偏移（ $\Delta \mu \in \mathbb{R}^3$ ）、旋转偏移（ $\Delta q \in \mathbb{R}^4$ ）与缩放偏移（ $\Delta s \in \mathbb{R}^3$ ）三部分构成。

在训练与推理阶段，本文基于模型预测的不透明度执行高斯剪枝策略：移除不透明度低于阈值 $\tau_{\text{opacity}}=0.005$ 的高斯，再执行渲染操作。

3.4 训练目标

为提升隐空间特征对应的几何一致性，本文基于可微渲染设计多任务联合优化的训练方案。总体损失函数由四项损失加权求和得到：
$\mathcal{L} = \mathcal{L}_{\text{FM}} + \lambda_{\text{photo}} \mathcal{L}_{\text{photo}} + \lambda_{\text{geo}} \mathcal{L}_{\text{geo}} + \lambda_{\text{motion}} \mathcal{L}_{\text{motion}} \tag{2}$
其中权重系数设置为 $\lambda_{\text{photo}}=1.0$ 、 $\lambda_{\text{geo}}=0.5$ 、 $\lambda_{\text{motion}}=2.0$ 。

流匹配损失

流匹配（FM）[51]方法的核心是学习一个向量场，实现从噪声分布到真实数据分布的映射。流匹配损失 $\mathcal{L}_{\text{FM}}$ 仅作用于基础视频扩散模型的参数，利用本文标注的4D数据集对预训练视频模型进行微调，让其隐空间分布与4D一致性数据相匹配。LDRM与高斯预测分支仅使用下文介绍的渲染类损失进行训练。

设 $z^{(0)}$ 为取自数据分布 $p_{\text{data}}$ 的干净隐序列， $z^{(1)} \sim \mathcal{N}(0, I)$ 为取自标准高斯先验分布的噪声样本。流匹配的优化目标是训练向量场模型 $v_\theta(z^{(t)}, t)$ ，使其拟合真值向量场 $u_t(z^{(t)})$ 。对应的损失函数为：
$\mathcal{L}_{\text{FM}}(\theta) = \mathbb{E}_{t, p_t(z^{(t)})} \Big[ \big\| v_\theta(z^{(t)}, t) - u_t(z^{(t)}) \big\|_2^2 \Big] \tag{3}$
该损失能够引导扩散模型生成符合本文4D标注数据集分布的隐空间视频特征。

第5步利用真实隐序列与噪声隐序列做逐元素相减，直接算出真值流场 $u_t$ ，它是特征沿流动路径移动的标准方向与速度。

第6步将中间隐状态 $z^{(t)}$ 和时间步 $t$ 输入视频扩散模型，模型执行前向推理，输出自己预估的移动方向与速度，即预测流场 $v_\theta$ 。

光度损失

为实现高质量新视角合成，本文结合复合损失优化3D高斯溅射参数：
$\mathcal{L}_{\text{photo}} = \text{MSE}\big(\hat{I}^k, I^k\big) + \lambda_p \cdot \text{LPIPS}\big(\hat{I}^k, I^k\big) \tag{4}$
式中 $\hat{I}^k$ 为第 $k$ 个视角的渲染图像， $I^k$ 为对应视角的真值图像， $\lambda_p$ 为LPIPS[108]项的权重系数。

几何损失

参考已有工作[34]，本文引入几何正则项约束深度预测精度。设 $\hat{D}_k$ 为渲染得到的深度图， $D_k^*$ 为第 $k$ 个视角的真值深度图。几何损失定义为：
$\mathcal{L}_{\text{geo}}(\hat{D}_k, D_k^*) = 1 - \frac{\text{Cov}(\hat{D}_k, D_k^*)}{\sqrt{\text{Var}(\hat{D}_k) \text{Var}(D_k^*)}}$
其中 $\text{Cov}$ 代表协方差， $\text{Var}$ 代表方差。此外，本文还引入全变分损失 $\mathcal{L}_{\text{TV}} = \big\| \nabla \hat{D}_k \big\|_1$ ，用于约束深度图具备局部平滑性。

运动损失

结合三维点跟踪数据，第 $j$ 个三维点的真值运动由位移量 $\Delta x_j$ 表示。合成数据集可直接获取点跟踪结果；对于真实场景视频，本文采用CoTracker[28]模型提取点轨迹，并依据置信度筛选高质量轨迹数据。运动损失表达式如下：
$\mathcal{L}_{\text{motion}} = \frac{1}{|\mathcal{O}|} \sum_{j \in \mathcal{O}} \Big( \lambda_m \big\| \Delta \hat{x}_j - \Delta x_j \big\|_2 + \big\| \Delta \hat{x}_j \big\|_1 \Big) \tag{5}$
式中 $\mathcal{O}$ 为有效跟踪点集合， $\Delta \hat{x}_j$ 为模型预测的位移量， $\lambda_m$ 为权重系数。

渐进式训练策略

① 静态几何预训练（迭代40000轮）：首先在低分辨率（ $256 \times 256$ ）下，使用静态场景数据集（如TartanAir、RealEstate10K）训练LDRM，仅采用光度损失与几何损失，以此构建扎实的几何先验。该阶段冻结形变模块（8层DPT分支）参数。
② 高分辨率优化（迭代40000轮）：保持形变模块冻结，切换至高分辨率（ $512 \times 512$ ），继续使用静态场景数据训练，进一步提升重建画质。
③ 动态场景微调（迭代20000轮）：最后解冻全部参数，使用动态数据集（PointOdyssey、DynamicReplica、SPRING、VKITTI2、Stereo4D）完成全模型微调。该阶段启用完整损失函数（包含运动损失），让模型学习帧间形变规律。

这套渐进式训练方案结合大规模4D数据集，能够让模型学习复杂的动态特征，最终生成高保真、时序连贯的动态场景。

4 实验评估

4.1 实现细节

本文框架基于预训练视频扩散Transformer模型 CogVideoX [98] 搭建，该模型运行在三维因果变分自编码器的隐空间中，压缩方案为 $32 \times 4 \times 8 \times 8$ 。模型主干包含32个模块，隐层维度设置为4096。本文提出的隐空间辐射场扩散模型（LDRM）由16个标准Transformer模块构成。隐特征的通道维度 $c = 32$ ，特征会先映射至64维嵌入空间，再送入Transformer主干网络处理。隐空间张量以 $\times 2$ 为分块大小进行令牌化，生成Transformer所需的令牌序列。为引入文本引导，每个DiT模块均配置交叉注意力层，用于融合T5模型[63]输出的图像嵌入特征。

训练阶段采用AdamW优化器[53]，初始学习率设为 $10^{-5}$ ，权重衰减系数为 $10^{-4}$ 。损失函数权重超参数设置如下：光度损失权重 $\lambda_{\text{photo}}=1.0$ ，几何损失权重 $\lambda_{\text{geo}}=0.5$ ，光度损失内LPIPS项权重 $\lambda_p=0.5$ ，运动损失权重 $\lambda_m=2$ 。整体模型共训练100000轮迭代，搭配余弦学习率调度策略；训练环境使用32张A100显卡，启用BF16混合精度，完整训练周期约7天。在推理阶段，模型生成一组动态场景仅需约30秒。

4.2 评估方案

基线方法：本文将单阶段推理框架与当前主流的两阶段流水线方法进行对比。具体选取AC3D [2] 完成单图像可控视频生成，再结合Mosca [31] 实现动态3D高斯重建。

为全面评估相机控制能力，本文构建了包含160个样本的评测集：选取32组配有文本描述的独立场景，每组场景分别搭配五种不同相机轨迹（螺旋运动、向前移动、向后移动、向上移动、向下移动）。另有部分前沿的前向式4D生成方法因未开源、或输入条件与本文不一致，无法开展公平的横向对比，因此未纳入本次评测。

评价指标：本文从文本与场景匹配度、视觉美观度两大维度，采用多项通用指标开展评测，包括CLIP相似度分数[62]、CLIP美学分数[68]以及基于视觉大模型的视觉评分指标Q-Align（QA-Quality）[88]。视频质量采用弗雷歇视频距离（FVD）[77]与核视频距离（KVD）[76]进行衡量。针对几何完整性评估，本文使用MASt3R [32] 计算输入图像与生成新视角图像之间的局部匹配点数量，同时统计主体一致性分数与背景一致性分数[111]。
在这里插入图片描述

表1 外观保真度与视觉美观度的定量对比。† 代表需要执行单场景优化的方法，表格中标注出排名第一、第二的结果。

在这里插入图片描述

表2 几何完整性与重建耗时。† 代表基于优化的方法，最优结果采用加粗标注，次优结果采用下划线标注。

4.3 定量与定性实验结果

定量结果：结合表1与表2的实验数据可以看出，本文方法在全部评测指标上均达到领先或最优水平。在视频生成与视觉美观度任务中（见表1），本文方案综合表现优异，同时将重建耗时压缩至30秒，效率提升极为显著。反观基于优化的对比方法，例如“AC3D + Mosca”组合方案，单次处理需要45分钟。表2的结果同样证明，本文方法能够实现高精度的相机可控生成，场景几何完整性表现突出。

在这里插入图片描述

定性结果：如图3所示，相较于各类基线方法，本文生成的4D场景视觉效果更出色、时序连贯性更强，几何精度也更高。例如SaV、Mosca生成的视频存在运动不流畅、画面伪影等问题；而AC3D、CameraCtrl这类侧重相机控制的方法受限于二维视频先验，场景动态表现力不足。本文依托可形变3D高斯场，能够对场景的时序变化进行连续、完整的表征，因此视觉效果更优。
在这里插入图片描述

图4 极端视角下的定性结果。

生成可控性：本文采用显式4D场景表征，可依据指定的相机路径确定性地渲染视频，保障场景的物理一致性。本文采用相对位姿误差（RPE）指标[71]量化相机位姿的还原精度。由表3数据可知，对比隐式表征基线方法，本文方案大幅降低了平移与旋转方向的位姿误差，生成视频可以严格贴合预设的相机运动轨迹。
在这里插入图片描述

表3 平均相对位姿误差（RPE）对比。该表格验证本文显式模型在平移、旋转精度上的优势，同时对比不同方法的拓展功能。

4.4 消融实验与分析

可形变高斯场的作用

图6验证了形变高斯模块的必要性。移除该模块后，模型无法区分相机自身运动与前景物体的自主运动，也难以融合不同时间戳下的3D高斯溅射信息，最终导致画面出现运动模糊、尖峰状伪影，整体画质大幅下降。引入可形变高斯场后，模型能够有效融合多帧重建信息，最终输出更高质量的渲染结果。
在这里插入图片描述

图6 可形变高斯场消融实验。移除该模块后（红色框标注区域），运动幅度较大的视频帧会出现重影伪影。

显式表征的作用

如表3所示，使用显式3D高斯溅射表征相比隐式模型具备多重优势。第一，相机可控能力大幅提升，平移与旋转方向的相对位姿误差显著降低，保证生成内容严格匹配相机轨迹。第二，显式表征拓展出隐式模型不具备的功能，例如深度图渲染、实时交互等。

运动损失的作用

本文针对形变模块与运动损失开展消融实验，实验结果如表4所示。若移除运动损失，网络将无法精准学习时序形变规律，而时序形变是动态视频合成的核心。该损失项缺失后，场景重建质量全面下滑，所有定量指标均出现明显劣化。
在这里插入图片描述

表4 运动损失消融实验。评估本文所设计的运动损失对动态视频生成效果的影响。

渐进式训练的作用

渐进式训练策略是实现高质量4D场景生成的关键。如果直接使用动态数据训练模型，3D高斯溅射模块无法完成有效初始化，训练过程震荡不稳定，最终生成的4D场景效果较差。本文先完成静态场景表征学习，为复杂动态特征的学习筑牢基础，显著提升生成画质。同时，直接训练动态任务的效率极低：想要达到与本文相近的效果，直接训练需要耗时21天，而本文渐进式训练方案仅需7天。如图7所示，经过100000轮迭代后，本文训练方案输出的画面质量远优于直接动态训练方案，资源利用效率也更高。
在这里插入图片描述

图7 渐进式训练策略消融实验。迭代100000轮后，本文方案（左侧）相比直接动态训练方案（右侧）拥有更高的视觉质量。

应用场景

除可控视频生成外，本框架天然支持动态场景新视角合成，可实现自由视角渲染。依托显式3D高斯溅射表征，模型支持实时渲染与人机交互，可为沉浸式虚拟现实应用提供技术支撑，同时还能便捷提取深度图等几何信息。图4展示了模型在真实场景下的泛化效果，图5则集中展示了各项拓展应用的定性结果。
在这里插入图片描述

图5 DIFF4SPLAT的应用场景。该方法可实现动态场景新视角合成、从4D表征中提取深度图等功能。

5 结论

本文提出一种基于前向推理的框架，由单张图像直接生成显式可形变高斯场，并实现三大核心创新：第一，构建融合动态场景建模能力的统一扩散Transformer架构；第二，设计具备几何感知能力的隐空间表征，实现高效的新视角合成；第三，搭建支持各类实际应用的实时渲染流水线。

思考

针对传统动态3D生成方法依赖耗时的单场景优化（如3DGS逐场景优化需数小时）、视频扩散模型缺乏显式相机控制和3D一致性只能生成固定视角视频的痛点.

DIFF4SPLAT提出了一种端到端前馈式4D场景生成框架：输入单张RGB图像、可选文本提示和相机轨迹，先通过基于CogVideoX微调的视频扩散模型（利用13万组带公制几何与运动标注的4D数据集，采用流匹配损失重塑其隐空间分布）生成带4D先验的时空隐序列；接着由核心模块LDRM（隐空间动态重建模型）将隐特征与相机位姿令牌拼接融合，经Transformer编码后通过双分支解码器同时输出静态高斯特征图（包含每个时空网格点高斯基元的位置、旋转、缩放、不透明度和球谐颜色参数）和10维形变图（3维位置偏移+4维旋转偏移+3维缩放偏移）；最后将静态参数与动态形变结合得到可形变4D高斯场，通过可微高斯光栅化实时渲染为任意视角的动态视频。

该方法的核心创新在于首次将视频扩散模型与可形变3D高斯溅射端到端统一，彻底摒弃测试时优化；提出LDRM模块实现2D隐特征到3D高斯表示的直接映射，通过像素-高斯一一绑定保证多视角一致性；采用10维形变场高效建模动态场景时序运动，避免存储全序列高斯参数；设计包含光度、几何、运动损失的统一监督方案和渐进式训练策略，平衡生成质量与几何精度。

应用效果上，DIFF4SPLAT能生成高保真、时序连贯的动态4D场景，支持任意视角实时渲染和交互式虚拟漫游，在视频生成、新视角合成和几何提取任务上达到或超越优化式动态3DGS方法的效果，同时可生成人物行走、车辆行驶、自然景物摆动等多种复杂动态。与其他方法相比，其优势显著：相比优化式动态3DGS方法，推理速度提升两个数量级（从数小时降至30秒）；相比视频扩散模型，具备显式相机控制和多视角一致性，生成的是可编辑的3D资产而非固定视角视频；相比NeRF类动态方法，渲染速度快100倍以上，支持实时交互；相比两阶段生成方法，端到端设计避免了中间步骤的信息损失。

训练资源方面，使用32张A100 GPU，采用BF16混合精度，训练10万迭代约需7天；推理资源方面，单张A100或RTX 4090显卡即可运行，生成一个包含32帧的动态4D场景约需30秒，渲染帧率可达30fps以上支持实时交互。

一、相机控制能力的核心作用

相机控制能力指模型能够根据用户指定的相机位姿（位置、朝向、轨迹），精准生成对应视角的内容，并保证多视角下几何与外观的一致性，是 3D/4D 生成与普通视频生成的本质区别，其作用体现在两个核心层面：
1.训练阶段：让模型真正学会 “三维空间”

作为条件输入，告诉模型 “这张图是从哪个角度拍的”，强迫模型学习同一物体在不同视角下的形状、大小、光影变化规律，建立 3D 几何感知
区分"相机运动" 和 “物体自身运动”，避免模型把视角变化误判为物体变形
为下游 3D重建提供几何先验，保证生成的隐序列具备多视角一致性，不会出现 “正面看是杯子、侧面看是平板” 的问题
2. 推理阶段：实现交互式 3D 体验

是用户控制视角的唯一接口：输入任意相机轨迹，就能从同一个 4D 场景中渲染出对应视角的动态视频
支持第一人称漫游、360°环绕观察、推近拉远等交互式操作
区别于普通视频生成的核心优势：普通模型只能输出固定视角的 “电影”，而具备相机控制的模型能输出可自由探索的 “3D 世界”