SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

2501_93850823

321人浏览 · 2026-05-11 20:53:14

2501_93850823 · 2026-05-11 20:53:14 发布

一、论文基本信息

论文题目：SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis
作者：Hyojun Go*、Byeongjun Park*、Jiho Jang、Jin-Young Kim、Soonwoo Kwon、Changick Kim（* 共同一作）
单位：EverEx、韩国科学技术院（KAIST）
会议：CVPR 2025
项目主页：https://gohyojun15.github.io/SplatFlow/

二、论文摘要

基于文本的 3D 场景生成与编辑，在 VR/AR、游戏、数字内容创作中价值巨大。
尽管 3D 高斯溅射（3DGS）已实现高保真 + 实时渲染，但现有方法普遍任务专一、框架割裂：生成要逐场景优化、编辑要复杂后处理，缺少一套同时支持生成与编辑的统一方案。为此，本文提出SplatFlow框架：用多视图校正流（RF）模型在潜在空间联合生成多视图图像、深度、相机姿态；用高斯溅射解码器（GSDecoder）前馈输出像素对齐 3DGS；结合免训练反转 + 修复，一键实现 3D 对象编辑、新视角合成、姿态估计等任务。在 MVImgNet、DL3DV-7K 真实场景数据集上，SplatFlow 在生成质量、文本对齐、编辑效果上均超越现有方法。

三、论文动机（为什么要做）

3DGS 好用，但流程太碎3D 高斯溅射渲染快、效果好，但现有工作生成归生成、编辑归编辑，没有一体化框架。
真实场景太难搞
物体级数据集简单，真实世界尺度不一、相机轨迹复杂，传统方法难以泛化。
编辑成本太高现有 3DGS 编辑依赖 SDS 优化、视图注意力、自回归循环，步骤多、速度慢、门槛高。
→ 目标：一套模型、一次训练、同时搞定生成 + 编辑 + 多类 3D 任务。

四、核心创新点

4.1 首次实现 3DGS 生成与编辑的一体化统一框架

SplatFlow 在领域内首次真正打通 3D 高斯溅射的生成与编辑闭环，打破以往 “生成模型专司生成、编辑模型另起炉灶” 的割裂现状，构建出单一模型兼顾高质量生成与灵活编辑的全新范式。
它摒弃了传统 3D 编辑必须设计专用编辑模块、额外优化流程、视图一致性补偿组件的复杂思路，全程只训练一个生成模型，不新增任何编辑专用网络。编辑能力完全依托免训练的扩散反转技术（SDEdit）与潜在空间修复技术（RePaint）实现，仅通过修改多视图潜在特征即可完成编辑，流程极简、无额外开销、落地更高效。

4.2 多视图图像 + 深度图 + 相机姿态联合潜在建模

针对真实世界场景尺度差异大、相机轨迹复杂、多视图易不一致的痛点，SplatFlow 在潜在空间内对图像、深度、相机姿态三者进行端到端联合建模，而非分开训练、单独预测。
模型以文本为条件，一次性输出对齐的多视图图像特征、深度潜在特征、普吕克射线坐标，从根源上保证多视图几何一致性与空间结构合理性，无需后处理校准。这种联合分布学习让模型能自适应不同场景尺度与任意相机轨迹，完美适配无约束的真实 3D 场景生成。

4.3 前馈式高斯解码，彻底告别逐场景优化

依托高效前馈 3DGS 重建技术，SplatFlow 设计专用高斯溅射解码器（GSDecoder），实现一步式从多视图潜在表示直接解码为像素对齐 3DGS。
对比传统基于 SDS 的文本到 3D 方法必须逐场景迭代优化、耗时极长的缺陷，该解码器以固定网络前馈推理，速度大幅提升，可支撑大规模数据集训练与快速部署。同时通过深度潜在注入、对抗损失与视觉辅助损失，在保持速度的同时精准还原几何结构与表面细节，兼顾效率与保真度。

4.4 原生兼容 Stable Diffusion 3，复用 2D 大模型强先验

SplatFlow冻结并共享 Stable Diffusion 3 的预训练编码器，让多视图校正流模型与 SD3 共用同一潜在空间，实现 2D 与 3D 生成模型的深度兼容。
这一设计直接继承 SD3 的文本对齐、语义理解、细节生成能力，无需从零学习文本 - 视觉对齐，显著提升 3D 生成质量与泛化性；同时保持与主流 2D 扩散生态的互通性，支持灵活接入各类提示引导、编辑策略，让 3D 生成能够站在 2D 大模型的成熟能力之上快速迭代。

五、方法框架

在这里插入图片描述

SplatFlow 只有两大核心组件，结构非常清爽：

4.1 SplatFlow 整体架构

SplatFlow 是一个仅训练生成模型、即可统一支持 3DGS 生成与免训练编辑的端到端框架，由多视图校正流（RF）模型和高斯溅射解码器（GSDecoder）两大核心组件构成。
以文本为条件，模型先在潜在空间生成多视图一致的图像、深度与相机姿态，再通过前馈解码直接输出像素对齐的 3DGS；全程不设计专用编辑模块，仅依靠免训练反转 + 潜在空间修复完成编辑与各类 3D 任务，实现生成与编辑一体化。

4.2 高斯溅射解码器（GSDecoder）

GSDecoder 以多视图潜在特征 + 相机姿态为输入，采用纯前馈方式输出 3DGS，彻底告别逐场景优化。
输入：K 个视图的图像潜在、深度潜在（DepthAnything V2 提取）、对应相机姿态。
深度潜在整合：将深度潜在作为额外输入注入，强化 3D 几何结构，提升收敛速度与重建精度。
网络设计：基于 Stable Diffusion 3 解码器初始化，增加通道维度并引入跨视图注意力，保证多视图信息互通与结构一致。
训练损失：组合使用 LPIPS、MSE 与视觉辅助损失，后期加入对抗损失提升细节与真实感，同时保证训练稳定。
输出：逐像素对齐的 3DGS 完整参数（位置、不透明度、协方差、颜色），可直接用于实时渲染。

4.3 多视图校正流（RF）模型

多视图 RF 模型在潜在空间联合建模多视图图像、深度、相机姿态，从文本提示直接生成三者对齐的潜在表示。
输入构造：将多视图图像潜在、深度潜在与普吕克射线坐标沿通道维度拼接，形成统一输入特征。
模型结构：基于 Stable Diffusion 3 微调，修改输入输出通道，加入跨视图注意力，使用条件流匹配损失训练，采样更快、误差更低。
采样与姿态优化：从普吕克坐标解算相机姿态，并通过流形约束精修姿态参数，确保多视图共享内参、轨迹合理；同时融入 SD3 向量场引导，提升多视图图像质量。
核心输出：对齐的多视图图像潜在、深度潜在与优化后的相机姿态，从根源保证 3D 一致性，适配真实场景的多变尺度与复杂轨迹。

4.4 免训练推理：生成、编辑与修复应用

SplatFlow 仅训练生成能力，编辑、相机姿态估计、新视角合成均通过免训练方式实现。
3DGS 编辑：对原始多视图潜在执行SDEdit 免训练反转，以目标文本为条件重采样，直接得到编辑后潜在，再解码为 3DGS，无需额外编辑模块与精细优化。
修复类任务：利用模型对图像、深度、姿态的联合建模，将已知部分作为约束，通过 RePaint 修复完成：
相机姿态估计：从部分视图图像与深度推断完整相机姿态。
新视角合成：用部分视图生成其余新视角，支持插值与外推。

六、实验分析

6.1 文本→3DGS 生成

在这里插入图片描述

数据集：MVImgNet、DL3DV-7K
指标：FID（越低越好）、CLIPScore（越高越好）
结果：全面超越 Director3D，更小训练集跑出更好效果，细节更清晰、纹理更自然。

6.2 3D 对象编辑（物体替换）

对比：DGE、MVInpainter
结论：SplatFlow 可彻底替换对象，不是简单改风格，CLIP 分数与方向相似度更高。

6.3 相机姿态估计

在这里插入图片描述

对比：RelPose++、RayDiffusion
结果：旋转与相机中心精度大幅领先，深度联合建模带来强鲁棒性。

6.4 新视角合成

在这里插入图片描述

支持插值（均匀视角）与外推（中心视角）；
输入视图越多，PSNR/SSIM 越高，深度估计越准。

七、结论与展望

7.1结论

SplatFlow 构建了首个统一 3DGS 生成 + 编辑的高效框架；
多视图 RF+GSDecoder 设计，适配真实复杂场景；
免训练编辑 + 修复，一键支持对象编辑、姿态估计、新视角合成；
在多项任务上SOTA，简单、强大、好用。

7.2展望

向动态 4D 场景扩展；
提升超大场景、室内外混合的生成能力；
进一步轻量化，落地移动端实时 3D 内容创作。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

终端开发新纪元：Claude Code 深度解析与实战指南

ClaudeCode是Anthropic推出的命令行AI开发工具，支持代码修改、测试运行和Git操作等任务。模灵API为其提供优化接入服务，确保稳定高效的终端交互。该工具需Node.js环境，通过自然语言指令即可完成代码分析、Bug修复等操作，并支持撤销更改等安全功能。模灵API还提供国内网络优化、统一配额管理等增值服务，使开发者能更高效地利用Claude 4.7模型进行AI原生开发。

AtomGit开源社区

【图像重建】基于ADMM（交替方向乘子法）的深度图重建三维重建 MATLAB 代码

三维重建在计算机视觉领域有着广泛应用，如虚拟现实、自动驾驶、机器人导航等。深度图作为描述场景中物体距离信息的关键数据，其准确重建对于高质量三维重建至关重要。交替方向乘子法（ADMM）作为一种有效的优化算法，能够在处理复杂约束条件下的优化问题时展现出良好的性能。本文将探讨如何基于 ADMM 进行深度图重建，进而实现三维重建。三维重建旨在通过对物体或场景的多视角图像信息进行处理，恢复其三维几何结构。这