【3D 场景生成】SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose

weixin_46687145

392人浏览 · 2026-06-02 15:58:08

weixin_46687145 · 2026-06-02 15:58:08 发布

在这里插入图片描述

SceneMaker：基于解耦去遮挡与位姿估计模型的开放集三维场景生成

原文链接：https://arxiv.org/pdf/2512.10957
源码链接（含Training Code）：https://idea-research.github.io/SceneMaker/
ICLR-withdraw：https://openreview.net/forum?id=Xo1h3mIN9O
发表：CVPR-2026
在这里插入图片描述

图1 本文方法不仅在室内场景与开放集场景中均取得优异性能，还在合成数据与真实采集图像上展现出更强的泛化能力

摘要

本文提出一种名为SceneMaker的解耦式三维场景生成框架。现有方法因缺乏充足的开放集去遮挡与位姿估计先验知识，在严重遮挡与开放集场景下难以同时生成高质量几何结构与精准位姿。为解决上述问题，本文首先将去遮挡模型从三维物体生成任务中解耦，并利用图像数据集与自建去遮挡数据集增强模型，使其适配更丰富多样的开放集遮挡模式。随后，本文提出一种统一位姿估计模型，该模型融合全局与局部机制，同时采用自注意力与交叉注意力以提升位姿估计精度。此外，本文构建了一个开放集三维场景数据集，进一步拓展位姿估计模型的泛化能力。大量实验表明，本文提出的解耦框架在室内场景与开放集场景上均具备优越性。本文代码与数据集已开源至https://idea-research.github.io/SceneMaker/。

1 引言

开放集三维场景生成旨在从单张图像合成包含任意开放域物体的三维场景。该任务是人工智能生成内容（AIGC）与具身智能领域的核心任务，应用场景包括三维资产创建、仿真环境构建与决策导向的三维感知等。然而，有限的场景数据集[4,13,18]将现有多数方法[7,11,12,14,19,31,34,45]局限于室内场景等受限域。

近年来，大规模三维物体数据集[15]的出现推动了开放集三维物体生成模型[26-28,52,54,58,60]的快速发展，新兴方法[3,22,29,33,55]开始将场景生成拓展至开放集场景。尽管取得诸多进展，现有方法在严重遮挡与开放集场景下仍难以同时生成高质量几何结构与精准位姿（见图10）。
在这里插入图片描述

图2 不同方法的先验来源分析。该表格展示了各类方法所需的开放集先验（列）在不同数据集（行）中的可获取情况。不同颜色的路径代表不同的场景生成方法。受限于数据集规模，现有方法（黄色路径与绿色路径）缺乏充足的去遮挡与位姿估计开放集先验。本文进一步利用图像数据集获取去遮挡先验，并构建全新场景数据集获取位姿估计先验，以此实现更优的开放集性能（红色路径）。

其根本原因在于模型缺乏充足的开放集去遮挡与位姿估计先验知识。如图2所示，三维场景生成模型需要三类关键开放集先验：去遮挡先验、物体几何先验与位姿估计先验。这些先验在场景数据集、物体数据集与图像数据集[4,15,16,18,41]中的可获取性各不相同。不同颜色路径代表基于不同先验来源的各类场景生成方法。现有场景原生方法（黄色路径）[12,14,31,45]仅从场景数据集学习全部三类先验，其开放集先验的可获取性有限。物体原生方法（绿色路径）[3,22,29,33,38,53,55]进一步利用大规模三维物体数据集学习充足的开放集物体几何先验，但受限于数据集规模，去遮挡与位姿估计的开放集先验仍不充足，上述问题未得到解决。同时，现有位姿估计方法[51,56,57]应用于场景生成任务时性能下降，主要原因是缺少尺寸预测模块，且未针对不同位姿变量设计专用注意力机制。

本文通过补足去遮挡与位姿估计的开放集先验，进一步推动三维场景生成向开放集场景发展（见图2红色路径）。具体而言，本文构建解耦框架，依据所需先验将三维场景生成拆分为三项独立任务：去遮挡、三维物体生成与位姿估计。三项任务分别在图像数据集、三维物体数据集与场景数据集上独立训练。该解耦框架确保每项任务可最大化学习对应开放集先验，避免因数据跨任务干扰导致的质量退化问题，例如几何与位姿联合表征引发的小物体几何崩塌与位姿偏移（见图10）。

其次，本文利用图像数据集获取开放集遮挡先验，构建鲁棒的去遮挡模型。图像数据集规模远大于三维数据集，涵盖更广泛的开放集物体与更丰富多样的遮挡模式。为保留充足开放集先验，本文采用图像编辑模型[25]初始化去遮挡模型，随后在自建的包含三类精心设计遮挡模式的10K图像去遮挡数据集上微调，进一步提升模型去遮挡能力，最终得到去遮挡模型。与现有基于三维物体的方法[22,53]相比，本文模型在严重遮挡与开放集条件下生成结果质量更高，且支持文本可控生成。

第三，本文提出统一位姿估计模型，并构建200K场景数据集以提升模型性能与开放集泛化能力。由于三维物体生成模型[6,26,58,60]通常输出标准空间下的归一化物体以保证几何质量，现有方法[5,51,56,57]应用于场景生成任务时，往往局限于预定义类别或缺少尺寸预测。因此，本文提出基于扩散模型的统一位姿估计模型，以点云、图像与物体几何为条件，直接预测物体旋转、平移与尺寸。与现有方法[55]相比，本文引入单物体与多物体自注意力机制，保障物体间交互以实现合理的空间关系。此外，本文设计解耦式交叉注意力机制：旋转注意力关注标准物体条件，平移与尺寸注意力关注场景级条件，进一步提升估计精度。为拓展开放集能力，本文基于Objaverse[15]物体构建大规模200K合成场景数据集，并在训练时与现有场景数据集混合使用。

最后，大量实验表明，本文模型在室内与开放集测试集上，于物体几何质量与位姿精度两方面均达到最优性能。本文还探讨了方法在不同物体数量场景下的泛化能力，以及在视频与多视图模态下的潜在性能上限。

综上，本文贡献主要有三点：

构建名为SceneMaker的解耦式三维场景生成框架，充分利用现有数据集学习充足的开放集去遮挡与位姿估计先验，在综合实验中取得优异性能。
利用图像数据集获取开放集遮挡先验，并基于自建10K物体图像去遮挡数据集优化，构建鲁棒的去遮挡模型。
提出统一位姿估计扩散模型，直接预测每个物体的6D位姿与尺寸，引入全局与局部注意力机制提升精度；同时构建200K合成场景数据集，增强模型开放集泛化能力。

2 相关工作

2.1 三维场景生成

三维场景生成在人工智能生成内容与具身智能领域需求旺盛，是实转虚应用的基础任务。依据三维物体来源，现有方法分为生成式与检索式两类。检索式方法[14]从离线库中检索三维物体，但受限于资产多样性，难以泛化至开放集场景。生成式方法直接从图像生成三维物体，又可分为场景原生与物体原生方法。场景原生方法[12,31,45]直接从场景数据集[4,13,18]学习，但仅适用于室内场景等特定域。物体原生方法进一步利用开放集三维物体数据集[15]提升物体几何质量。一系列方法[3,22,29,33,55]直接在场景空间生成物体几何，但受限于场景数据集与耦合表征，在严重遮挡或小物体图像上常出现明显退化。另一系列方法[55]将几何生成与位姿估计解耦以提升开放集性能，但位姿估计时缺少场景级交互，导致相对位姿不准确。从根本上看，现有方法缺少充足的去遮挡与位姿估计先验。本文通过利用图像数据集完成去遮挡、提出统一位姿模型并搭配合成场景数据集，补足两类开放集先验。

2.2 遮挡下的物体生成

随着大规模开放集三维物体数据集[15]的出现，诸多原生三维物体生成工作[26,28,52,54,58,60]取得亮眼成果。但遮挡条件下的三维物体生成更贴合场景生成需求，仍需进一步探索。现有多数方法[9,10,43,62]将该任务建模为三维补全，即从图像获取部分几何后，用三维生成模型完成补全。近期部分方法[8,53]额外使用遮挡图像与掩码作为补充信息，取得更好效果。由于三维生成模型已具备充足几何先验，任务瓶颈在于缺少去遮挡先验。图像数据集包含比三维数据集更丰富的遮挡模式，却未被充分利用。本文通过解耦去遮挡模型并利用图像数据集训练，提升生成质量与可控性。

2.3 位姿估计

基于模型的位姿估计旨在依据给定CAD模型预测位姿。现有方法[46,47,59,61]在预定义类别上取得优异性能。近期工作[24,42,51,56,57]通过回归或扩散模型将任务拓展至任意物体，但应用于场景生成任务时缺少尺寸预测。CAST3D[55]通过点扩散模型解决该问题，但缺少物体间交互与跨空间条件的解耦机制。本文提出融合全局与局部注意力机制的统一位姿估计扩散模型，提升位姿估计精度。

3 方法

本文构建名为SceneMaker的解耦式三维场景生成框架，充分利用现有数据集学习充足的开放集先验。3.1节对整个场景生成框架进行形式化定义与概述；3.2节介绍如何利用图像数据集构建解耦去遮挡模型，用于三维物体生成；3.3节提出统一位姿估计模型，并通过合成数据集拓展开放集泛化能力。
在这里插入图片描述

图3 SceneMaker的框架结构。本框架由场景感知、遮挡条件下的三维物体生成与位姿估计三部分组成。我们将去遮挡模型从三维物体生成任务中解耦，并构建了一种融合全局与局部注意力机制的统一位姿估计模型。GSA、LSA、GCA、LCA与FFN分别代表全局自注意力、局部自注意力、全局交叉注意力、局部交叉注意力与前馈网络。

3.1 框架

如图3所示，给定包含多个物体 $X=\{x_1,x_2,...,x_n\}$ 的单张场景图像 $X$ ，本文场景生成框架旨在生成包含对应三维物体 $Z=\{z_1,z_2,...,z_n\}$ 的一致三维场景 $Z$ 。本框架由三个模块组成：场景感知、遮挡下的三维物体生成与位姿估计，具体自动化步骤如下：

利用Grounded-SAM[40]分割物体掩码 $M=\{m_1,m_2,...,m_n\}$ ，将掩码应用于场景图像 $X$ ，得到遮挡物体图像 $I=\{i_1,i_2,...,i_n\}$ 。
利用MoGe[49]估计场景深度图 $D$ ，将掩码 $M$ 应用于深度图并将像素投影至三维空间，得到点云 $C=\{c_1,c_2,...,c_n\}$ 。
通过解耦去遮挡模型获取去遮挡物体图像 $I^d=\{i_1^d,i_2^d,...,i_n^d\}$ ，公式为 $\epsilon_{\theta}^d(I_t^d ; t,I) \to I^d$ ，其中 $\epsilon_{\theta}^d$ 为本文解耦去遮挡模型， $t$ 为扩散模型时间步。
基于去遮挡图像 $I^d$ 生成三维物体几何 $O=\{o_1,o_2,...,o_n\}$ ，公式为 $\epsilon_{\theta}^o(O_t ; t,I^d) \to O$ ，其中 $\epsilon_{\theta}^o$ 为三维生成模型。
基于点云、图像与物体几何估计物体位姿 $P=\{p_1,p_2,...,p_n\}$ ，公式为 $\epsilon_{\theta}^p(P_t ; t,X,M,I,C,O) \to P$ ，其中 $\epsilon_{\theta}^p$ 为位姿估计模型，物体位姿包含旋转、平移与尺寸，即 $p_i=\{r_i,t_i,s_i\}$ 。
将生成的物体几何与估计位姿合成最终场景： $Z=\{O,P\}$ 。

在该形式化定义下，本文构建解耦式三维场景生成框架，充分利用现有数据集学习充足的开放集先验。

3.2 基于去遮挡模型的物体生成

在通过场景感知模块获取深度图与分割掩码后，本文旨在基于遮挡物体图像生成具备高质量几何的三维物体。现有方法在严重遮挡下往往难以生成高质量几何，核心挑战在于模型受限于三维数据集规模，缺少充足的开放集遮挡先验。

图像数据集规模远大于三维数据集，涵盖更广泛的开放集物体与更丰富多样的遮挡模式。因此，与现有方法相比，本文进一步将去遮挡模型解耦，并在图像数据集上训练以获取更丰富的遮挡先验。去遮挡模型形式化定义如下：
$\epsilon_{\theta}^d(I_t^d ; t,I) \to I^d$
其中 $\epsilon_{\theta}^d$ 、 $I$ 、 $I^d$ 、 $t$ 分别表示本文解耦去遮挡模型、遮挡图像、去遮挡图像与扩散模型时间步。

现有原生三维物体生成模型[26,54,58,60]已取得优异性能，因此本文在去遮挡后直接采用现有方法[27]完成图像到三维的生成任务，如公式(2)所示：
$\epsilon_{\theta}^o(O_t ; t,I^d) \to O$
其中 $\epsilon_{\theta}^o$ 与 $O$ 分别表示三维生成模型与生成的三维物体。

3.2.1 去遮挡模型

本文在自建去遮挡数据集上微调Flux Kontext[25]得到去遮挡模型。为获取充足开放集先验与强大的自然语言提示理解能力，本文直接采用Flux Kontext[25]初始化去遮挡模型。尽管图像编辑[25]与图像修复[23]模型均可实现去遮挡，但在严重遮挡场景下性能往往欠佳，根本原因是训练数据中缺少多样且严重的遮挡模式。为解决该问题，本文额外构建10K物体图像去遮挡数据集用于微调，进一步提升模型去遮挡能力。

去遮挡数据集。数据集构建流程如图4所示。本文首先使用GPT[2]生成物体详细描述文本，再采用图像生成模型[17]生成高质量目标图像。考虑到遮挡图像由分割模型[40]基于预定义类别标签[32]生成，本文为每个类别生成20条描述文本，并尽可能细化文本内容以保证图像质量。同时，本文为所有类别设计通用模板作为去遮挡文本提示。随后，本文精心设计三种掩码策略模拟真实遮挡：无背景物体裁切用于物体遮挡、直角裁切用于图像边界、随机笔触用于用户提示，如图5所示。本文还对物体与整张图像进行随机缩放，模拟小物体与低分辨率图像的遮挡模式。最终，去遮挡数据集由10K组掩码图像、文本提示与目标图像构成。
在这里插入图片描述

图4 去遮挡数据集构建流程

在这里插入图片描述

图5 去遮挡数据集的遮挡模式

3.2.2 对比实验

去遮挡。本文通过定量与定性实验验证去遮挡模型的优越性，主要对比当前最优的图像修复[23]与图像编辑[25]方法。实验在包含500余个类别、1K张图像的自建验证集上开展，采用预测结果与真实图像的峰值信噪比（PSNR）、结构相似性（SSIM），以及预测结果与类别标签的CLIP分数作为评估指标。如图6与表1所示，本文去遮挡模型在室内与开放集物体上均表现更优，尤其在严重遮挡场景下效果突出。
在这里插入图片描述

图6 图 6 去遮挡模型的定性对比。本文模型在室内物体与开放集物体上均表现更优，尤其在严重遮挡场景下效果突出。

在这里插入图片描述

表1 去遮挡定量对比结果

遮挡下的物体生成。为验证解耦流程的优越性，本文在遮挡三维物体生成任务上，与现有原生三维物体生成方法[53]及场景生成方法[22]进行对比。如表2所示，为贴合真实遮挡模式，定量实验采用由InstPifu[31]基于3D-Front数据集[18]渲染的图像作为测试集，其中包含大量严重遮挡物体。本文还在室内与开放集场景上开展定性实验，如图7所示。定性与定量结果均表明，本文解耦框架在室内与开放集场景的遮挡物体生成任务上均取得更优性能。
在这里插入图片描述

图7 遮挡下物体生成定性对比

在这里插入图片描述

表2 遮挡下物体生成定量对比结果

3.3 统一位姿估计模型

位姿估计模型的目标是基于物体标准几何 $O$ ，预测场景中每个物体的旋转 $R$ 、平移 $T$ 与尺寸 $S$ 。现有方法[22,51,55-57]主要面临三大挑战：第一，由于物体几何通常在标准空间生成，这些方法应用于场景生成任务时往往缺少尺寸预测；第二，在与场景级和物体级特征交互时，未对不同位姿变量进行合理解耦，导致性能下降。本文在3.3.1节提出融合全局与局部注意力机制的统一位姿估计模型，解决上述两个问题。第三，受限于数据集规模，现有方法在开放集场景下表现欠佳。本文在3.3.2节构建包含200K余个合成场景的大规模开放集数据集，解决泛化难题。

3.3.1 流程

如图3所示，本文提出统一位姿估计模型，针对场景生成任务引入专属的全局与局部注意力机制。本文直接将物体尺寸纳入预测范围，与旋转、平移联合估计，解决场景生成任务中的适配难题。具体而言，模型以场景图像 $X$ 、场景掩码 $M$ 、裁剪物体图像 $I$ 、点云 $C$ 与物体几何 $O$ 为输入，输出物体旋转 $R$ 、平移 $T$ 与尺寸 $S$ ，其中旋转以6D形式表示。

为提升学习效率，所有场景均归一化至统一空间用于位姿估计。由于所有位姿变量均可很好地服从高斯分布，本文从生成式视角采用扩散模型[21,30,36]进行位姿估计，即以输入模态为条件信号，从高斯噪声中去噪得到位姿。最终形式化定义如公式(3)所示：
$\epsilon_{\theta}^p(P_t ; t,X,M,I,C,O) \to P,\quad P=\{R,T,S\}$
其中 $\epsilon_{\theta}^p$ 与 $t$ 分别表示位姿估计模型与扩散模型时间步。

如图3所示，可训练的物体位姿编码器与解码器由多层感知机（MLP）构成。物体几何、图像与点云分别通过预训练的三维物体变分自编码器（VAE）、Dinov2[35]与面向三维重建任务预训练的点编码器编码为特征，训练过程中上述编码器参数保持固定。物体几何通过与位姿标记拼接注入模型，图像与点云特征通过交叉注意力注入模型。本文基于流匹配框架[30]与DiT架构[36]实现模型，每个Transformer模块包含全局自注意力、局部自注意力、全局交叉注意力、局部交叉注意力与前馈网络。

注意力机制。如图8所示，本文对自注意力与交叉注意力均采用全局与局部双机制。每个位姿变量独立编码为一个标记，因此扩散模型中每个物体由四个标记唯一表示：旋转、平移、尺寸与几何。局部自注意力模块实现单个物体内部四个标记的交互，全局自注意力模块实现场景中所有物体标记间的交互，使物体相对位姿更具一致性。考虑到旋转可在物体标准空间独立估计，场景级条件对其增益有限，本文引入局部交叉注意力模块，使旋转标记仅关注裁剪物体图像与归一化物体点云；同时为平移与尺寸标记保留全局交叉注意力模块，使其关注场景级点云与图像。大量实验验证了这种细粒度注意力机制的有效性。
在这里插入图片描述

图8 位姿估计模型中的注意力机制

3.3.2 开放集场景数据集

现有数据集缺少训练开放集域三维场景生成模型所需的先验知识，因此本文通过精心筛选现有Objaverse[15]数据集子集并结合Blender[1]构建训练数据。Objaverse数据集中大量模型为扫描数据或存在低质量纹理与材质，需经过严格筛选流程。本文通过评估模型材质信息，剔除透明、缺少BSDF节点或无反照率贴图的模型；为进一步优化筛选结果，还剔除反照率颜色纯色或过暗的模型。最终，本文筛选得到90K个外观质量更优的模型，用于构建本文所需的200K场景数据集。

本文通过随机选取2至5个物体组合构建每个场景。为提升真实感，采用从Polyhaven[37]随机采样的环境贴图作为场景背景；同时在物体下方添加高质量纹理地面，并利用柏林噪声增强表面细节与真实感变化。最后，为每个物体赋予随机旋转，作为物体角度增强以训练位姿估计模块。

每个场景使用Blender的CYCLES引擎从20个视角渲染为512分辨率图像，相机仰角在[15, 60]度间随机采样。同时，在物体表面均匀采样20K个随机点，作为物体生成模块的输入几何信息。本文还对图像背景进行随机增强。为保证物理合理性，所有物体最低点置于同一平面，且边界框不相交。数据集样例如图9所示。训练过程中对输入网格的俯仰角进行随机化，更好地对齐三维物体生成输出。整个流程最终构建出包含200K个场景、总计800万张图像的数据集。
在这里插入图片描述

图9 自建开放集数据集样例

3.3.3 训练

本文直接对旋转、平移与尺寸施加等权重的 $L_2$ 损失。为验证框架优越性，首先仅在3D-Front数据集[18]上训练模型以保证公平对比。本文混合MIDI3D[22]与InstPifu[31]构建的数据集，按房间ID对齐渲染结果，得到20K个场景，选取1K个场景作为测试集，其余作为训练集，从头训练模型25K步。为提升开放集泛化能力，进一步将自建200K开放集数据集与室内数据集混合，选取1K个场景作为开放集测试集，从头训练模型40K步至收敛。

4 实验

4.1 实验设置

数据集与基线方法。本文在室内与开放集数据集上开展实验。具体而言，在包含1K个场景的MIDI[22]测试集上与现有方法[3,7,11,19,20,22,31,34]进行定量对比，验证框架优越性。为进一步验证方法在严重遮挡与开放集场景下的泛化能力，从3D-Front[18]中随机选取1K个与训练集无重叠的场景作为室内测试集，从自建开放集数据中选取1K个场景作为开放集测试集。值得注意的是，本文3D-Front场景的遮挡程度显著高于MIDI测试集。本文与当前最优方法MIDI[22]、PartCrafter[29]开展定量与定性对比，还在合成、野外与真实采集图像上开展更广泛的定性对比。

评估指标。沿用现有场景生成方法[22,29,55]，采用场景级倒角距离（CD-S）、F分数（F-Score-S）与边界框交并比（IoU-B）评估整体场景质量；采用物体级倒角距离（CD-O）与F分数（F-Score-O）评估生成物体几何质量。

4.2 定量结果

如表4所示，本文在MIDI测试集上与多种现有方法[3,7,11,19,20,22,31,34]开展定量评估，本文方法整体性能最优。如表3所示，本文方法在更具挑战性的室内与开放集场景生成任务上，持续优于现有最优方法[22,29]，各项指标均达到最高。值得注意的是，即使未在开放集数据集上训练，本文方法在室内场景上仍取得最优定量结果，充分验证了所提框架与模块设计的优越性。
在这里插入图片描述

表4 MIDI测试集[22]定量对比结果

表3 室内与开放集严重遮挡测试集定量对比结果

4.3 定性结果

如图10所示，本文方法生成的场景视觉效果出色，既真实又细节丰富。关键在于，本文模型在图(a)(b)中展现出处理严重遮挡的强大能力，能准确推理物体间相对空间关系，并在图©(d)(f)中为物体赋予合理位姿；此外，模型在图(e)中处理小物体时无几何退化。

本文在室内与开放集场景上开展更多定性对比，如图13与图14所示，涵盖合成与真实采集图像。本文方法对开放集场景泛化性更好，且在严重遮挡或小物体场景下，位姿更精准、几何更精细。
在这里插入图片描述

图10 与场景生成方法定性对比
在这里插入图片描述

图11 场景物体数量泛化性消融实验
在这里插入图片描述

图13 室内场景与现有方法定性对比
在这里插入图片描述

图14 开放集场景与现有方法定性对比

4.4 消融实验

注意力机制。本文分别消融位姿估计模型中全局与局部自注意力机制、解耦交叉注意力机制的贡献。自注意力机制消融实验分别移除全局与局部注意力模块；解耦交叉注意力机制消融实验移除局部注意力，将旋转更新并入全局注意力。所有模型均从头训练，并使用真实网格以消除几何对位姿估计的影响。如表5所示，本文所提注意力机制的所有模块均对性能有正向贡献，验证了其优越性。
在这里插入图片描述

表5 消融实验定量结果

物体数量泛化性。如图11所示，本文在包含不同物体数量的场景图像上开展实验，验证模型泛化能力。尽管训练集中每个场景物体数量不超过5个，得益于RoPE[44]设计，本文位姿估计模型仍能很好地泛化至物体数量超过5个的场景。

开放集数据集。如表3所示，本文验证了所提场景数据集在开放集图像上的必要性，缺少该数据集时模型在开放集场景下性能显著下降。该数据集主要提供多样物体的开放集模式，助力构建跨不同几何的位姿映射，对开放集场景生成至关重要。

文本可控物体生成。得益于解耦去遮挡模型，与三维原生方法[22,53]相比，本文模型可通过文本提示控制物体遮挡区域的生成。如图12所示，模型可在去遮挡阶段通过提示控制花盆颜色与企鹅手持物品。
在这里插入图片描述

图12 文本可控物体去遮挡

位姿估计性能上限。与单张图像相比，视频或多视图图像可通过点云重建提供更丰富的场景结构信息。当重建算法[48,50]达到上限时，相当于为模型提供完整点云。本文通过输入完整点云探讨位姿估计模型性能上限。如表5所示，完整点云输入下模型性能大幅提升，展现出在视频或多视图条件下的强大潜力。

5 结论

本文提出名为SceneMaker的解耦式三维场景生成框架。为获取充足遮挡先验，本文将去遮挡模型从三维物体生成中解耦，利用图像生成模型与自建10K去遮挡数据集训练，构建鲁棒的去遮挡模型。为提升位姿估计模型精度，本文提出融合局部与全局注意力机制的统一位姿估计扩散模型，并构建200K合成场景数据集以提升开放集泛化能力。大量实验验证了本文框架在室内与开放集场景上的优越性。

局限性与未来工作。尽管本文框架能有效泛化至任意物体，但真实世界物体排布往往比数据集所涵盖的更复杂，尤其涉及受力交互时。因此，未来核心研究方向是如何以物理合理方式更精准地构建或优化三维场景，包括物体穿插与受力交互。同时，现有方法仅能通过图像或简单描述控制场景生成，需进一步拓展更多控制信号与自然语言交互能力。此外，如何基于生成的高质量三维场景开展更深入的理解任务，并适配具身决策，仍是待解决的挑战。