【世界模型】混元2.0（腾讯）

杀生丸学AI

662人浏览 · 2026-04-21 11:29:52

杀生丸学AI · 2026-04-21 11:29:52 发布

文章目录

一、全景图生成（HY-Pano 2.0）
- 1.数据构建
- 2.模型
二、轨迹规划（WorldNav）
- 1.几何感知初始化
- 2.语义解析与导航分析 (Semantic Grounding and Navigability Analysis)：
三、世界扩展（HY-WorldStereo）
四、世界重建：WorldMirror 2.0
五、世界生成第四阶段：世界合成
实验：多模态的世界生成

在这里插入图片描述

亮点一：世界随心造

一张图、一句话，就能触发 360° 空间延展。模型架构全面升级，画面精细度和真实感大幅提升，直接构建沉浸式 VR 空间。融合自研轨迹规划与场景扩充技术，脑海里的创意一键"具象化"。
在这里插入图片描述

亮点二：一键生成可编辑 3D 场景

支持文、图、视频多种输入，生成的不再是"只能看的视频"，而是可以无缝对接 Unity/UE 引擎、可二次编辑的 3D 空间。解决了 3D 建模"成本高、周期长、改不动"的行业痛点，让创作门槛从"专业代码"降为"日常语言"。

在这里插入图片描述

亮点三：多视图/视频还原真实世界

拍几张照片、录一段视频，就能极速构建高保真的数字孪生空间。升级的 WorldMirror 2.0 架构，支持任意尺寸图像与视频输入，实现对真实世界的高精度重建。3D 空间持久保持，一次生成永久可复用。

在这里插入图片描述

亮点四：角色模式

一键生成具备空间逻辑的"可玩场景"，操纵角色在街道、建筑中自由探索。彻底打破生成式内容的"第四面墙"，实现 AI 从"生成内容"到"生成体验"的跃迁，定义了"文/图生游戏"的新业态。

在这里插入图片描述

一、全景图生成（HY-Pano 2.0）

采用端到端隐式学习方案，让模型自主学习从普通图片到 360 度全景的空间映射，无需任何相机元数据。配合真实全景照片 + UE 引擎合成数据的混合训练策略，生成质量和泛化能力双双拉满。

全景图是固定视角捕捉360度×180度的视野范围（FoV），不同于标准透视图像，360度全景图完整保留了全局空间语境及复杂的语义关联。本文提出HY-Pano 2.0系统，旨在通过文本和单视角图像等多模态条件合成高保真全景图像。为实现这一目标，我们在两个正交维度上优化生成流程：
(2)引入专用360度生成模型，该模型以无几何约束的方式隐式学习视角输入与全景目标之间的空间映射关系，从而无需显式相机元数据即可合成结构连贯的环境。

1.数据构建

在HY-World 1.0框架上整合两大核心数据源：(1)真实场景采集：我们整合了海量高分辨率实景全景图像，为模型注入真实光照环境、复杂纹理特征及自然结构先验知识；(2)合成资源库：用虚幻引擎（UE）生成的大规模合成场景，包括精准几何标注、现实中难以获取的多样化场景构型。数据过滤：剔除存在明显拼接瑕疵或暴露拍摄设备（如全景相机）的低质量样本。

2.模型

HY-World 1.0系统–显式依赖几何变形流程，通常 需要精确的相机内参（如焦距和视场角）来实现透视投影域与等距矩形投影域（ERP）之间的空间对齐。实际场景中往往缺失此类元数据或存在误差，这成为HY-World 1.0框架的固有瓶颈，常导致显著的投影畸变。为解决这一问题，我们 采用由多模态扩散变换器（MMDiT）驱动的隐式自适应映射策略，由自注意力机制自主学习透视到ERP的底层转换关系（数据驱动，如下图）：在潜在空间同时处理条件输入与全景目标数据（与全景噪声潜在向量拼接为统一的标记序列）。

在这里插入图片描述

在生成 ERP图像( Equirectangular Projection，等距柱状投影，球向平面映射方式。它将球面上经度（ $\theta$ ）和纬度（ $\phi$ ）直接线性映射到 2D 平面的 $x$ 和 $y$ 坐标。通常图像的长宽比为 $2 : 1$ （对应经度 $360^{\circ}$ 和纬度 $180^{\circ}$ 。特点：在赤道附近变形较小，但在极点（图像顶部和底部边缘）会产生严重的形状拉伸)时，左右边缘的不连续性是常见挑战。为消除边界伪影，确保全景输出图像无缝衔接和结构一致：

Circular Padding (环形填充)：不同于CNN的Zero Padding，将特征图最左侧的像素填补到最右侧的边界外，将最右侧的像素填补到左侧，强制模型在提取特征时遵循周期性边界条件。
Pixel Blending (像素融合)： VAE 解码器（Decoder）在将 latent 还原回像素空间时，依然可能在首尾连接处产生微小的色彩或结构突变。在最终生成的全景图左右边缘（ $0^{\circ}$ 与 $360^{\circ}$ 交界处），通过线性加权插值的方式，将两端的像素进行平滑过渡。

二、轨迹规划（WorldNav）

在全景图基础上，模型理解空间语义并智能规划有意义的漫游轨迹，确保覆盖场景中最有价值的区域，同时避免穿墙等不合理行为。配合世界扩展模型，让用户的探索路径既自然又有趣。

1.几何感知初始化

利用 MoGe2 从 ERP（等距柱状投影）图像中恢复单目深度，并通过 LSMR（最小二乘最小残差）求解器将不同视角的深度图对齐， 构建全景点云 $\mathbf{P}^{pan}$ 。为了提高效率，采样密度从 12 视角增加到了 42 视角，并利用 GPU 加速计算。混合滤波：结合视觉语言模型（VLM）掩盖天空区域并去除深度断裂点，最终生成一个低分辨率的全景网格（Panoramic Mesh），用于后续的碰撞检测。

在这里插入图片描述

2.语义解析与导航分析 (Semantic Grounding and Navigability Analysis)：

使用 Qwen3-VL 识别关键地标和障碍物，配合 SAM3 生成物体的 2D 分割掩码，并将其重心定位在 3D 空间中。NavMesh 构建：使用业界标准的 Recast Navigation 构建导航网格。为了确保路径物理可行，进行了表面平滑、边界腐蚀（防止相机贴墙）以及孤立区域连接等处理。

给定导航网格（NavMesh）和语义地标后，WorldNav设计了五种轨迹模式来模拟人类或无人机的探索行为，以实现对场景的最大化覆盖：

在这里插入图片描述

常规轨迹 (Regular Trajectories)：旨在扩展视觉覆盖范围。将全景图均匀划分为三个视角（ $120^{\circ}$ FoV），相机在特定高度绕中心点旋转，获取全局概览。
环绕轨迹 (Surrounding Trajectories)：针对场景中的重要前景物体（地标）。相机会根据物体的 3D 尺寸自动调整半径，绕物体飞行拍摄。路径规划使用 Dijkstra 算法确保避开碰撞。
重建感知轨迹 (Reconstruct-Aware Trajectories)：针对性填坑：专门寻找重建质量差的区域（如全景网格中拉伸严重或面片异常的区域）。通过非极大值抑制（NMS）提取这些区域的中心，强制相机前往这些视角补充细节。
漫游轨迹 (Wandering Trajectories)：模拟自主智能体的随机探索。将 NavMesh 划分为 8 个扇区，利用 Dijkstra 距离场引导相机走向每个扇区中最远的可达点。这对于街道或走廊等狭长场景的扩展非常有效。
航拍轨迹 (Aerial Trajectories)：辅助模式，通过给现有的环绕或漫游轨迹增加 $+45^{\circ}$ 的仰角，消除视觉盲区。

三、世界扩展（HY-WorldStereo）

有了高质量全景图+相机运动轨迹，提出WorldStereo 2.0的视频生成系统，生成新视角。关键创新包括：精确的相机控制 + 细粒度视觉细节保持 + 空间一致性记忆机制。如图6，训练过程分三个阶段：相机控制、确保记忆一致性以及高效推理。

在这里插入图片描述

WorldStereo 2.0在关键帧潜在空间中，引入几何感知记忆机制，实现了多轨迹视频生成的一致性，从而将相机条件视频扩散模型（VDMs）与三维场景重建技术有机结合，具体实现见表2，可视化见图7。

1.域适应(Domain-Adaption)：微调DiT，实现相机引导关键帧生成

现有的视频扩散模型（VDM）通常使用时空压缩的 Video-VAE：相机运动缓慢时会产生大量冗余帧，而当相机快速移动时，压缩过程又会导致严重的质量下降。

关键帧变分自编码器 (Keyframe-VAE )：WorldStereo 2.0放弃时空压缩，在关键帧潜空间进行场景生成：给定关键帧序列 ${V_i\}$ , 通过独立编码得到潜特征 $\{F_i\} \in \mathbb{R}^{1 \times \frac{H}{8} \times \frac{W}{8} \times C}$ ，决了视频 VAE 的模糊问题

在这里插入图片描述

显式相机控制 (Explicit Camera Control ) ：基于视频 DiT，通过一个轻量级的相机适配器，以及结合 Plücker rays 和点云的双重引导，从参考视图提取点云 $\mathbf{P}^{ref}$ ，利用单目深度估计 $D (x)$ 和相机内参 $\mathbf{K}$ ，投影到目标视图 $i$ ： $\mathbf{P}_i^{tar}(x) \simeq \mathbf{R}_i^{c \rightarrow w} D(x) \mathbf{K}_i^{-1} \hat{x}$

训练策略采用领域自适应 (Domain-Adaption)，仅微调 DiT 主干网络的一个子集，冻结交叉注意力层和前馈层。输入 $\hat{x}$ 来自参考视图提取的点云数据，而非全景点云数据

2.中期训练：记忆机制

在这里插入图片描述

a. 全局几何记忆 (Global-Geometric Memory, GGM)：360几何一致

过去，点云仅仅被用作“软相机引导（soft camera guidance）”，这导致模型有时会忽略点云中完美的几何结构，从而产生退化。为克服这个问题，作者GGM 将扩展的点云渲染成视频，作为全局的 3D 先验信息。这使得 WorldStereo 2.0 模型能够内化 360° 的环境结构，显著提高生成内容的几何一致性。全局点云是由参考点云 $\mathbf{P}^{ref}$ 和从新视角随机采样的额外点云 $\hat{\mathbf{P}}$ 组合而成的： $\mathbf{P}^{glo} = [\mathbf{P}^{ref}, \hat{\mathbf{P}}] \in \mathbb{R}^{(N+\hat{N}) \times 3}$ 。

推理时，直接使用覆盖 360° 视角的“全景点云（ $\mathbf{P}^{pan}$ ）”作为有效的几何引导。

b. 改进的空间立体记忆 (Improved Spatial-Stereo Memory, SSM++):补充细节

原始 SSM 离散地检索历史参考帧，并将它们与目标视图进行“空间拼接”，通过限制注意力感受野来建立对应关系，从而恢复细节。SSM++四大升级：

架构简化：放弃独立分支，直接将检索关键帧整合到主 DiT分支中。
RoPE 与选择性检索：修改了旋转位置编码（RoPE）以适应水平拼接（使目标视图和检索视图共享相同的时间索引）。同时，不再是为每个视图都进行检索，而是选择性地检索最相关的关键帧，大大降低计算和显存开销。
全面微调：取消了对注意力感受野的限制，采用全自注意力机制（full self-attention），让模型能够跨越所有目标和检索特征学习全局上下文。
隐式相机嵌入：放弃了以前显式的点图引导，改为将相机的位姿统一标准化为 7 维向量（四元数和平移），通过 3 层 MLP 编码成相机 Token 加入到特征中，提供几何感知。

c. 记忆库与检索策略 (Memory Bank and Retrieval Strategies):获取\存储参考帧

采用了“时间错位检索（temporally misaligned retrieval）”，故意选择具有特定时间重叠的帧，以增加训练难度并提升泛化能力。使用虚幻引擎（UE）构建了一个合成数据集，采用基于 3D 视场（FoV）相似度的“多轨迹检索（multi-trajectory retrieval）”。
推理时内存库会随着生成的关键帧进行增量更新（存储 RGB 图像和相机参数）。为了控制计算量，检索的关键帧数量被限制在一个最大值 $T_r$ 内。

d. 记忆数据增强 (Memory Augmentation)：防止累计误差

针对 GGM（几何记忆），对部分深度图进行双线性插值下采样，模拟推理时的“深度渗色（depth bleeding）”伪影。使用高斯滤波器处理小部分样本的深度图，制造人造的悬浮物（floaters）。保留真实世界数据集中的原始单目对齐深度图（包含原生噪点）。过于激进的破坏手段（如点云扭曲），否则会严重削弱几何引导作用。
针对 SSM++（空间记忆），对检索到的帧应用运动模糊（motion blur）和颜色抖动（color jitter）。对目标图像和检索图像进行随机裁剪，以模拟实际推理中可见范围和视场重叠度变化的情况。

3.后训练：模型蒸馏，VDM 推理仅需4步

DMD（分布匹配蒸馏）是基于变分分数蒸馏（VSD）思想的扩展，其核心逻辑是通过匹配真实数据分布的分数（Score）和生成数据分布的分数来更新学生网络。修改版的损失函数梯度：

$\nabla \mathcal{L}_{\text{DMD}} = -\mathbb{E}_t \left( \int (s_{\text{real}}(x_t, t) - s_{\text{fake}}(x_t, t)) \frac{dx_t}{d\theta} dz \right)$

$s_{\text{real}}$ ：代表教师模型（完美拟合真实数据）的“真实”分数函数，在训练中被冻结（Frozen），提供稳定的优化目标。

$s_{\text{fake}}$ ：代表学生模型当前生成分布的“伪造”分数函数，是可训练的。

工程上确保蒸馏稳定和效率：权重初始化：学生生成器 $G_\theta$ 、真实分数模型 $s_{\text{real}}$ 和伪分数模型 $s_{\text{fake}}$ ，全部使用中期训练（middle-training）结束后的同一个 VDM 权重进行初始化。非对称更新频率：遵循 DMD 经验， $s_{\text{fake}}$ 更新频率更高，设定为每更新 1 次生成器 $G_\theta$ ，就更新 5 次 $s_{\text{fake}}$ 。训练稳定性与效率： * 引入了随机梯度截断（Stochastic gradient truncation）来防止训练崩溃。

四、世界重建：WorldMirror 2.0

1. 前置背景：回顾 WorldMirror 1.0 (Sec 6.1)：

核心设计是 Any-Modal Tokenization（任意模态 Token 化）。它将图像、相机位姿、内参、深度图等所有输入模态编码为统一的 Token 序列，并通过 Transformer 主干网络处理。输出端采用多个 DPT 头，在一次前向传播中同时输出 3D 点云图、多视角深度图、表面法线、相机参数以及像素级 3D Gaussian Splatting 属性。采用两阶段课程式训练学习，先联合训练几何头（点、深度、相机、法线），然后冻结几何参数，专门训练 3D Gaussian 头（解耦了几何与外观的学习）。

2.WorldMirror 2.0 改进一：归一化位置编码 (Normalized Position Encoding)

1.0 版本使用标准的 2D RoPE（旋转位置编码），它依赖于绝对整数网格索引 $(i, j)$ 。当推理分辨率大于训练分辨率时，会出现“位置外推（Position Extrapolation）”导致注意力模式偏移、预测退化；分辨率变小时，索引空间又未被充分利用。受 DINOv3 启发，将绝对坐标替换为映射到 $[- 1, 1]$ 区间的归一化坐标。计算公式如下：

$\hat{x}_i = \frac{2i + 1}{H_p} - 1, \quad \hat{y}_j = \frac{2j + 1}{W_p} - 1$

其中 $H_p$ 和 $W_p$ 是 Patch 网格的高度和宽度。推理时，坐标始终在 $[- 1, 1]$ 范围内进行更密集的采样，有效保持了跨分辨率的一致性。

3.WorldMirror 2.0 改进二：用于深度估计的显式法线监督 (Explicit Normal Supervision）

1.0 中深度头和法线头是独立监督的，缺乏耦合。 2.0引入深度到法线的损失 (Depth-to-normal loss, $\mathcal{L}_{d2n}$ )，强制几何一致性。先反投影，利用相机内参 $\mathbf{K}$ 将预测深度 $\hat{\mathbf{D}}_i$ 反投影到 3D 空间点 $\mathbf{P}_i$ ：

$\mathbf{P}_i = \mathbf{K}^{-1}\hat{\mathbf{D}}_i \cdot [u, v, 1]^\top$

偏导与叉乘求法线：通过在四个象限方向上进行有限差分近似求偏导，利用叉乘计算出由深度推导出的表面法线 $\tilde{\mathbf{N}}_i(x)$ 。最后计算 Loss：计算推导出的法线与目标法线 $\hat{\mathbf{N}}_i(x)$ 之间的角度误差。目标法线 $\hat{\mathbf{N}}_i$ 来源于合成数据 GT 深度或真实数据的单目法线估计教师模型。

在这里插入图片描述

4.WorldMirror 2.0 改进三：深度掩码预测 (Depth Mask Prediction)

真实世界深度包含无效像素（如传感器噪声、遮挡边界、透明表面、天空）。1.0 版本虽有置信度权重调节训练，但在推理时无法输出明确的像素级有效性掩码（Mask），导致下游任务难以过滤坏点。2.0增加了深度掩码预测头，输出逐像素的有效性 Logit $\hat{m}(x)$ 。采用标准的二元交叉熵损失（BCE Loss，即公式 7）进行训练。合成数据由 GT 获取；真实数据通过识别极端深度值、巨大深度不连续性或天空区域来生成伪标签，推理时能够主动剔除无效像素。

在这里插入图片描述

5.数据改进

使用虚幻引擎高质量合成数据；放弃单目深度伪标签，改用单目法线估计教师模型。

6.推理效率改进

WorldMirror 1.0 只能在单 GPU 上以 FP32 精度运行，严重限制了推理时的视角数量和分辨率。2.0 版本引入了三种互补的加速策略来实现可扩展的多 GPU 部署：

双粒度序列并行 (Sequence Parallelism)：在 Transformer 主干网络中采用Token 级别并行（在注意力层通过 All-to-All 重新分配）。在 DPT 解码头中采用帧级别 (Frame-level) 并行。因为卷积层无法从 Token 划分中获益，所以将完整的单视图特征图分配给不同的 GPU 独立处理。
选择性混合精度推理 (Selective Mixed-Precision)：参考了诸如 VGGT-X 这一类先进 3D 重建模型的工程经验，将大部分参数转换为 BF16 精度，仅保留少量对精度敏感的关键模块为 FP32。这在几乎不损失精度的情况下将显存占用减半。全切片数据并行 (FSDP)：将模型参数跨 GPU 切片，进一步分摊显存压力

7.训练策略改进

基于 Token 的动态批处理：1.0 版本独立采样分辨率和视角数量，为了防范 OOM (Out of Memory)，必须按“最大分辨率 $\times$ 最大视角数”预留显存，导致实际训练中 GPU 显存严重利用不足。2.0 为每个 GPU 设定一个固定的最大 Token 预算 $T_{\max}$ （例如 25,000 Tokens）。

算单张图像的 Token 数： $\frac{H}{p} \times \frac{W}{p}$
动态计算最大视角数： $N_{\max} = \min\left(N_{\text{cap}}, \left\lfloor \frac{T_{\max}}{t} \right\rfloor\right)$ （其中 $N_{\text{cap}}$ 是架构上限）
多样本打包 (Packing)：当实际采样的视角数 $N < N_{\max}$ 时，将多个样本打包到同一个 GPU 中以填满 Token 预算。

多阶段课程式学习 (Multi-Stage Curriculum Learning):更平稳地解耦几何与外观属性

Stage 1：仅使用原生标注（不使用伪标签和 $\mathcal{L}_{d2n}$ 损失）联合训练所有几何头。
Stage 2：引入深度-法线损失 ( $\mathcal{L}_{d2n}$ )，并大幅增加 UE 合成数据的比例，以此来极限提升几何预测的精度。
Stage 3：冻结主干网络和所有几何头参数，利用深度头的权重进行初始化，单独专注训练 3D Gaussian Splatting (3DGS) 头。

五、世界生成第四阶段：世界合成

1. 任务定义 (Task Formulation)

输入包含三部分：初始全景图 $\mathbf{I}^{pan}$ 、对应的全景点云 $\mathbf{P}^{pan}$ （作为全局世界坐标系的几何基准）、之前阶段生成的一系列新视角关键帧 $\{\mathbf{V}_i\}$ 及其相机轨迹 $\{\mathbf{C}_i\}$ 。输出：一个全局对齐的扩展点云 $\tilde{\mathbf{P}}$ ，为后续训练 3D G提供高质量几何先验。

2.基于 WorldMirror 2.0 的前馈重建

WorldMirror 2.0，输入生成的关键帧子集以及相机位姿先验，预测每一帧的深度图 ( $\mathbf{D}_i^m$ ) 和法线图 ( $\mathbf{N}_i^m$ )。

在这里插入图片描述

3.深度对齐

预测的相对深度存在尺度模糊，直接反投影会产生严重的点云错位。对齐策略 (Alignment Strategy)：将渲染出的全景稀疏深度图 $\mathbf{D}_i^g$ 作为几何引导（Ground Truth），来对齐预测深度 $\mathbf{D}_i^m$ 。

在这里插入图片描述

第一步：计算像素级过滤掩码。 $\mathbf{M}_i^m$ & $\mathbf{M}_i^g$ ：在预测置信度高且全景引导有效的投影区域内。 $\mathbf{M}_i^n$ ：法线一致性（排除预测法线与引导法线夹角大于 90 度的区域）。 $\mathbf{M}_i^p$ ：基于百分位数的统计滤波（剔除深度偏差过大，即被遮挡的区域）。 $\overline{\mathbf{M}}_i^{sky}$ ：使用 SAM3 模型剔除天空区域（天空没有有效深度）。

在这里插入图片描述

第二步：基于 RANSAC 的线性对齐。利用上述掩码，使用 RANSAC 算法进行线性拟合，计算出尺度（Scale） $\gamma_i$ 和平移（Shift） $\beta_i$ ，得到对齐后的深度图： $\mathbf{D}_i^a = \gamma_i \mathbf{D}_i^m + \beta_i^2$ 。
第三步：全局异常值检测与修正。在场景深度范围内均匀设置 $Q = 9$ 个“锚点深度值”（Anchor depth values）。对于每一帧，计算这些锚点经过尺度和平移变换后的值，并算出它与整个序列中位数的“最大相对偏差 $\mathcal{V}_i^{max}$ ”（公式 13）。如果偏差超过 90% 分位数，则判定这一帧的对齐系数报废（Outlier），并用同序列中最近的“正常”系数来替换它。如果整个序列都报废了，干脆丢弃这组深度图。

4.最终融合

拿到所有修正并对齐的深度图后，通过相机内参将它们反投影 (Back-project) 到 3D 空间中，得到扩展点云 $\mathbf{P}^{ex}$ 。最后将它与原始全景点云合并 ( $\mathbf{P}^{pan} \cup \mathbf{P}^{ex}$ )，并进行体素下采样 (voxel-downsampled)，输出最终用于 3DGS 优化的干净扩展点云 $\tilde{\mathbf{P}}$ 。

5.3DGS

初始化：3DGS 使用扩展点云 $\tilde{\mathbf{P}}$ 进行初始化，保留了标准的不透明度 $\sigma_k$ 、中心坐标 $\mu_k$ 以及由缩放矩阵 $\mathbf{S}_k$ 和旋转矩阵 $\mathbf{R}_k$ 分解构成的协方差矩阵 $\Sigma_k$ 。抛弃球谐函数 (SH)。

天空分离的稠密化。初始点云分为“天空 ( $\tilde{\mathbf{P}}_{sky}$ )”和“场景 ( $\tilde{\mathbf{P}}_{scene}$ )”两部分。标准的致密化生长策略只允许在场景部分执行，杜绝天空区域生成新漂浮物。

MaskGaussian 概率剪枝：放弃启发式硬剪枝，利用 Gumbel-Softmax 为第 $k$ 个高斯点采样一个二进制掩码 $M_k \in \{0, 1\}$ ，参与光栅化渲染（公式 14，当 $M_k=0$ 时，该高斯点不参与颜色渲染且不消耗透射率）：

在这里插入图片描述

得益于 Gumbel-Softmax 松弛，即使被 Mask 掉的高斯点在反向传播时依然能接收到梯度，允许模型动态重新评估它的重要性。

优化与损失函数。

在这里插入图片描述

网格提取 (Mesh Extraction)。为了支持更广泛的下游任务（如物理仿真、碰撞检测等），将训练好的所有视角渲染出 RGB 和深度图 $\rightarrow$ 融合为截断符号距离场 (TSDF) 体积 $\rightarrow$ 使用 Marching Cube（移动立方体）算法提取 Mesh。后处理：清除微小的孤立连通块并应用网格简化，这能进一步物理抹除漂浮物伪影并大幅减少存储开销。

实验：多模态的世界生成

1.文本/单张图生成世界

定量结果见表4：T2P和I2P任务结果。采用多种互补性指标对生成的全景图进行评估：CLIP-T （T2P）和 CLIPI （I2P）分别用于衡量文本-图像及图像-图像的对齐精度；Q-Align [73]则基于与人工评分匹配的大型多模态模型，提供感知质量（Qual）和美学（Aes）双重评分。所有适用指标均针对等矩形（Equi）全景图和平均透视（Persp）投影进行评估——每幅全景图均被投影到12个不同视角面上。

在这里插入图片描述

定性结果：图16展示输入img/text 生成的全景图，有更结构连贯的布局；图17和图18中对T2P和I2P方法进行了定性对比分析。视觉美学方面，我们的结果展现出更优的色彩协调性、更一致的光照效果以及更高的艺术品质。此外，HY-Pano 2.0能呈现更为精细的细节特征——包括更清晰的纹理、更清晰的物体边界以及更丰富的高频信息，从而生成更具真实感且视觉效果更出色的全景图。

在这里插入图片描述

表6是相机控制能力的定量评估，消融实验见表7。图8是定性对比。此外还有跟Marble的对比，此处忽略。

在这里插入图片描述

2.基于多视角图像或视频进行世界重建

WorldMirror 2.0作为独立的重建基础模型，在涵盖点云重建（表11）、相机姿态估计、深度估计、新视角合成（表12）及表面法线估计（表13）的综合基准测试中进行评估。所有任务均在三种推理分辨率下进行测试：低分辨率（189×259）、中分辨率（378×518，即WorldMirror 1.0的默认分辨率）和高分辨率（756×1036），以验证标准化位置编码（第6.2.1节）所实现的分辨率泛化能力。所有任务均一致表明：WorldMirror 1.0在高分辨率下因位置外推问题导致性能显著下降（例如相机姿态AUC@30从86.13降至66.29；7场景点云精度从0.043降至0.079），而WorldMirror 2.0在所有基准测试中均能保持甚至提升从中分辨率到高分辨率的性能表现。除多分辨率性能提升外，我们还进一步评估了灵活几何先验注入（第8.2.2节）及第6.4节提出的推理效率优化方案的有效性。

1.Recast Navigation 是开源导航网格（NavMesh）生成工具集。

常用于游戏开发和机器人仿真领域，它通常由两部分组成：1.Recast：将 3D 几何数据转换（网格化）为导航网格。2.Detour：负责在生成的导航网格上进行路径寻找、空间查询和姿态平滑。

1. 体素化 (Voxelization)：将输入的 3D 模型（如全景图恢复的点云或 Mesh）放入一个 3D 网格中，将其转换成无数个小方块（Voxels）。
1. 过滤行走表面 (Filtering)：系统根据预设的参数（如最大爬坡坡度、最小行走高度、代理半径）来过滤掉不可行走的体素。如：剔除太陡的坡、天花板太低的地方。
1. 分区 (Partitioning)：将剩下的可行走体素区域划分成不同的“单调区域”（Regions）。这步类似于图像处理中的连通域标注，目的是为了将不规则的区域拆解成简单的多边形块。
1. 轮廓提取与多边形化 (Contour & Polygon Mesh)：将这些体素区域的边缘提取出来，简化成折线轮廓，最后通过三角剖分或凸多边形算法，生成最终的 NavMesh。