【世界模型】InSpatio-WorldFM：开源实时生成帧模型

杀生丸学AI

577人浏览 · 2026-03-20 08:57:45

杀生丸学AI · 2026-03-20 08:57:45 发布

在这里插入图片描述

标题：InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model
来源：InSpatio Team；浙大；
链接：https://inspatio.github.io/worldfm/

文章目录

摘要
一、公式化
二、三阶段训练流程
实验
挑战

摘要

InSpatio-WorldFM是一款开源实时空间智能框架模型。与依赖顺序帧生成且因window-level 处理，导致显著延迟的 video-base 世界模型不同，InSpatio-WorldFM采用基于帧的创新范式，通过独立生成每帧画面，实现低延迟实时空间推理，其显式3D anchor与隐式空间记忆机制，强制多视角空间一致性，该模型在保持全局场景几何结构的同时，确保视角切换时视觉细节的精细呈现。我们进一步提出渐进式三阶段训练流程：先将预训练图像扩散模型转化为可控帧模型，再通过少步蒸馏技术最终实现实时生成器。

细节：InSpatio-WorldFM是专为实时空间推理与生成设计的帧基世界模型。与将世界建模为依赖性帧序列的视频方法不同，InSpatio-WorldFM在单帧生成过程中，直接融入空间结构。通过将每个帧与显式空间信息相关联，该模型既能保持场景几何结构的一致性，又可实现低延迟帧合成。这种设计使系统既能生成空间连贯的观测结果，又能支持实时交互。我们重点介绍了以下核心组件：

多视角一致性训练数据清洗：构建具有明确多视角一致性的训练数据集，使模型能够学习不同视角间稳定的空间关系。
渐进式三阶段训练流程：首先构建基础图像生成器（第一阶段），逐步发展为具备空间记忆功能的可控帧模型（第二阶段），最终实现实时少步生成器（第三阶段）。
通过两步去噪技术结合 few-step distillation[42]实现实时生成。

实验结果表明，InSpatio-WorldFM在保持强多视角一致性的同时，实现了无需交互延迟的实时推理能力（消费级GPU上）。

在这里插入图片描述

离线阶段，单张图像作为输入，多视图一致性模型生成多视图一致性观测数据，这些数据可提供参考外观特征，而3D anchor通过VGGT、MoGe等重建模型获取。另一种更简便的方法是生成全景图像，该方法同样能提供360°场景约束条件，目前已有多种开源方法可用于此任务[Hunyuanworld1.0,Diffusion360,Taming sd360]。在线阶段，使用帧模型，实现实时推理与生成。

一、公式化

核心目标： “单图转新视角” 。输入：一张图像 $x_{\text{ref}}$ 及对应像机内参/外参，以及目标视角的像机位姿 $\pi_{\text{tgt}}$ 。输出：目标视图图像 $x_{\text{tgt}}$ （与参考图在几何逻辑上保持一致）。

技术路线：潜扩散模型 (Latent Diffusion)，核心公式如下： $\mathcal{L} = \mathbb{E}_{z_{\text{tgt}}, \epsilon \sim \mathcal{N}(0, I), t} \left[ \| \epsilon - \epsilon_\theta(z_t, t, \mathcal{C}) \|^2 \right]$

其中 $z_t= α_tz_{tgt} + σ_tϵ$ 表示在预定义噪声方案 $α_t,σ_t)$ 下时间步 $t$ 的带噪声潜在变量，条件集 $C =$ { $x_{ref},π_{ref} ,π_{tgt},\hat{x}_{tgt}$ }包含了参考图、摄像机姿态，以及一个关键的显式 3D 锚点（由 3D 基础模型渲染的预测点云 $\hat{x}_{\text{tgt}}$ ），用于确保空间结构的准确性。

二、三阶段训练流程

Stage I：预训练 (Pre-Training) ：

选择PixArt- Σ（一种DiT) 作为基础模型，建立高保真质量以及足够计算效率的图像生成先验（文本到图像生成）。

Stage II：中期训练 (Middle-Training) :引入空间记忆

。利用真实视频和合成数据，让模型学会根据像机位姿生成图像，并将“显式 3D 锚点”与“隐式神经记忆”结合。

基础的 Frame Model

模型框架（a minimal frame-based architecture）图像和条件，通过共享的补丁嵌入层被切成 Tokens，加入位置编码后，在宽度维度（Width Dimension）上横向拼接，输入DiT（DiT舍弃了常见的交叉注意力，转而采用一种更直接的全自注意力Self-Attention Only，生成质量更高）。输出端再次按宽度切分，只保留目标图像部分作为预测结果
相机位置编码：对比了三种策略，并最终选择了 PRoPE（收敛最快、控制最稳、深度融合注意力计算过程）

策略一：Plücker Ray Embedding ：基于物理射线方法，为图像中的每个 Patch 计算一根从相机中心出发、穿过该小块中心的射线。使用 6 维的普吕克坐标 $(\mathbf{o} \times \mathbf{d}, \mathbf{d})$ 来表示，其中 $\mathbf{o}$ 是相机原点， $\mathbf{d}$ 是射线方向。做法：通过一个简单的神经网络（MLP）将这 6 维坐标转为特征，直接加在原始的图像特征上。虽然它提供了明确的几何先验，但它只是简单的“相加”，并没有改变 Transformer 核心的注意力（Attention）计算方式。
策略二：PRoPE (Projected Relative Positional Encoding)：根据相机的投影矩阵 $P_i$ ，对注意力机制中的查询向量 (Query)Attention Score 是 $\cdot K^\top$ 中加入了 $P_{\text{tgt}} \cdot P_{\text{ref}}^{-1}$ ，即相对变换矩阵，键 Key 和数值 (Value) 向量应用 $P_i^{-1}$ 变换，Attention Score 变成 $\cdot K^\top$ 中加入了 $P_{\text{tgt}} \cdot P_{\text{ref}}^{-1}$ ，即相对变换矩阵。
策略三：Pure Parametric Injection (纯参数注入)这是一种最“暴力”的方法。原理：直接把相机的旋转矩阵（Rotation）和平移矩阵（Translation）通过 MLP 变成特征向量，然后加到图像特征里。缺点：模型完全不知道这些数字代表什么几何意义（没有射线概念，也没有投影逻辑），只能靠在大规模数据中硬生生地“悟”出规律，效率较低。

混合空间记忆 (Hybrid Spatial Memory)

显式锚点 (Explicit Anchors)：点云渲染 + 目标相机位姿，提供粗略但稳定的 3D 结构指导。隐式记忆 (Implicit Memory)：参考图像 + 对应相机位姿，提供精细阶段的历史信息

训练数据

公开视频资源（如互联网视频及DL3DV、RealEstate10K等视频数据集）、自拍摄视频片段，以及基于Unreal Engine（UE）生成的合成数据。针对每个真实视频片段，我们随机抽取16帧画面，采用前馈重建模型（如MapAnything）进行逐帧相机位姿与深度图估计。从这16帧中选取4帧作为参考帧组构建全局点云，其余12帧作为训练目标。每个目标帧的参考帧均从4帧参考组中选取时间上最接近的帧。通过将全局点云投影至目标摄像机平面，可获得目标视角下的点云渲染结果。为确保模型鲁棒性，用随机数据打乱与mask策略，模拟真实场景中常见的数据无序性和离散性特征。

训练策略

噪声调度偏置 (Noise schedule biasing)：在训练扩散模型时，增加高噪声时间步（High-noise timesteps）的采样概率。原理：扩散模型在噪声很大时，是在学习画画的“大轮廓”；噪声很小时，是在修饰“细节”。目的：强制模型优先学习稳定的几何结构，而不是一开始就沉迷于学习精细的纹理细节。
渐进式条件注入 (Progressive condition injection)，为了平衡**“显式锚点（点云）”和“隐式记忆（参考图）”**的关系。问题：点云信号太强，一上来就给模型看点云，模型会产生“路径依赖”，完全不去钻研参考图里的细节（产生过拟合）。
做法： 1. 早期：只给模型看参考图，强迫它学会从二维图中提取并转移空间信息。2. 后期：逐渐引入点云（显式锚点），来提高生成的精确度和控制力。
随机锚点掩码 (Random anchor masking)：在训练后期，以一定的概率随机地把点云（显式锚点） mask掉。这是一种正则化手段，模型在点云信息缺失或质量不佳时，依然能够凭借隐式记忆画出正确的画面。防止直接复印点云，增强模型的鲁棒性。

合成数据微调

真实数据训练的基础框架模型能够获得合理且几何一致性良好的生成能力，但前馈重建模型生成的深度与姿态估计结果仍不可避免地存在误差。这些误差会导致点云渲染中视点间不一致性，从而削弱视点转换的稳定性及内容持久性。

采用UE构建的合成数据集：首先从场景中语义有效的区域中选取初始相机位姿，随后通过随机运动采样或预定义运动模板生成运动轨迹。在生成过程中，我们通过碰撞规避机制施加空间约束以确保视角有效性。训练数据集的构建方式与真实数据流程类似：4帧作为参考组，12帧作为目标组。

若过度使用合成数据进行微调，将会影响模型在自然图像上生成真实外观的能力。实证研究表明，即使少量合成数据微调也能显著提升相机控制视角切换的稳定性，这表明模型能有效利用合成数据的几何精度来优化空间推理能力，同时保持其对自然外观的先验认知。

Stage III：后期训练 (Post-Training)：模型蒸馏

。使用分布匹配蒸馏 (DMD：Distribution Matching Distillation)：让一个“学生模型”（步数少）去模仿“老师模型”（步数多）的输出分布，尽量减少它们之间的差异（KL 散度），多步迭代的扩散模型蒸馏成只需要 1-2 步就能出图的生成器：

“两步走”比“一步走”更好 (Two-step > One-step)

虽然 1 步出图最快，但画面往往很糊，细节（纹理）丢失严重。采用 2 步去噪。第一步负责定下大的几何结构，第二步负责精修细节。

中间时间点 ( $t_{\text{mid}}$ ) 的选择至关重要

实验结果：在总共 1000 步的调度中，设置 $t_{\text{mid}} = 200$ 效果最好。第一步 ( $\to 200$ )：处理大部分噪声，把空间的骨架搭好。第二步 ( $\to 0$ )：在一个相对干净的状态下，全力修复精细纹理。

实验

评估空间一致性与生成质量：如图4所示，每个示例包含一张参考图像及从不同摄像机视角渲染的10帧序列。基础帧模型展现出强大的多视角一致性，在显著视角变化下仍能保持几何结构与外观一致性。生成的帧图像在自然适应新视角的同时保留了精细细节，充分证明该模型具备三维空间关系推理能力。

在这里插入图片描述

蒸馏模型的实时交互：基准配置下，InSpatio-WorldFM在单 NVIDIA A100 GPU上以512×512分辨率运行时，帧率约为10帧/秒，交互延迟控制在50-70毫秒。得益于低GPU内存占用特性，该模型还能在消费级GPU上实现交互式探索，并在 RTX 4090显卡上通过单步推理达到7帧/秒的运行速度。

通过KV缓存管理、高效 VAE 潜在缓存等工程优化措施，推理速度可获得显著提升。尽管蒸馏过程会带来质量与速度的权衡关系，但在实际应用中感知差异仍微乎其微。基础模型与蒸馏变体的视觉对比表明，InSpatio-WorldFM成功保持了空间连贯性与几何精度。加速模型在不同摄像机运动轨迹下仍能生成合理内容，且未出现结构一致性下降或视觉伪影现象，这证实我们的蒸馏方法在实时性能与生成保真度之间实现了有效平衡。

挑战

1.动态内容生成稳定性不足。基于帧的模型与多视角一致性训练数据均包含有限动态内容，导致模型难以生成高质量且稳定的动态场景。
2.运动边界识别能力受限。当前历史记忆机制依赖多视角一致性观测或全景观测数据，但这类生成模型存在计算复杂度高、内存占用大等缺陷，只能进行离线运算，这必然会在在线推理过程中引入运动边界干扰。
3.交互式视觉稳定性不足。基于帧的建模策略虽能降低交互延迟并提升响应速度，但由于连续帧间缺乏时间约束，视觉稳定性仍存在局限，导致交互过程中出现明显的帧抖动现象。

未来工作：实时空间推理技术仍存在显著改进空间。基于帧的推理架构可借助线性注意力机制、高效缓存技术及各类 VAE 优化等成熟加速技术，进一步降低计算成本并提升帧率。这些改进将使边缘设备上的空间推理运算效率得到显著提升。采用3DGS基元作为三维锚点，可进一步增强视觉保真度与反射效果。除效率与视觉保真度外，我们将聚焦两大核心方向：(1)动态内容生成能力的提升；(2)生成范围的实时扩展。这些研究将为高效现实场景建模及近乎无限尺度的空间推理奠定基础。