【世界模型】从“看见”到“认识”世界：视觉世界模型综述

杀生丸学AI

427人浏览 · 2026-05-28 10:11:44

杀生丸学AI · 2026-05-28 10:11:44 发布

在这里插入图片描述

文章目录

一、摘要
核心动机：视觉的独特价值
一、视觉世界模型定义
- 1.视觉世界模型的数学定义
- 2.核心架构：三大基本组件
二、视觉世界模型（VWM）设计分类学
三、评价系统
四、数据集与基准
- 1.基础世界模型
- 2.领域特定的世界建模
五、挑战和未来方向

标题：《From Seeing to Knowing the World: A Survey of Vision World Models》
链接：doi: 10.20944/preprints202604.2072.v1
来源：北京交通大学

一、摘要

直接通过视觉观察获取世界知识是人工通用智能（AGI）的核心基础。为支持这一能力，视觉世界模型（VWM）已成为关键范式，它能够从视觉流中学习世界随时间的演变规律。然而，近期的研究进展由多个不同的研究群体推动，导致问题表述不一致、分类体系割裂以及评估协议存在分歧。我们认为，解决这一差距需要进行概念上的转变：视觉不应仅仅被视为一种输入模态，而应成为塑造世界模型如何被表征、学习和评估的主要驱动力。基于这一以视觉为中心的视角，我们提出了一套统一框架，将 VWM 研究归纳为三个核心组成部分：视觉编码、知识学习和可控模拟，并运用该框架对现有模型设计和评估方法进行分析。最后，我们明确了未来研究方向，重点在于强化物理与因果关系的根基、建立超越视觉表象的更具意义的评估体系，以及向更通用、更可靠的全球景模型构建能力迈进。

核心动机：视觉的独特价值

视觉观察是人类感知世界变化最直接的证据。
视觉能捕捉到非常细腻的动态变化（例如：玻璃杯掉在地上摔碎并散开的过程）。

在这里插入图片描述

当前 AI 领域（包括生成模型、表征学习、具身智能、自动驾驶等）都在研究世界模型，虽然大家都在用视觉信号，但只是把视觉当成一种“输入格式（模态）”，没有把它当成核心的设计驱动力，研究分裂成了三个互不相通的方向：

视频生成派（Video Generation）：关注画面看起来真不真实（外观、画质、连贯性），常用 Diffusion 或自回归模型。
状态转移派（State Transition）：把视觉信号压缩成紧凑的状态（如状态空间模型 SSM，随时间/动作建模系统内部状态），当作潜在大脑用来做规划和控制。
联合嵌入预测派（JEPA风格）：直接在潜在语义空间里做预测，跳过像素细节，更看重对大局语义的理解。无Decoder，只在特征空间进行对比或能量匹配。

一、视觉世界模型定义

1.视觉世界模型的数学定义

$p(\mathcal{S}_{t+1:T} | v_{0:t}, c_t) = f_\theta(\mathcal{E}(v_{0:t}), c_t)$

输入端（已知信息）： $v_{0:t}$ ：从 $0$ 到 $t$ 时刻的历史视觉观察序列（比如过去几秒的视频或图像）。

$\mathcal{E}(\cdot)$ ：视觉编码器，负责把原始的视觉输入转换成模型能听懂的特征表征（Representations）。

$c_t$ ：当前的环境条件/控制信号（例如：智能体的动作、人类的语言指令、或车辆的控制信号）。

模型 $f_\theta$ ：一个概率模型（即视觉世界模型），用来预测未来的发展。
输出端（预测未来）。 $\mathcal{S}_{t+1:T}$ ：未来的世界状态。这个状态不一定非要是高清视频帧，它也可以是潜状态（Latent States）、深度图（Depth）、光流（Flow）、占据网格（Occupancy）或三维基元（3D primitives）等。

2.核心架构：三大基本组件

在这里插入图片描述

视觉编码（Vision Encoding）：将多样化视觉信号（比如 RGB 图像、语义分割图（Semantics）、光流（Optical Flow）、深度图（Depth）、体素（Voxel）以及激光雷达（Lidar））转化为模型内部表征。
知识学习（Knowledge Learning）：解决“模型在潜空间里学到了什么级别的世界规律”，是世界模型的大脑。学习层级由易到难分为三层：
- 时空连贯性（Spatio-temporal Coherence）：画面动起来要连贯，不能上一帧是猫，下一帧突变成狗。
- 物理动力学（Physical Dynamics）：懂得物理定律（如图片中画的重力加速下滑、碰撞等），知道物体运动的惯性。
- 因果机制（Causal Mechanisms）：理解更高级的因果关系（如：浇水会导致植物开花，剪断线气球会飘走）。
可控模拟（Controllable Simulation）：根据外部影响（条件或动作），输出可控的未来模拟结果，实现“可控”的推理和规划。外部角色包含External Role，如人类用户、AI 智能体、机器人。

二、视觉世界模型（VWM）设计分类学

在这里插入图片描述

图4： VWM 设计的4个架构分类体系，包含七个子设计。每个子设计的上半部分展示了其典型的输入-输出流程（从视觉上下文和条件到未来输出）；下半部分则重点阐述了该设计在我们框架（第2节）三个组成部分下的核心设计选择：1：视觉编码——观测数据被编码为何种形式；2：知识学习——通过何种机制学习结构化世界知识；3：可控模拟——未来部署的具体形式。

三、评价系统

在这里插入图片描述
视觉质量：模拟的视觉一致性；动态合理性：对物理定律的遵循程度；任务表现：下游任务中的整体有效性。

在这里插入图片描述

四、数据集与基准

1.基础世界模型

在这里插入图片描述

1.通用世界预测与模拟（General World Prediction and Simulation），核心任务是让模型像一个“视频生成器”或“环境模拟器”一样，去预测和模拟未来的世界走向。具体子任务包括 长时间步的视频流预测；指令/控制可控生成；多模态规划生成

2.物理与因果关系评测（Physics and Causality Benchmark），测试模型是否真的理解了现实世界的物理规律和因果逻辑（即“常识”）。具体子任务包括**：物体接触与碰撞预测**（Object Contact Prediction）；时空交互与结构理解（Spatial/Spatio-temporal IoU）；物理规则违背检测（Physical Rule Violation / Surprise Score）；语义依附度（Semantic Adherence）

2.领域特定的世界建模

在这里插入图片描述

1.具身智能与机器人 (Embodied AI and Robotics)，主要服务于机械臂抓取、复杂家务、多任务操作等具身智能场景。主要评估指标：Success Rate (T)： 任务成功率。MTLC Success Rate (T)： 多任务长程（Long-Horizon）操作成功率（长时间步的模拟稳定性）；Instruction Understanding Score (T)： 语言指令理解得分。

2.自动驾驶 (Autonomous Driving)：FSD与周围交通流的演时模拟、未来预测。主要指标：Collision Rate (T) 障碍物碰撞率；L2 Error § / ADE, FDE § 预测轨迹位移误差。Action Instruction Following Errors (T)动作指令跟随误差

3.交互式环境与游戏 (Interactive Environments and Gaming)，侧重于高交互、闭环反馈的游戏场景。评估指标：Game Score / Raw Return (T)： 游戏得分或原始回报；Score of Achievement (T) 成就得分；FVD, LPIPS, SSIM (V) 游戏画面视觉保真度。

五、挑战和未来方向

Re-grouding：超越以表象为导向的模仿，转向更牢固的植根于世界知识体系——包括更丰富的物理交互、具备几何感知能力的建模技术、神经符号混合设计，以及以人为本的规则与惯例。
重新评估：应超越视觉保真度，转向对合理性进行有意义的评估，具体可通过更完善的基准测试、模型评判方法以及基于执行过程的评估协议来实现——这些方法能够检验物理一致性、因果推理能力及复杂动态行为。
规模优化：重思考扩展策略，将其视为提升全局建模能力的途径——通过面向通用型视觉工作记忆（VWM）的预训练扩展，以及实现生成前推理的推理时扩展。