从视频生成到世界模型的演进之路：空间智能时代的技术革命

Hermit_Rabbit

1179人浏览 · 2026-04-14 17:17:33

Hermit_Rabbit · 2026-04-14 17:17:33 发布

0. 引言

人工智能正站在一个关键的转折点上。当大语言模型已经能够流畅地处理文字、生成代码、回答问题时,我们开始意识到一个根本性的局限:这些模型虽然能言善辩,却缺乏对物理世界的真正理解。它们生活在纯粹的符号世界中,无法感知空间、理解物理规律,更无法预测真实世界的演化。

这正是李飞飞教授所指出的核心问题。在她最近发表的长文中,她明确提出:空间智能是AI的下一个前沿。而实现空间智能的关键路径,就是构建能够理解、模拟和预测物理世界的世界模型。

视频生成技术的快速发展,为构建世界模型提供了一条独特而有力的路径。从最初只能生成几秒钟的模糊片段,到如今能够创造出物理合理、可交互的虚拟环境,视频生成模型正在经历一场深刻的范式转变。这不仅仅是视觉质量的提升,更是从表面模拟到深层理解的质的飞跃。

本文将系统梳理从视频生成到世界模型的演化历程,深入探讨其技术原理、发展阶段和未来方向,帮助读者全面理解这一领域的核心内容和实现路径。

在这里插入图片描述

1. 理解世界模型的本质

1.1 什么是世界模型

世界模型并非一个新概念,但在AI领域,它的含义正在被重新定义。传统意义上,世界模型是指能够模拟环境动态、支持智能体决策的系统。但在视频生成的语境下,世界模型有了更加丰富和具体的内涵。

从技术角度看,基于视频生成的世界模型可以被理解为两个核心组件的结合:隐式世界模型和视频渲染器。世界模型负责编码关于世界的结构化知识,包括物理定律、交互动力学和智能体行为,它作为潜在的模拟引擎,支持连贯的视觉推理、长期时间一致性和目标驱动的规划。视频渲染器则将这种潜在模拟转化为真实的视觉观测结果,有效地将视频作为窥探模拟世界的窗口。

这种双重结构的设计有其深刻的认知科学基础。人类和动物正是通过视觉来感知和理解世界的。视觉流不仅传递空间布局和物体属性,还编码了对预测和规划至关重要的时间动力学和因果关系。即使是最复杂的3D或4D模拟,最终也需要渲染为视频或图像才能被解读。这种对视觉表征的内在依赖,使得视频生成成为构建世界模型的一种自然且信息丰富的基础。

在这里插入图片描述

1.2 世界模型与数字孪生的区别

在讨论世界模型时,一个常见的误解是将其等同于数字孪生。实际上,两者有着本质的区别。

数字孪生强调的是对特定真实世界实例的精确复制。例如,一个工厂的数字孪生系统会精确模拟该工厂的每一台设备、每一个流程,力求与现实一一对应。这种方法的目标是忠实再现,用于监控、预测和优化特定系统的运行。

而世界模型强调的是分布真实性,即能够模拟多样化、物理合理但语义各异的世界。世界模型不是要复制某个特定的场景,而是要学习支配世界运行的普遍规律。它能够泛化到从未见过的场景,生成符合物理定律但内容全新的环境。这种能力使得世界模型能够超越忠实再现,支持创造性的应用场景。

举个具体的例子:一个厨房的数字孪生会精确复制你家厨房的布局、设备和状态;而一个世界模型则理解厨房这个概念本身,理解重力如何作用于物体、水如何流动、火如何加热,它可以生成无数种不同风格、不同布局的厨房,但都遵循相同的物理规律。

在这里插入图片描述

1.3 世界模型的形式化定义

从数学角度,我们可以将世界模型形式化为一个函数映射过程。给定多模态输入空间M(包括文本提示、图像、视频片段、音频信号、动作序列等),世界模型G将这些输入映射到可观测的视频帧序列V。这个过程可以表示为:

$V = G (M)$

这是一个随机生成过程,因为真实世界本身就包含不确定性和随机性。

更深入地看,这个生成过程可以分解为两个阶段。首先,世界模型维护一个潜在表征Z,以及一个转移函数T,它捕捉模型内化的世界知识,包括动力学、物体可用性、智能体意图等。给定当前状态和输入,转移函数计算下一个潜在状态:

$Z_{t+1} = T(Z_t, M_t)$

然后,视频渲染器R将这些内部世界状态转换为像素级或感知级输出:

$V_t = R(Z_t)$

这种分解虽然在概念上清晰,但在实践中,世界模型的内部状态往往是隐式的。也就是说,视频生成过程仍然表现为从输入到输出视频的单一整体映射,我们无法直接观察或操作中间的潜在状态。

1.3 世界模型与马尔可夫决策过程的联系

从强化学习的角度看,世界模型与马尔可夫决策过程中的环境动力学具有相同的功能作用。这种联系为理解世界模型提供了另一个重要视角。

在训练过程中,模型暴露于大规模多视角和多时间的数据,可以近似一个完全可观测的环境,其中潜在世界状态是已知的。因此,学习到的转移函数的行为类似于完全可观测MDP中的环境转移函数,形成客观的世界先验。

但在推理过程中,模型仅接收部分条件信号,对应于对真实潜在状态的部分观测。因此,生成过程与部分可观测MDP一致。这种双重解释调和了客观性与主观性之间的明显矛盾:训练过程注入客观物理知识,而推理过程则基于所学先验进行主观推理。

这个框架明确指出,尽管世界模型作为潜在物理的客观模拟器发挥作用,但其在推理时的运行受主观、类智能体观测的条件约束,在单一统一框架内连接了这两种视角。

2. 从视频生成到世界模型的四阶段演化

视频生成模型向世界模型的演化不是一蹴而就的,而是一个渐进的过程。根据模型能力的发展,我们可以将这一演化过程划分为四个清晰的阶段,每个阶段都在真实性、交互性和规划性三个核心维度上有所提升。
在这里插入图片描述

2.1 第一阶段:真实性——对真实世界的表面模拟

第一阶段的核心特征是实现基本的视觉真实性。这一阶段的模型能够生成2至5秒的短视频,勉强满足人类的视觉质量要求。它们开始展现出对真实世界的表面理解,能够生成看起来合理的运动和场景。

在真实性维度上,第一阶段的模型实现了短期真实性。它们能够维持几秒钟内的视觉连贯性,生成的视频在短时间内看起来是合理的。模型还实现了基本的视频-文本一致性,能够根据文本描述生成大致符合要求的视频内容,尽管可能会遗漏某些细节或产生一些不连贯的运动。

在交互性方面,第一阶段的模型表现出低级交互性。它们支持基于空间信号的基本交互,例如通过草图、深度图或人体姿态来引导生成。但这种控制的灵活性较低,主要局限于像素级的操作。模型可以执行简单的单步动作,如"跳跃"或"左转",但无法处理更复杂的多步骤任务。

规划能力在这一阶段尚未出现。模型缺乏对长期目标的理解,无法进行面向任务的规划。它们更像是一个视觉生成器,而非真正的世界模拟器。

代表性的第一阶段模型包括早期的CogVideo、Make-A-Video等。这些模型在当时是突破性的,证明了从文本生成视频的可行性,但它们生成的视频往往存在运动失真、空间错位等问题,限制了在实际应用中的使用。

图2-2：第一阶段模型架构——基础视频生成流程

2.2 第二阶段:交互性——对真实世界的可控交互式模拟

第二阶段标志着视频生成模型向真正的世界模型迈出了关键一步。这一阶段的核心特征是实现了语义和导航交互性,模型不再仅仅是被动地生成视频,而是能够主动响应各种控制信号,实现灵活的交互。
在这里插入图片描述

在真实性维度上,第二阶段实现了一致真实性。模型能够生成更长的视频序列,通常可以达到10秒甚至更长,并且在整个序列中维持时间一致性。物体的动力学和场景布局随时间保持稳定,不会出现突然的跳变或失真。更重要的是,模型实现了完美的视频-文本一致性,能够忠实地渲染所有提及的实体、运动和事件。

这一阶段的模型开始捕捉基本物理世界的某些方面。它们理解投影几何,知道物体在不同视角下应该如何呈现。它们具备空间适宜性的概念,生成的场景在空间布局上是合理的。虽然还不能完全遵循所有物理定律,但已经能够生成物理上大致合理的运动和交互。

在交互性方面,第二阶段实现了显著的飞跃。模型支持灵活控制,特别是基于导航模式的控制。导航模式是一个关键概念,它指的是那些不依赖于具体场景内容、可以跨场景迁移的控制信号。典型的导航模式包括:

动作序列:例如机器人的关节运动、车辆的转向和加速
文本指令:如"向左转"、"拿起杯子"等简单指令
轨迹:预定义的运动路径或相机路径
目标图像:表示期望达到的最终状态

这些导航模式的引入使得模型具备了真正的交互能力。用户或智能体可以通过这些信号来引导视频的生成,实现对虚拟世界的控制。

第二阶段的另一个重要特征是以主体为中心的可控性。模型能够理解和执行针对特定主体的控制信号,例如指示一个智能体执行一系列动作,或者围绕该主体动态调整视角。这种能力对于机器人应用尤为重要,因为它允许模型专注于智能体的行为,同时让周围环境自然演化。

在规划能力方面,第二阶段出现了简单任务规划的萌芽。模型开始展现出面向任务规划的早期迹象,能够生成遵循连贯意图或指令的视频内容。例如,给定"冲一杯咖啡"的指令,模型可以生成包含拿起水壶、倒水等一系列动作的视频。虽然这种规划能力还比较有限,通常只能处理十个步骤以内的简单任务,但它标志着模型开始理解任务的结构和目标。

代表性的第二阶段模型包括Runway的Gen-2、Pika等商业模型,以及学术界的Emu Video、VideoPoet等。这些模型在视频质量、时长和可控性上都有显著提升,开始在创意产业中找到实际应用。

2.3 第三阶段:规划性——对真实世界的实时复杂预测

第三阶段代表了世界模型能力的重大飞跃。这一阶段的核心特征是实现了复杂任务规划,模型能够模拟给定世界状态的长期未来演化,支持涉及多个交互实体、动态视角转换和场景变换的复杂任务。

在规划性维度上,第三阶段的模型能够生成在中观时空尺度上展现自主演化进展的长期视频序列。这里的"中观"指的是与人类日常体验相符的时空尺度,既不是微观的分子运动,也不是宏观的地质变化,而是人类活动的自然时间尺度。模型可以模拟涉及数十甚至数百个运动步骤的复杂任务,例如完整的烹饪过程、复杂的机器人操作序列,或者自动驾驶中的长距离导航。

更重要的是,这些规划结果不是静态的预设序列,而是能够实时适应来自内部状态和外部环境的交互。模型可以根据新的输入动态调整其生成的内容,实现真正的交互式规划。

在真实性方面,第三阶段达到了内在物理真实性。这是一个质的飞跃:模型不再仅仅是近似外观,而是真正模拟潜在的因果过程。它们内化了物理定律本身,能够根据真实世界的内在物理原理演化模拟过程。

这种内在物理真实性体现在多个方面。在刚体力学领域,模型理解自由落体、碰撞、摩擦等基本现象。在流体动力学方面,模型能够模拟水的流动、烟雾的扩散等复杂过程。甚至在某些情况下,模型可能捕捉到电磁效应,如光的反射和折射。

这种能力使得第三阶段的模型能够生成任意时长的视频序列,同时维持物理一致性和时间连贯性。模型可以随时间创造新的运动、实体、视角和场景,而不会破坏物理规律或产生不连贯的跳变。

在交互性方面,第三阶段实现了实时和局部交互性。"实时"意味着模型能够以无感知延迟的速度响应输入,支持帧级的交互。用户可以与世界模型无缝交互,发出指令和刺激,导致即时、连贯的变化。这种能力对于交互式应用至关重要,如虚拟现实、游戏或机器人遥操作。

"局部"交互性指的是精确且富有表现力的控制能力。模型支持以主体为中心的操作,并对上下文和背景一致性给予细粒度关注。例如,用户可以专注于单个角色的行为,而周围环境则继续自然演化,呈现丰富的照片级真实细节,且不影响视觉或物理一致性。

第三阶段的愿景是构建一个能够忠实模拟复杂系统下物理世界演化的通用模拟器。这样的系统可以应用于天气预测、生态系统建模、城市规划等需要长期预测和复杂交互的领域。

目前,我们正处于向第三阶段过渡的关键时期。一些前沿模型,如OpenAI的Sora、Google的Genie 3,以及李飞飞团队的Marble,都展现出了第三阶段的某些特征,但还没有完全达到这一阶段的所有要求。

2.4 第四阶段:随机性——对真实世界的低概率和多尺度建模

第四阶段代表了世界模型的终极愿景,尽管目前还主要停留在理论和研究阶段。这一阶段的核心特征是融入随机性感知推理和多尺度建模能力。

在规划性方面,第四阶段实现了随机规划性。模型不仅能够预测最可能的未来,还能够模拟与真实世界分布一致的高概率和低概率事件。这意味着模型可以主动建模地震、海啸、金融危机、小行星撞击等黑天鹅事件,而不仅仅是常规的、可预测的演化。

这种能力对于风险评估、应急准备和科学研究具有重要意义。例如,在城市规划中,模型可以模拟各种极端天气事件对基础设施的影响;在金融领域,模型可以探索罕见但影响巨大的市场崩溃场景。

第四阶段的另一个关键特征是任意空间和时间尺度的规划能力。在空间领域,模型可以跨越从宏观尺度(如宇宙级演化、大陆漂移)到微观尺度(如微生物动力学、原子级转换)的广阔范围。在时间领域,模型能够跨越从长期演化(跨越数年或数世纪,需要时间压缩和关键事件选择能力)到中尺度物理世界动力学,再到高频现象(如昆虫翅膀振动、人类瞳孔微运动)的不同时间尺度。

这种多尺度建模能力使得世界模型能够应用于更广泛的科学和工程领域。在材料科学中,模型可以从原子尺度的相互作用预测宏观材料性能;在气候科学中,模型可以连接微观的大气过程和长期的气候变化;在生物学中,模型可以从分子机制理解生态系统演化。

在交互性方面,第四阶段实现了全局和多模态交互性。模型能够预测外部干预导致的长期多模态影响,支持跨视觉、语言和控制模态的持续、长时间交互。这种交互性的核心是一种全局控制能力,其中具备心理世界模型的内部智能体作为模拟环境中的主要决策实体。

此外,第四阶段的模型支持多实体控制,能够协调场景内多个智能体或系统之间的交互。动态演化背景的融入进一步丰富了模拟,使世界建模更具真实性和适应性。例如,在模拟一个城市时,模型不仅要考虑交通流、人群动态,还要考虑天气变化、基础设施老化、社会经济因素等多个相互作用的系统。

第四阶段的世界模型代表了一个宏大的愿景,类似于刘慈欣科幻小说《镜子》中描绘的"超级模拟器"。这样的系统能够以任意精度预测世界的未来,不仅能回放过去,还能建模鲜活、不断变化的未来。虽然完全实现这一愿景还需要大量的研究和技术突破,但它为世界模型的发展指明了方向。

2.5 四阶段演化的整体视图

在这里插入图片描述

为了更清晰地理解这四个阶段的关系,我们可以用一个统一的场景来说明。假设我们要模拟一个人在厨房冲咖啡的过程:

第一阶段的模型可以生成几帧倒水的画面或咖啡杯出现的静态视图,但不了解人类意图或任务连续性。生成的视频可能在几秒后就出现不连贯或失真。

第二阶段的模型可以在短时间范围内描绘简单的目标导向动作序列。例如,一个人遵循"拿起杯子"和"把水倒入杯子"等短期简单指令,拿起水壶并将水倒入杯子。动作具有局部一致性,且遵循可见目标,但模型缺乏对更广泛任务或多步骤依赖关系的持久理解。

第三阶段的模型开始展现实时生成和交互一致性,能够根据"冲一杯咖啡"等抽象和长期指令自适应生成视频。它们在数十秒内维持厨房布局和物体位置的空间一致性,展现出灵活的导航能力和环境感知能力。模型理解整个任务的结构,能够自主规划和执行必要的步骤。

第四阶段的模型有望自主完成整个冲咖啡过程,规划并执行加热水、研磨咖啡豆、冲泡和端送等多步骤动作,同时维持物理真实性、时间连续性和与场景中动态物体的连贯交互。此外,通过多次推理循环,可能会自然出现真实事件,如不小心将热水洒在桌子上,反映真实世界的合理可能性。模型还可以在不同时间尺度上模拟,从快速的咖啡冲泡过程到长期的咖啡豆储存和变质。

这种渐进式的描述清晰地展示了每个阶段如何扩展其预测和规划能力,从简单的视觉生成到真正的世界模拟。

在这里插入图片描述

3. 关键技术组件与实现路径

3.1 第一阶段——真实性：对真实世界的准确模拟

在理解世界模型的演化过程中,导航模式是一个至关重要但常被忽视的概念。导航模式定义了外部信号如何引导和控制世界模型的生成过程,是实现真正交互性的关键。

导航模式与传统的空间条件有着本质的区别。空间条件,如草图、深度图、语义分割图等,都是与具体场景内容紧密绑定的。它们描述的是"这个场景应该长什么样",因此无法自由迁移到其他场景。相比之下,导航模式是内容独立的,它描述的是"如何在世界中移动和交互",可以应用于任意场景。

为了更精确地定义导航模式,我们可以用一个三元组来表征其必须满足的三个基本属性:

第一个属性是时间性。导航模式必须定义为时间有序序列或影响整个持续时间。这确保引导信号随时间演化,反映意图、观测或控制的真实变化。例如,一个动作序列会指定在每个时间步应该执行什么动作;一个轨迹会定义随时间变化的位置。

第二个属性是内容独立性。导航模式不得明确引用视频中的内容和空间特征。这意味着导航模式不应该包含"在画面左侧放置一个红色的杯子"这样的指令,因为这样的指令将生成过程锚定到特定的、可解释的目标,需要与原始视频内容配对。相反,导航模式应该是"向左移动"或"拿起物体"这样的抽象指令,可以应用于任何合适的场景。

第三个属性是空间推理能力。导航模式必须支持生成序列中的空间推理。这意味着世界模型不仅要理解静态空间布局,还要理解动态变换,如智能体运动、物体位移等。模型需要能够根据导航模式推断出空间关系的变化,并相应地更新生成的内容。

在这里插入图片描述

只有当这三个标准都满足时,一个条件才能被视为真正的导航模式。这种严格的定义为评估视频生成模型是否展现出真正的规划性和交互性提供了系统方法。

常见的导航模式包括:

动作序列:在机器人领域,这通常是关节角度、力矩或末端执行器位置的序列。在游戏中,这可能是按键序列或控制器输入。动作序列直接对应于智能体的物理控制,是最底层的导航模式。
轨迹:轨迹定义了智能体或相机在空间中的路径。它可以是2D平面上的路径,也可以是3D空间中的完整6自由度轨迹(包括位置和方向)。轨迹导航在自动驾驶和相机控制中特别重要。
文本指令:这是最自然和灵活的导航模式。文本指令可以是简单的方向命令(“向左转”),也可以是更复杂的任务描述(“去厨房拿一杯水”)。文本指令的优势在于其表达能力强,但挑战在于模型需要理解自然语言并将其转化为具体的动作。
目标状态:这种导航模式通过指定期望的最终状态来引导生成。目标可以用图像表示(目标图像),也可以用文本描述(目标描述)。模型需要规划从当前状态到目标状态的路径,这要求更高级的规划能力。

在实际应用中,这些导航模式往往需要组合使用。例如,一个机器人系统可能同时接收高层的文本指令(“清理桌子”)和底层的动作序列,或者一个自动驾驶系统可能结合轨迹规划和实时的转向控制。如何有效地融合多种导航模式,平衡它们之间可能的冲突,是当前研究的一个重要方向。

3.2 第二阶段——交互性：可控性和交互动力学

有了导航模式和其他条件信号,下一个问题是如何将它们有效地注入到视频生成模型中。这涉及到条件注入策略的设计,这是实现可控视频生成的关键技术环节。

目前主流的条件注入策略可以分为五大类:

基于ControlNet的条件注入

ControlNet最初是为图像生成设计的,但其思想已经被成功扩展到视频领域。ControlNet的核心思想是在预训练模型的基础上添加一个并行的控制网络,这个控制网络接收条件信号作为输入,并通过零卷积层将控制信息注入到主网络中。

ControlNet的优势在于它不需要修改预训练模型的权重,因此可以保持原模型的生成质量,同时添加新的控制能力。在视频生成中,ControlNet可以用于注入各种空间条件,如深度图、边缘图、人体姿态等。一些研究还将ControlNet扩展到时间维度,实现对运动的控制。

多模态Transformer

多模态Transformer是一种更加统一的方法,它将不同模态的输入(文本、图像、视频、控制信号等)都编码为token序列,然后在一个统一的Transformer架构中处理。这种方法的优势在于它可以自然地处理多种输入模态,并学习它们之间的交互。

在实现上,不同模态的输入通常通过各自的编码器转换为token,然后拼接在一起输入到Transformer中。Transformer的自注意力机制可以捕捉不同模态之间的依赖关系。一些先进的模型,如Cosmos,采用这种架构来实现强大的多模态理解和生成能力。

交叉注意力机制

交叉注意力是另一种常用的条件注入方法,特别是在扩散模型中。在这种方法中,条件信号(如文本嵌入)作为键和值,而生成的特征作为查询,通过交叉注意力层将条件信息融入生成过程。

交叉注意力的优势在于它提供了一种灵活的方式来调制生成过程,可以在不同的层次和位置注入条件信息。许多文本到视频的模型,如Stable Video Diffusion,都采用交叉注意力来实现文本条件的注入。

拼接策略

拼接是最直接的条件注入方法。在这种方法中,条件信号(通常是图像或特征图)直接与输入或中间特征在通道维度上拼接。这种方法简单有效,特别适合于空间条件的注入。

例如,在图像到视频生成中,参考图像可以与噪声输入拼接,然后一起输入到生成模型中。在一些方法中,条件信号会在多个层次上拼接,以提供更丰富的引导信息。

加法调制

加法调制通过将条件信息编码为偏置或缩放因子,直接加到特征上。这种方法在一些早期的条件生成模型中很常见,如条件GAN。在现代的扩散模型中,加法调制常用于注入时间步信息或全局条件。

一些先进的方法会结合多种条件注入策略。例如,一个模型可能使用交叉注意力来注入文本条件,使用ControlNet来注入空间条件,使用拼接来注入参考图像。如何设计有效的条件注入架构,平衡不同条件的影响,是一个需要仔细考虑的问题。

图3-2：五种主流条件注入策略对比
在这里插入图片描述

3.3 第三阶段——规划性：复杂系统未来演化的建模

视频生成模型的架构也在不断演进,从早期的GAN和VAE,到现在主流的扩散模型和自回归模型,再到最新的混合架构。

扩散模型在视频生成中占据主导地位,这主要得益于其强大的生成质量和训练稳定性。扩散模型通过逐步去噪的过程生成视频,可以生成高质量、多样化的内容。在视频领域,扩散模型通常采用3D UNet或DiT(Diffusion Transformer)架构,在空间和时间维度上同时进行去噪。

…详情请参照古月居

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

有哪些专业且非常好用的毕业论文写作辅助生成工具（提纲、初稿、降重、图表公式生成）？

AtomGit开源社区

大一学Java必看！static从报错到精通指南

AtomGit开源社区

《RAG技术的实现原理与落地实战》

摘要： RAG（检索增强生成）技术通过检索私有数据增强大模型生成能力，解决知识滞后、幻觉等问题。其核心流程分为离线构建（文档加载、分块、向量化存储）和在线推理（提问检索、生成回答）。本文从原理到实战，详解RAG技术栈（LangChain+Chroma+轻量Embedding模型），手把手实现多格式文档处理、智能分块、向量检索及Prompt优化问答链，并提供完整代码与高频问题解决方案。进阶方向包括混