“世界模型”(World Model)无疑是最炙手可热却也最被“滥用”的概念之一。

视频生成模型里烈火熊熊却违背物理常识的画面叫世界模型;代码硬生生搓出来的可玩游戏叫世界模型;严谨计算流体力学的物理引擎也叫世界模型。计算机视觉、机器人、强化学习各执一词,整个领域陷入了史诗级的概念大乱斗。

为了终结这种混乱,AI教母李飞飞(Fei-Fei Li)联合其空间智能初创公司 World Labs 团队发表了一篇重磅长文——《世界模型的功能分类》(A Functional Taxonomy of World Models)。

这篇文章不仅为纷乱的 AI 行业树立了一个清晰的坐标系,更是一针见血地指出:语言让机器学会了谈论世界,而世界模型才是机器真正理解、想象、推理并与物理世界互动的钥匙。对于做机器人和空间智能(Spatial Intelligence)的人来说,这篇就是今年的必读指南。

一、 溯源:一切始于那个经典的“控制环”

李飞飞指出,想要厘清混乱,必须回到强化学习中经典的 POMDP(部分可观测马尔可夫决策过程) 闭环。在这个历史悠久的底层逻辑中,包含四个核心要素:

  • 智能体(Agent): 无论是人、机器人还是软件系统。

  • 动作(Action): 智能体做出的决策,会直接改变世界的“状态”。

  • 状态(State): 物理学与机器人学意义上的真实底层世界,包含所有物体的绝对位置、速度和属性(通常无法被智能体直接完全看到)。

  • 观测(Observation): 智能体通过视网膜、传感器或视频像素等,对底层真实状态捕捉到的局部视角

现在行业里所有被称为“世界模型”的技术,本质上都是对这个经典控制环的不同投影(Projections)。它们因为输出的目标截然不同,从而衍生出了三大功能流派。

二、 三大功能分类:渲染器、模拟器、规划器

李飞飞将世界模型精细地拆解为以下三类:

分类 核心输出 (Output) 核心追求 (Metric) 典型代表 / 产品形态 局限性 / 边界

渲染器

 

(Renderer)

观测(Observations)

 

例如像素、视频帧

视觉逼真度

 

(Visual Fidelity)

文本转视频模型、Google Genie 3、World Labs 的 RTFM

没有显式的 3D 结构理解。 鸟瞰城市可能完美无瑕,但一旦试图开车穿过其中,建筑结构就会分崩离析。

模拟器

 

(Simulator)

状态(State)

 

包含几何、物理及动力学

结构与物理精确度

 

(Structural Accuracy)

物理引擎、工业数字孪生、高端机器人训练场

数据极度稀缺,存在 Sim-to-Real(虚拟到现实)的鸿沟。

规划器

 

(Planner)

动作(Actions)

 

下一步该干什么

决策与行动的成功率

具身智能中的 VLA(视觉-语言-动作)模型、世界动作模型

目前多局限于受限的实验室环境,长周期复杂任务的验证尚不成熟。

三、 为什么说“模拟(Simulation)”才是真正的根基?

在这三大分类中,“渲染器”在商业上最成熟(各类文生视频产品、Google 的 Nano Banana 模型等让数亿用户玩得不亦乐乎);“规划器”最令人兴奋,承载着具身智能和机器人落地的终极梦想。

但李飞飞旗帜鲜明地指出:模拟器,才是最关键、最不应该被公众忽视的行业中枢(Linchpin)

“如果说语言是对世界的抽象,像素是对世界的投影;那么几何、物理和动力学,就是世界本身。” —— 李飞飞

一个真正理解杯子如何放在桌上的模型(掌握了它的几何结构、材质、受力反馈),理应能够从任意角度渲染这个杯子(Renderer),模拟它被推倒时的状态(Simulator),并规划出一条机械臂去把它捡起来的路径(Planner)。

相反,一个仅仅精通“渲染”或仅仅精通“规划”的模型,是无法倒推做到另外两点的。

要想让机器人走出实验室狭窄的测试台,进入真正复杂的厨房、仓库和手术室,就必须在“模拟器”这个层面上死磕。这也是为什么 NVIDIA 靠着 Omniverse 去撬动价值数万亿美元的工业和物流数字孪生市场。

四、 行业终局:边界正在坍塌,走向“统一世界模型”

不过,这三大分类在技术演进中并不是割裂的。李飞飞点破了今年最重要、最不容忽视的技术趋势:渲染、模拟与规划的边界正在加速坍塌。

  • 渲染——规划: 部分机器人实验室已经证实,预训练的视频渲染器可以直接作为基础,用于联合预测世界状态与动作,让模型通过“想象未来”来决定“当下怎么做”。

  • 渲染——模拟: World Labs 最近推出的首个重大动作——Marble。它支持多模态输入(文本、图像、视频、空间草图),能直接生成可交互探索的 3D 环境。最硬核的是,它能在一个模型里同时输出用于视觉探索的 3D 高斯泼溅(Gaussian Splats)以及供物理引擎运行的碰撞网格(Collision Meshes)

这标志着,静态的输出正在演变为深度的交互。

学术界的终极目标,是一个“统一的世界模型”(Unified World Model)——一个单一的大型基础模型,内部装载了物理世界的绝对物理常识,能够根据下游任务的需要,随时在“照片级渲染”、“物理精确的结构模拟”以及“动作序列规划”之间无缝切换。

五、 写在最后

尽管目前前方仍有无数大山需要翻越(比如 3D 结构化数据比互联网视频稀缺几个数量级、多物理场同时模拟的算力开销极其恐怖、AI 生成几何经常出现自我穿透的物理 Bug 等)。但李飞飞和 World Labs 为我们指明了那条最性感的长坡厚雪。

在这场“世界模型”引爆的演进中,企业实际落地往往面临多模型并存与调度混乱的工程难题。为此,魔芋AI大模型平台魔芋AIOpenAI 接口聚合管理,支持多种渠道包括 Azure,可用于二次分发管理 key,仅单可执行文件,已打包好 Docker 镜像,一键部署,开箱即用https://www.moyu.info/register?aff=qBX9 打造了安全合规的统一API网关。主流大模型6折算力折扣优惠!平台一站式整合全球30+服务商的200+模型能力,凭借99.9%+高可用架构、自研大模型防火墙与RMB合规分账体系,帮企业屏蔽底层接口差异并降低20%~70%成本,让空间智能前沿技术安全、稳健地沉入商业生产。​​​​​​​

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐