世界动作模型（WAM）：让机器人学会“先想象，再行动“的下一代具身大脑

J_Xiong0117

56人浏览 · 2026-05-27 16:58:06

J_Xiong0117 · 2026-05-27 16:58:06 发布

人工智能的浪潮在过去几年以前所未有的速度重塑着世界。大语言模型让机器拥有了"读万卷书"的语言智慧，多模态模型让它学会了"看图说话"。然而，当我们把目光从屏幕里的对话框移向真实的物理世界时，一个根本性的难题浮现出来：一个能写诗、能编程的模型，却未必能稳稳地端起一杯水。让机器人在非结构化的真实环境中感知、推理并行动，始终是通用人工智能（AGI）皇冠上那颗最难摘取的明珠。

近两年，视觉-语言-动作模型（Vision-Language-Action, VLA） 的崛起一度让人看到了曙光：把预训练好的视觉-语言大模型直接"改装"成机器人策略，让它像预测下一个词一样预测下一个动作。RT-2、OpenVLA、π₀ 等工作展示了惊艳的泛化能力——听懂新指令、操作没见过的物体、在不同机器人本体间迁移。但 VLA 有一个与生俱来的"阿喀琉斯之踵"：它只学会了从"看到什么"到"做什么"的反应式映射，却从不思考"我这么做了，世界会变成什么样"。

正是为了补上这块拼图，一个新范式正在快速成形。复旦大学、上海创新研究院与新加坡国立大学的研究者们在最新综述中，首次系统性地为这一族方法立名——世界动作模型（World Action Models, WAM）。本文将带你完整梳理这篇综述的核心脉络：WAM 到底是什么、它有哪几种"长相"、用什么数据喂养、如何评判优劣，以及它通往通用具身智能的道路上还横亘着哪些难关。

一、从 VLA 到 WAM：为什么机器人需要"想象力"

在这里插入图片描述

VLA 的辉煌与局限

要理解 WAM，必须先理解它要解决的痛点。VLA 模型的本质，是把机器人控制建模为一个多模态序列预测问题。给定当前观测 o 和语言指令 l，模型直接输出动作序列 a，其学习目标可以朴素地写成"在给定上下文下，让正确动作的概率最大"。这套范式继承了大模型的全部红利：海量预训练带来的语义理解，被成功"落地"到了电机指令上。

然而，VLA 学习的是一个直接映射 p(a|o)，它的世界里没有"未来"。它不预测"我推这个杯子，杯子会滑到哪里"“我抓这块布，布会怎样褶皱”。这种预测性物理推理的缺失，使得 VLA 在需要预判后果的复杂任务上举步维艰——尤其是在分布外场景、长程任务和富接触操作中，表现往往脆弱。

世界模型：给智能体装上"物理直觉"

与 VLA 互补的，是另一条技术脉络——世界模型（World Model, WM）。它的角色是充当环境的"前向动力学模拟器"：给定当前状态 o 和一个假想动作 a，预测出下一个状态 o'，即建模 p(o'|o, a)。从经典的基于模型的强化学习（如 PlaNet、Dreamer 系列），到如今由 Sora、Wan 等视频生成大模型驱动的"视频世界模型"，世界模型让智能体得以在"脑海中"推演世界的演化。

一个很自然的想法呼之欲出：如果把世界模型的"预见能力"和 VLA 的"行动能力"融为一体，会怎样？

WAM 的定义：联合建模"未来"与"动作"

这正是 WAM 的核心思想。综述给出了一个清晰的形式化定义：WAM 是一类将预测性状态建模（世界建模）与运动控制（动作生成）相统一的具身基础模型，它的目标不再是单独建模动作，而是去刻画未来状态与动作的联合分布：

WAM 的学习目标：p(o', a | o, l)——在给定当前观测与指令下，同时预测"世界会变成什么样"和"我该怎么做"。

综述进一步明确，一个合格的 WAM 必须满足两条核心标准：

前向预测建模：模型必须生成或利用一种可量化的未来状态 o' 表征。这既可以是显式的视觉预测（像素级视频帧、稠密光流），也可以是隐式的物理表征（以物理为基础的潜在空间）。
耦合式动作生成：模型必须把它的动作指令 a 与所预期的未来状态 o' 严格对齐。换言之，动作不是凭空生成的，而是"看着想象中的未来"做出的决策。

正是这一步从"映射"到"联合预测"的跨越，让 WAM 得以利用丰富的时空先验，实现更深层的物理理解和更强的零样本泛化。

正本清源：WAM 与几个近义词的辨析

新范式诞生之初，命名往往是混乱的。综述特意厘清了几组容易混淆的概念，这对入门者尤为重要：

视频-动作模型（VAM）：通常特指"用视频预测来对齐动作"的模型。而 WAM 是一个更广、与模态无关的超集——视频只是建模世界的"一种代理"，WAM 还可以用点云、触觉、力反馈等作为预测目标。"World"强调的是对物理规律与因果动力学的内化，而非对像素视频格式的执着。
视频策略（Video Policy）：指那些借用视频生成架构（如 Diffusion Transformer）作主干、却仍然只做 p(a|o) 直接映射的模型。它们没有"主动的预测承诺"——而 WAM 必须由一个世界建模目标显式监督。
动作世界模型（AWM）：早期用语。综述选用"WAM"而非"AWM"，是一次微妙的定位转变——把系统从"被增强的模拟器"重新定位为"一个完整的智能体类别"，让"世界"（预测性物理）与"动作"（运动控制）成为同等地位的组成部分，确立 WAM 作为 VLA 谱系的"直接继承者"身份。

在这里插入图片描述
图 1：WAM 与 VLA、WM 的输入输出对比——VLA 输入观测与语言、只输出动作；WM 输入观测与动作、只输出下一观测；而 WAM 同时输出动作与未来观测，这正是它的独特之处。

二、WAM 的两大架构范式：级联式 vs 联合式

WAM 的方法图景虽然繁杂，但综述用一条清晰的主轴把它们归为两大范式：世界预测与动作生成"如何耦合"。

级联式 WAM（Cascaded）：先预测未来，再解码动作

级联式的思路最为直观，它把目标显式分解为两步流水线：p(o', a|o, l) = p(a|o', o, l) · p(o'|o, l)。第一阶段，一个世界模型先"画出"预期的未来（通常是一段执行视频或潜在表征）；第二阶段，一个独立的动作模型再从这段"剧本"里解码出可执行的机器人指令。

这种解耦带来了天然的归纳偏置：世界模型无需操心机器人的运动学，动作模型也无需求解长程的场景预测。按中间表征的不同，它又分两支：

基于像素空间的显式规划：直接用 RGB 视频帧作为中间载体，可解释性强，还能充分调用互联网规模预训练的视频大模型。其中又分为两种动作提取路线——一是学习式动作提取，用逆动力学模型（IDM）从相邻帧回归动作（如开创性的 UniPi，以及 VLP、RoboEnvision、TesserAct、Vidar、Gen2Act、π₀.₇ 等）；二是几何式动作提取，把动作提取从"学习问题"变成"解析几何问题"，通过光流（AVDC、Im2Flow2Act、3DFlowAction）或物体位姿跟踪（Dreamitate、RIGVid）来反推动作，很多甚至无需动作标注、零训练即可运行。
基于潜在表征的隐式规划：像素级视频合成太慢，是实时部署的最大瓶颈。这一支干脆跳过"解码回像素"这一步，直接在压缩的潜在空间里做规划。VPP 首次让规划推理速度逼近实时控制；S-VAM 用自蒸馏弥合效率与保真度的鸿沟；LAPA、villa-X 则从无标注视频中学习"潜在动作"，大幅降低标注需求；MWM 用语义掩码替代 RGB 预测，在剧烈视觉扰动下依然鲁棒。

联合式 WAM（Joint）：一个模型同时产出未来与动作

如果说级联式是"分工协作"，联合式则是"一脑多用"。它在单一统一模型内同时预测未来世界状态和动作，二者在共享表征空间中被协同优化，迫使模型内化环境动力学与控制信号之间的因果依赖。按生成方式，它分为两条路线：

自回归生成：把异构变量（视觉、动作）序列化到 token 空间，用因果的、从左到右的方式逐个预测。代表作从 GR-1、GR-2（用未来视觉预测作为动作生成的"正则化器"），到 CoT-VLA（先自回归"幻想"出视觉思维链，再切换全注意力预测动作）、WorldVLA、RynnVLA-002、ℱ1（用 Transformer 混合体把动作生成重构为"以预见为引导的逆动力学问题"），再到 VLA-JEPA（彻底放弃像素生成，在抽象潜在空间里做预测对齐）。自回归的软肋在于误差累积和顺序解码的延迟。
基于扩散的生成：用多步去噪并行地生成未来状态和动作序列，天然适合高频闭环控制。综述按"预测流如何耦合"进一步细分：统一流架构把世界与动作变量塞进单个 DiT 主干（如 PAD、UWM 用独立噪声调度实现"一模多态"、Cosmos Policy 让单个模型同时充当策略/世界模型/价值函数、DreamZero 把推理推向 7Hz）；多流架构则用多个协调的分支（视频 DiT + 动作 DiT），通过交叉注意力耦合（CoVAR、LDA-1B、DUST、Motus）、隐藏状态耦合（DiT4DiT、Fast-WAM、WAV、Act2Goal）或共享表征（UVA、PhysGen）来交换信息。

在这里插入图片描述

图 2：WAM 的架构分类树。左侧为联合式（自回归 / 扩散，扩散又分统一流与多流），右侧为级联式（显式 / 隐式表征对齐）。这两条主轴代表了当前领域在"架构耦合"上的主导探索方向。

一言以蔽之：级联式胜在模块清晰、可复用强大的视频大模型，但两阶段间的误差会传导；联合式胜在耦合紧密、闭环高效，但训练与架构设计更具挑战。 二者孰优孰劣，至今仍无定论——这也正是后文"开放挑战"的伏笔。

三、喂养 WAM 的"四口奶"：具身数据生态

巧妇难为无米之炊。综述用一整章强调：训练鲁棒、可泛化的 WAM，从根本上受制于具身数据的可得性与质量。 与靠"被动抓取"互联网文本就能茁壮成长的大语言模型不同，WAM 需要严格的物理接地。更妙的是，WAM 有一项独门优势——它能统一消化"配对"与"非配对"两类数据：既能用高质量的 (o, a, o') 三元组紧密耦合内部表征，又能通过联合训练吸纳海量无动作标注的视频。综述将数据来源归为四大范式：

以机器人为中心的遥操作数据：由人类操作员遥控真机采集，提供严格对齐、高频的"动作-状态"配对，几乎没有仿真-现实差距，是不可替代的"黄金数据"。从 QT-Opt、RT-1，到聚合超百万条轨迹的 Open-X Embodiment（OXE）、野外采集的 DROID，再到百万级的 AgiBot World，规模与本体多样性不断突破。缺点是采集昂贵、受限于实验室、本体单一。
便携式人类演示数据（UMI 式）：用轻便的手持夹爪加可穿戴相机，让普通人在真实环境里直接采集操作轨迹。UMI 开创了这一方向，FastUMI、RealOmin（百万规模、3000+ 家庭场景）、RDT2（约 1 万小时）等迅速扩展。它兼具第一人称视频的环境多样性与厘米级的动作约束，是连接"结构化遥操作"与"互联网视频"的关键桥梁。
仿真数据：物理引擎本质上就是一个精确的计算式世界模型，能提供真实数据难以企及的"特权信息"——完美深度、精确 6D 位姿、无遮挡多视角。从 MimicGen 的程序化扩增，到生成千万级抓取轨迹的 SynGrasp-1B、120 个真实厨房场景的 RoboCasa，再到面向 4D 时空建模的 TesserAct。代价是仿真-现实的视觉差距，但底层物理规律严格一致，配合域随机化可大幅降低真机微调需求。
人类与第一人称数据：互联网规模的人类视频蕴含近乎无限的任务、环境与物理交互多样性，是教 WAM 学会"直观物理"的海量先验库。从 SSv2、Ego4D（3600+ 小时）、HowTo100M（1.36 亿片段），到提供毫米级手物网格的 Ego-Exo4D、ARCTIC，再到面向灵巧控制、保持高保真 3D 手指跟踪的 EgoDex。最新趋势是把这些异构数据聚合成面向通用预训练的混合数据引擎。

图 3：具身数据全景，按"迁移难度"（纵轴）与"扩展难度"（横轴）两轴排布。机器人遥操作位于"高质量、难扩展"一角，互联网人类视频位于"易扩展、难迁移"另一角——WAM 的使命，正是战略性地混合这两端。

构建 WAM 的数据版图，绝不只是"把机器人数据做大"，而是要把严格耦合的演示与不受约束的观测巧妙地混合起来，以弥合"精确低层控制"与"开放世界泛化"之间的鸿沟。

四、如何评判一个 WAM？三维评测体系

一个 WAM 好不好，既要看它"想得准不准"，也要看它"做得成不成"。综述指出当前评测普遍采用解耦范式，并沿两条互补轴线展开。

世界建模能力：想得逼真，更要想得合理

视觉保真度：最基础的一层。像素级用 PSNR、SSIM；感知与语义层面用 LPIPS、DreamSim、DINO 相似度；分布层面用最广泛使用的 FVD（在预训练视频特征空间里计算真实与生成视频分布的 Fréchet 距离）。
物理常识：比"看着真"更深一层——“行为是否符合物理”。VideoPhy、PhyGenBench、VBench-2.0、WorldModelBench（以牛顿第一定律、质量守恒、不可穿透性等五条物理律打分）、Physics-IQ 等，专门检验生成世界是否保持物体连续性、是否遵循接触/碰撞/因果时序，以及运动轨迹是否平滑可控。
动作合理性：最具 WAM 特色的一维——"生成的视频里是否保留了足够的动作信息，能被翻译回可执行控制？“WorldSimBench 引入"隐式操作评测”，而 Wow, wo, val! 提出的"逆动力学图灵测试"更是一针见血：用 IDM 从生成视频反推动作并在真机上执行，结果发现许多视觉上以假乱真的模型，成功率几乎归零——这揭示了"视觉合理"与"可执行"之间的巨大鸿沟。

动作策略能力：从仿真到真机的 40+ 基准

综述系统梳理了 2019–2026 年间 40 多个主流基准，按机器人形态与操作场景分为五类：通用操作（MetaWorld、RLBench、LIBERO、ManiSkill 系列、SimplerEnv 等，主体）、双臂与人形（RoboTwin、HumanoidBench）、移动操作（HomeRobot、BEHAVIOR-1K）、接触与形变操作（SoftGym、TacSL 等，从"视觉主导"走向"视触觉融合"），以及直接在真机上评测的 真机基准（RoboArena、Maniparena）。
在这里插入图片描述

值得警惕的是，综述尖锐地指出当前评测的割裂之痛：世界建模常用 PSNR、FVD 等只看"视觉像不像"、却放任"悬浮的物体、违反重力的流体"得高分；动作生成则只看下游任务成功率。二者之间"想象的未来"与"实际的动作"是否因果一致，几乎无人评测。

五、开放挑战与未来机遇

WAM 标志着具身智能从"token 级预测"向"状态级预测"的关键转向，但通往通用物理智能的道路依然崎岖。综述凝练出几个将定义下一阶段研究的命题：

架构耦合之争：级联式、联合扩散、离散 token、隐式对齐……百花齐放，却没有一项在同等规模、数据、协议下的受控对比研究。显式的像素预测，真的是物理接地所必需的吗？ 越来越多证据表明，世界建模的好处也许主要来自训练时的"辅助梯度"，而非推理时真的去生成未来帧——这为 JEPA 式的潜在预测范式打开了大门：与其重建高维像素，不如在潜在空间里预测未来状态的抽象表征，绕开像素预测的瓶颈。
多模态物理状态表征：现有 WAM 几乎都在 RGB 视觉模态里预测未来，可对富接触操作最关键的触觉分布、接触力、声学特征却在像素空间里几乎不可见。把 WAM 扩展到联合预测触觉、力、本体感受的未来状态，是一片重要而尚未开垦的疆域。理想的未来架构应具备模态自适应预测能力——有丰富传感器时做物理接地的预测，没有时则优雅地退化为纯视觉推理。
数据利用与混合配方：人类视频到底贡献了什么？是语义还是动力学？训练课程该如何从"互联网先验"过渡到"精确动作标注"？综述提出把人类视频的价值理解为一个可迁移知识的层级——低层物理先验、中层因果动力学、高层任务逻辑——并呼吁发展具备形体感知的过滤机制，从多样来源中蒸馏通用物理律、同时抑制与目标机器人运动学不兼容的行为。
长程规划与时间抽象：WAM 多在短程任务上评测，但真正的具身通才需要跨越长时程的持续推理。分布漂移、误差累积、长轨迹的计算开销都是拦路虎。一个连接"高层语义任务分解"与"低层物理预测"的层级化世界-动作建模框架，仍是关键的开放挑战。
推理延迟与计算效率：世界预测带来沉重的"延迟税"。DreamZero 通过算法加速与底层 CUDA 优化把推理推到 7Hz，但相比非生成式 VLA 策略的 50Hz 标准仍有显著差距。一个少有人触及的理论问题是：下游控制究竟需要多高的预测保真度？ 这指向任务自适应预测保真度——按任务需求动态调整预测的深度与分辨率。
评测方法学：未来基准亟需引入耦合指标，探测视觉预测与物理执行之间的因果链。例如"反事实一致性"（动作如何随想象未来的扰动而适应）、“以预见为条件的成功率”（执行轨迹是否严格遵循生成的视觉规划）。社区需要一个把"世界预测质量"与"动作质量"联合评估的共享框架。
安全与可靠的物理部署：一个自信地"想象"出错误未来的模型，可能会执行一连串难以中断的危险动作。但反过来，WAM 的预测能力也提供了预测集成的安全机制——在执行前，先把对想象未来的不确定性估计当作安全监控的"一等输入"，用世界预测不仅指导动作、更去验证动作。

六、结语：通向通用具身智能的新范式

回望全文，WAM 的真正意义，在于它把"世界"重新请回了机器人的决策回路。VLA 教会了机器人"看一眼就动手"，而 WAM 让机器人在动手之前，先在脑海中"预演"一遍物理世界的演化——这是从条件反射到深思熟虑的跃迁。

这篇综述的价值，不仅在于首次为这一散落的领域立名、厘清术语边界，更在于它系统地勾勒出 WAM 的架构设计空间（级联式与联合式）、数据生态（遥操作、人类演示、仿真、第一人称视频四足鼎立）与评测体系（视觉保真度、物理常识、动作合理性三维并举），并诚实地指出了横亘前路的七道难关。

随着生成式世界建模与机器人学的持续融合，WAM 研究蕴含着巨大的潜力。当机器人不仅能听懂我们的语言、看懂眼前的场景，更能预见自己行动的物理后果时，通用具身智能的图景，或许就不再遥远。这需要持续的研究投入与跨学科的协作——而我们，正站在这场变革的起点。

七、延伸资源

原论文：《World Action Models: The Next Frontier in Embodied AI》（arXiv:2605.12090），复旦大学 / 上海创新研究院 / 新加坡国立大学。
项目主页：https://openmoss.github.io/Awesome-WAM
持续更新的论文清单（Awesome-WAM）：https://github.com/OpenMOSS/Awesome-WAM
奠基性 VLA 工作：RT-2、OpenVLA、π₀。
代表性世界模型：PlaNet、Dreamer 系列、V-JEPA、iVideoGPT、Genie；视频大模型 Sora、Wan、Veo、Kling。
关键数据集与基准：OXE、DROID、AgiBot World（遥操作）；UMI、EgoDex、Ego4D（人类/第一人称）；RoboCasa、SynGrasp-1B、RoboTwin（仿真）；LIBERO、ManiSkill、SimplerEnv、WorldModelBench（评测）。
值得关注的顶级会议：CoRL、ICRA、IROS、RSS（机器人）；NeurIPS、ICLR、ICML、CVPR（机器学习与视觉）。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

RAG技术怎么让AI笔记工具读懂你的知识库？

AtomGit开源社区

从 NVIDIA 驱动到 CUDA + cuDNN 完全配置指南（附避坑）

恭喜你！走到这一步，你的电脑已经是一台名副其实的深度学习工作站了。用 GPU 加速训练神经网络（速度提升几十到上百倍）跑 LLM（大语言模型）、Stable Diffusion（AI 绘画）等前沿项目课后作业运行一个 MNIST 手写数字识别的 PyTorch 示例，观察 GPU 使用率（在任务管理器性能选项卡查看）。尝试用nvidia-smi实时监控显存占用。有任何问题请在评论区留言，我会尽量解