文章概括

引用:



主页: https://ntumars.github.io/wm-robot-survey/
GitHub: https://github.com/NTUMARS/Awesome-World-Model-for-Robotics-Policy
原文: https://arxiv.org/pdf/2605.00080v1
系列文章:
请在 《 《 文章 》 》 专栏中查找



宇宙声明!


引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!



ABSTRACT

世界模型是一种预测性表征,用来描述环境在动作作用下如何演化,它们已经成为机器人学习中的核心组成部分。 它们支持策略学习、规划、仿真、评估和数据生成,并且随着基础模型和大规模视频生成技术的兴起而快速发展。 然而,现有文献在模型架构、功能角色以及具身应用领域等方面仍然较为分散。 为了解决这一问题,我们从机器人学习的视角出发,对世界模型进行了全面综述。 我们考察了世界模型如何与机器人策略相结合,如何作为学习得到的模拟器用于强化学习和评估,以及机器人视频世界模型如何从基于想象的生成方法,发展到可控的、结构化的和基础模型规模的形式。 我们进一步将这些思想与导航和自动驾驶联系起来,并总结了具有代表性的数据集、基准测试和评估协议。 总体而言,本文系统性地综述了机器人学习中世界模型相关的快速增长的研究文献,阐明了关键范式和应用,并指出了具身智能体预测建模面临的主要挑战和未来方向。 为了便于持续获取新出现的研究工作、基准测试和相关资源,我们将维护并定期更新与本综述配套的 GitHub 仓库。


7 基准、数据集与结果

7.1 用于世界模型评估的基准

在具身智能中,评估世界模型与在传统计算机视觉中评估视频生成模型有着根本性的不同。 在机器人领域中,世界模型的价值取决于它是否能够生成以动作为条件、并且与真实物理动力学保持一致的未来状态。 这要求模型不仅要捕捉表面层面的真实感,还必须捕捉机器人—环境之间的交互,并作为一个忠实的预测器,预测物理上合理且时间上连贯的未来观测。

更重要的是,这样的模型应当能够可靠地响应动作干预,在长时程内保持连贯,并支持策略学习、规划和评估等下游任务。 从这种以策略为中心的视角来看,仅有视觉真实感既不是必要条件,也不是充分条件(Shang et al., 2026),因为展开结果可能看起来很有说服力,但仍然以破坏闭环控制的方式违反动力学规律(Qin et al., 2025; Li et al., 2025e)。 因此,我们将现有具身世界模型基准组织为三个互补类别:(i)动作条件生成与开环预测质量;(ii)闭环任务效用与策略评估;(iii)物理一致性、可控性和可执行性诊断。

7.1.1 动作条件生成与开环预测质量

第一个维度是在开环设定下评估具身世界模型。 给定当前观测,以及动作序列、语言指令或任务规定,模型需要在不嵌入规划器或控制闭环的情况下,自回归地生成未来观测。 关键问题在于,预测出的未来是否能够随着时间推移始终忠实于给定的行为指令,具体体现在语义正确性、时间连贯性和动作响应性上,而不仅仅是视觉上是否合理。 开环基准具有吸引力,因为它们相对容易扩展和标准化,尽管其结果需要谨慎解读。

这一方向上的近期基准已经变得越来越具身化。 RBench(Deng et al., 2026)和 EWMBench(Yue et al., 2025)并不是将机器人视频生成视为通用视频合成,而是评估生成的未来是否保留了具身交互中与任务相关的结构。 RBench 强调在多样化机器人任务和具身形态中的结构一致性、物理合理性和动作完整性。 EWMBench 则采用一种更加因子化的视角,将场景一致性、运动正确性和语义对齐区分开来。 二者共同反映了开环评估中的一个更广泛转变:评估重点正在从外观层面的真实感转向对交互过程的忠实预测。

其他基准则进一步将开环预测与下游效用联系起来。 DreamGen Bench(Jang et al., 2025a)评估指令跟随能力和物理对齐程度,它关注的是生成的展开是否能作为策略学习中的合成经验发挥作用,而不仅仅是看起来是否真实。 EVA-Bench(Chi et al., 2025b)通过强调长时程预判能力,以及在视角、场景布局和运动分布变化下的分布外鲁棒性,对这一视角进行了补充。 总体来看,这些基准表明,强大的开环世界模型必须做的不只是生成合理的未来:它们还必须保持动作 grounding,符合物理常识,并且具有足够的鲁棒性,以支持下游具身应用。

7.1.2 闭环任务效用与策略评估

开环基准评估的是世界模型能否生成以动作为条件的未来,而闭环基准则关注这些预测在交互式决策循环中是否仍然有用。 在这一设定中,世界模型并不是作为一个被动预测器来评估的,而是作为环境模拟器、策略评估器,或者规划基础来评估;它会随着时间推移直接影响动作选择。 因此,评估重点从预测的合理性转向决策效用:也就是模型是否保留了策略排序、价值估计、规划以及最终任务成功所需的任务相关动力学。 这使得闭环评估与具身智能更加一致,因为一旦智能体反复基于模型生成的未来采取行动,微小的建模误差就可能不断累积,并最终破坏控制过程。

这一类别中的近期基准在评估流程上各不相同,但它们共享同一个原则:一个有用的具身世界模型必须支持下游决策,而不仅仅是生成真实感强的内容。 WorldArena(Shang et al., 2026)明确体现了这一点:它不仅使用感知标准来评估世界模型,还通过合成数据生成、策略评估和动作规划等功能角色来评估世界模型,从而突出视觉真实感与具身效用之间的差距。 WorldEval(Li et al., 2025e)通过比较式策略评估将这一思想具体化,它关注的是在学习得到的世界模型中展开的轨迹,是否能够保持不同机器人策略和不同检查点之间的相对排序。 WorldGym(Quevedo et al., 2025)进一步扩展了这一设定,它将学习得到的模型视为用于 Monte Carlo 评估的交互式环境,重点关注估计出的策略价值和成功趋势是否与真实世界中的结果一致。 在这些工作中,相比像素级准确性,排序一致性、价值保真度和决策可靠性成为更有信息量的评估标准。

这种评估的更严格版本,是将世界模型直接放入闭环规划流程中,并测量具身任务的成功情况。 World-in-World(Zhang et al., 2025a)是这一设定的代表:它提供了一个统一接口,用于将异构世界模型整合到在线规划任务中,并测试模型是否能够在反复预测和重新规划的过程中改善控制。 这比开环展开评估更加困难,因为它会暴露预测和动作随时间交互时产生的误差累积问题。 总体来看,近期证据表明,视觉合理性只能作为控制效用的一个较弱代理指标;相比之下,基于动作的连贯性和可控性,是衡量下游具身效用更加可靠的指标。

7.1.3 物理一致性、可控性与可执行性诊断

开环基准评估预测质量,闭环基准评估下游效用,而诊断性基准则提出一个更加有针对性的问题:生成展开中的哪些性质决定了它是否真正可用于具身控制? 这一维度关注预测出的未来是否保留了执行所需的物理结构和动作相关结构,包括与动力学的一致性、对动作干预的响应能力,以及能否恢复为有效控制信号。 它并不是测量整体预测质量或最终任务成功率,而是探查一些具体失败模式;这些失败模式往往能够解释为什么视觉上合理的展开仍然会在规划、策略评估或执行中失败。

WorldSimBench(Qin et al., 2025)是这一方向的代表性基准。 它将感知评估与操作评估结合起来,不仅询问生成视频看起来是否真实,还询问这些视频是否与动作和环境动力学保持足够一致,以支持逆动力学恢复和下游控制。 WoW-World-Eval(Fan et al., 2026)提供了一个更广泛但密切相关的视角。 尽管它涵盖感知、规划、预测、执行和泛化等方面,但它在这里尤其相关,因为它引入了面向物理规律和执行的评价标准,其中包括一个基于 IDM 的图灵测试,用来判断生成视频是否能够诱导出合理且可执行的动作。 这些基准共同表明,仅有视觉合理性是不够的:生成的展开还必须保留具有物理基础且操作上可执行的动作后果。 相关证据也出现在自动驾驶等相邻领域中。 DrivingGen(Zhou et al., 2026)评估生成式驾驶世界模型时,不仅考察视觉真实感,还考察轨迹合理性、时间连贯性,以及在自车条件下的可控性。 其结果揭示了外观质量与物理可靠运动生成之间的权衡关系,并进一步强化了一个更广泛的观点:动作条件世界模型应当根据与控制相关的动力学来判断,而不是仅仅根据视觉吸引力来判断。

一个互补性的诊断方向则考察世界建模本身所依赖的组成能力。 WM-ABench(Gao et al., 2025b)正适合这一角色,它将评估分解为若干原子能力,例如空间和时间理解、运动感知、机制性模拟,以及受控反事实推理。 尽管这类基准并不直接测试展开的可执行性,但当模型在更加综合的开环或闭环设定中失败时,它们有助于识别模型缺失了哪些内部预测能力或因果能力。

总体来看,这三类基准共同构成了一个用于具身世界模型的分层评估框架。 开环基准测试模型能否生成连贯的动作条件未来;闭环基准测试这些预测是否仍然对规划和策略评估有用;诊断性基准则测试生成的未来是否具有物理基础、是否可控、是否可执行。 它们共同突出了近期工作中的一个更广泛经验:没有任何单一指标足以完成具身世界模型评估。 一个强大的模型不仅必须预测合理的未来,还必须保留可靠控制所需的动作相关结构。

7.2 用于世界模型训练的数据集

基准规定了具身世界模型应当如何被评估,而与之互补的是,训练数据集决定了这类模型最初能够从哪些类型的经验中学习。 对于具身智能而言,这类数据并不仅仅是视频集合,而是智能体—环境状态转移的样本;这些样本可能将观测与动作、任务进展、特定具身形态约束以及物理交互动力学耦合在一起。 因此,一个数据集的价值并不只由规模大小决定,而取决于它是否提供了足够丰富的动作条件状态转移、长时程任务结构、跨场景和跨具身形态的多样性,以及对操作相关物理信号的覆盖。 这些属性共同决定了世界模型是否能够获得真正有助于预测、规划和控制的动力学先验。

在这里插入图片描述

现有与具身世界模型训练相关的资源,通常很难用单一分类体系进行准确刻画。 某一个数据集可能同时作为通用轨迹语料库、跨具身形态聚合资源、人到机器人迁移先验,以及多模态交互数据集。 因此,我们并不强行将数据集划分到彼此互斥的类别中,而是沿着若干互补维度对它们进行比较。 表 3 总结了这些数据集的核心数据属性,包括具身形态覆盖范围、动作监督、观测与 3D 支持、语言条件,以及多模态或富接触信号。 表 4 则进一步按照这些资源最可能支持的世界建模能力,对同一批资源进行组织;这些能力包括通用轨迹预训练、长时程建模、跨具身形态扩展、人类先验迁移、接触感知和物理感知建模,以及合成数据或配方驱动的数据扩展。 综合来看,这些比较表明,当前训练资源更适合被理解为分布在若干并行轴线上,而不是落入彼此割裂的类别之中。 大规模机器人轨迹语料库提供了动作条件预测所需的基本状态转移覆盖,而跨具身形态数据集则促进模型学习能够在不同平台之间迁移的动力学先验。 人类视频和人到机器人迁移资源提供了另一条学习交互规律的路径,使模型能够超越仅由机器人采集轨迹所提供的经验;而包含触觉、力觉和丰富接触信息的数据集,则对于奠定可执行性和物理一致性尤其重要。 与此同时,合成数据和聚合式数据配方拓宽了训练过程中可控变化的范围。 这种多轴视角也揭示了当前领域的一个核心局限:尽管可用资源正在快速增长,但与大规模成功示范相比,失败恢复、决策敏感变化,以及密集的物理基础监督仍然要稀缺得多。

在这里插入图片描述

7.3 常用基准上的代表性结果

在前文关于评估协议和训练数据的讨论基础上,我们简要总结常见下游操作基准上的代表性结果。 由于具身世界模型的评估标准通常依赖于具体基准,因此我们重点关注任务成功率以及与之密切相关的完成度指标;这些指标是下游性能中最常被报告、也最容易直接比较的指标。

在这里插入图片描述

表 5 和表 6 汇总了近期具身世界模型以及世界模型相关方法的代表性结果。 为清晰起见,我们根据世界建模如何与策略学习相结合来对方法进行分组,包括解耦式流程、共享骨干网络设计、基于混合结构的架构、统一 VLA 风格形式,以及潜在空间世界模型变体。 尽管这些类别并非严格互斥,但它们提供了一个有用的高层视角,用于理解不同设计之间的差异。

在这里插入图片描述

表 5 关注 LIBERO(Liu et al., 2023a)的标准四套件设置。 我们保留了 Spatial、Object、Goal 和 Long 四个套件的细分结果,因为即使一些方法的平均表现相近,它们在不同子集上的表现仍然可能存在显著差异。 表 6 则进一步补充了 RoboTwin 2.0(Chen et al., 2025d)、CALVIN(Mees et al., 2022)和 SIMPLER-style(Li et al., 2025d)基准上的结果。 这些评估在具身形态和评估协议方面更加异质,因此不太适合用于严格排名,但仍然有助于揭示跨基准的性能变化。

有几个现象值得注意。 首先,强性能结果并不局限于某一种架构范式:在解耦式、共享骨干网络、统一式、基于混合结构以及潜在预测式设计中,都出现了具有竞争力的表现。 这表明,世界建模对具身控制的作用并不绑定于某一种具体实现方式。 其次,LIBERO 的细分结果表明,长时程操作仍然是区分不同方法能力的关键因素。 虽然许多方法已经在 Spatial 和 Object 套件上表现强劲,但在 Goal,尤其是 Long 套件上,更大的性能下降更加常见;在这些套件中,成功更依赖于模型在较长轨迹中持续保持基于动作的连贯性。

RoboTwin、CALVIN 和 SIMPLER-style 基准上的结果进一步支持了这一点,同时也突出了更强的基准依赖性。 与 LIBERO 相比,这些设定更加碎片化,并且在某一个基准上的强表现并不一定能够迁移到另一个基准上。 这表明,当前具身世界模型仍然对具身形态、动作空间、任务组成和评估协议之间的差异较为敏感。

总体来看,这些结果表明了三个结论。 第一,具身世界模型已经在标准下游操作基准上展现出很强的实际效用。 第二,高性能可以来自多种设计范式,这表明照片级真实的视频生成并不是实现有效具身控制的必要条件。 第三,当前仍然存在的主要挑战在于长时程鲁棒性、跨基准泛化能力,以及不同平台之间缺乏标准化报告。


8 挑战与未来方向

尽管世界模型在机器人学习中展现出很大潜力,但要将其可靠地部署到复杂具身任务中,仍然受到若干核心挑战的限制,而这些挑战并不是简单扩大规模就能解决的。 当前系统必须解决以下问题:动作依赖动力学中的因果条件缺口、训练和推理中的效率瓶颈、非视觉感知反馈整合不足,以及缺乏一种关注功能效用而非视觉真实感的标准化评估体系。 另一个重要前沿是符号化和结构化抽象:尽管像素空间或潜在空间预测很强大,但长时程推理可能需要以物体为中心的、关系式的,或类似规则的结构,从而为规划和控制提供更加紧凑的接口。 在本节中,我们讨论这些挑战,并概述未来方向,以推动面向具身智能体的可靠、高效且可行动的世界模型发展。

8.1 因果条件缺口

当前 VLA 框架通常将世界模型与逆动力学结合起来(Li et al., 2026b; Ye et al., 2026b; Team et al., 2026),使用未来状态预测来正则化策略学习。 然而,当预测未来更多地受历史上下文或任务意图影响,而不是受即将执行的具体机器人动作影响时,就可能出现因果错位。 在这种情况下,世界模型可能会生成语义上合理或与意图一致的未来,但这些未来未必忠实于候选动作所造成的物理后果。 这限制了它在精确闭环控制中的 usefulness,因为闭环控制的关键要求不仅是预测一个可能的未来,还要预测未来会如何在机器人自身干预下发生变化。

其技术瓶颈在于动作条件较弱:许多预测式世界模型的目标主要基于观测历史和任务意图进行训练,因此它们生成的未来可以是合理的,却不一定与即将执行的机器人动作存在因果绑定关系。 为了减少这种不匹配,WorldVLA(Cen et al., 2025)采用隐式统一训练策略,将未来状态预测与动作生成耦合起来,从而鼓励形成更加与策略对齐的预测动力学。

8.2 效率瓶颈

基于世界模型的策略比 VLA 模型需要更多计算资源,尤其是在训练和推理阶段都是如此。 这种开销产生的原因在于,模型要么需要联合预测未来视频和动作,要么需要在策略学习之前进行微调;由于模型规模大且环境动力学复杂,这使得适配成本很高。 参数高效策略,例如轻量级适配器,可以通过基本冻结基础模型来缓解这一问题。 效率问题同样出现在推理阶段,尤其是在基于扩散的视频预测中,迭代去噪过程会造成较高延迟。 Mimic Video(Pai et al., 2025)和 LingBot-VA(Li et al., 2026b)等近期方法通过部分去噪来缓解这一问题。 这些方法优先关注运动动力学,而不是细粒度视觉细节,从而在不付出完整重建成本的情况下捕捉决策所需的关键线索。

更根本地说,近期方法开始从整体上重新思考世界模型。 潜在空间模型,例如 LeWorldModel(Maes et al., 2026),通过关注预测性表示而不是完整的高维生成,降低了训练和推理成本。 Fast-WAM(Yuan et al., 2026)等新兴范式进一步将世界建模与部署解耦:它们仅在训练阶段使用世界建模来增强表示,而在推理阶段将其移除。

8.3 多模态感知瓶颈

当前世界模型擅长视觉合成,但仍然与真实世界交互的物理动力学相脱节。 主要依赖视觉和本体感知,无法捕捉摩擦、刚度和接触稳定性等不可直接观测的属性。 为了解决这些问题,整合触觉感知和力反馈(Tang et al., 2026; Huang et al., 2025a)对于提供真实交互信号是不可或缺的。 近期视觉—触觉模型(Higuera et al., 2026; Zheng et al., 2026)已经开始通过学习联合潜在表示来解决这一问题,从而增强模型在富接触任务中的鲁棒性。

一个重要的架构挑战在于,如何对齐具有不同频率和维度的异步信号。 触觉传感器能够捕捉高频瞬态事件,但在联合潜在优化过程中,其低维信号常常会被高维视觉特征稀释或淹没(Chen et al., 2025c)。 有效平衡这些异质输入,对于防止视觉主导,并确保稀疏视觉语义能够与密集物理反馈融合至关重要;这是迈向物理感知机器人智能的关键一步。

8.4 与经典控制的整合

世界模型可以作为前向动力学模型,通过 MPC 进行主动规划(Hansen et al., 2022, 2024; Maes et al., 2026)。 通过优化动作序列以最小化累计代价,智能体利用想象展开将反应式执行与策略性推理连接起来。 然而,一个主要瓶颈是巨大的计算开销。 MPC 需要通过世界模型反复展开来优化动作,这显著限制了高容量模型在动态环境中的实时部署。

与解析运动学不同,世界模型捕捉的是智能体及其环境的联合随机演化过程。 一个关键前沿在于,如何将这种神经网络表达能力与形式化控制保证相协调,例如 Lyapunov 稳定性或鲁棒控制(Jia et al., 2025a)。 将学习到的动力学与现有成熟控制原则融合起来,而不仅仅是与 MPC 融合,为构建能够在非平稳、开放世界环境中运行的自适应机器人系统提供了一条潜在路径。

8.5 符号结构整合

尽管本文主要关注视觉世界模型和潜在世界模型,但符号世界模型提供了一个重要的互补方向。 它们不是预测像素,而是在结构化状态上运行,例如物体、关系、谓词或占据图,从而实现更加稳定且可组合的预测。 基于像素的展开有一个关键局限,即长时程误差累积,这会降低规划可靠性。 符号表示通过抽象掉低层细节,并建模离散的或基于规则的状态转移来缓解这一问题,从而支持在更长时程上进行更加可靠的推理。 然而,符号方法通常需要合适的抽象和感知 grounding;当高维观测无法被清晰映射到预定义符号时,它们可能会遇到困难。 因此,一个有前景的方向是构建混合世界模型,将学习到的感知表示与符号结构结合起来(Liang et al., 2026, 2025c; Shah et al., 2025)。 这一方向很有吸引力,因为现实世界很大程度上本身就是结构化的:从数据中学习到的以物体为中心或关系式抽象,再结合生成模型中的符号约束,可能为可扩展且可靠的长时程世界建模提供一条有原则的路径。

8.6 评估指标中的开放挑战

具身世界模型面临的另一个挑战,是缺乏被广泛接受的评估指标。 不同于传统视频生成通常以感知保真度为核心,具身世界模型最终要根据其对决策的功能价值来评判(Shang et al., 2026; Zhang et al., 2025a)。 一个模型可能生成视觉上合理的未来,但仍然无法保留动作条件动力学、因果一致性或可控性,而这些对于策略学习和闭环执行都是至关重要的。 反过来说,有限的视觉真实感并不必然排除模型在规划或策略评估中的 usefulness(Quevedo et al., 2025)。 因此,评估本质上仍然是多维度的,涵盖预测质量、下游控制效用和物理可执行性(Fan et al., 2026);而当前比较仍然分散在不同基准和协议之中。

因此,一个关键方向是发展功能感知的评估框架,使其能够更好地反映世界模型的预期角色。 未来指标不应仅依赖外观驱动的分数,而应联合评估预测真实度、动作敏感性、长时程一致性和控制效用。 一个实际目标是建立一组紧凑的标准化指标,例如任务成功率、策略排序保真度,以及面向可执行性的诊断指标,从而能够在不同任务和具身形态之间进行更一致的比较,并区分视觉上合理的模型与真正可行动的模型。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐