机器人路线之争:WAMs和VLAs泛化能力对比

论文:DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY

机构:华为与多伦多大学


机器人具身操作领域首次在统一基准、统一扰动、统一评估协议下,对 视觉‑语言‑动作模型(VLA)世界动作模型(WAM) 两大技术路线开展的全面对比。文章不预设立场、不偏向任何范式,以实验数据回答行业最关心的问题:世界模型带来的 “物理预测能力”,是否真的让机器人在真实干扰环境中更稳、更通用,并清晰揭示两类模型的能力边界、内在机理与工程落地代价

这个博客介绍了VLA和WAM的发展,值得一看:VLA与WAM的路线之争

1. 介绍

在真实场景中,机器人执行抓取、装配、整理等任务,面临光照变化、相机抖动、背景杂乱、物体位置偏移等大量不可控干扰。能否在扰动下稳定完成任务,直接决定技术能否落地。

当前主流解决方案分为两条路径:

  • 视觉‑语言‑动作模型(VLA)

    VLM为基础,将视觉观测、语言指令、本体直接映射为机器人动作。它是目前最成熟、部署最广泛的方案,优势是推理速度快、工程链完善;但依赖大量机器人演示数据,对未见过的环境扰动鲁棒性不足。

​ 代表工作:RT-1 / RT-2,Octo,OpenVLA,π0 系列,CoT-VLA,SimpleVLA-RL等

  • 世界动作模型(WAM)

    以视频生成世界模型为基础,先学习海量互联网视频中的时空演化规律,基于文本指令、视觉观察和本体状态作为输入,能够 “预测未来状态”,再基于预测生成动作。这类模型被认为具备更强的物理理解与泛化能力,但推理开销大、实际鲁棒性缺乏系统性验证。

    • 基于视频生成的策略模型

      代表工作:Video Prediction Policy (VPP),mimicvideo / GE-Act,Cosmos-Policy,LingBot-VA / DreamZero

    • 提升实时性能与推理效率

      代表工作:GigaWorld-Policy、Fast-WAM

      特性 说明
      Backbone 预训练世界模型骨干,轻量级修改以编码机器人状态
      架构 1. 统一 transformer(Cosmos-Policy, GigaWorld-Policy)2. Mixture-of-transformers(GE-Act, Fast-WAM)
      训练目标 预测未来视觉状态 + 动作,通常需大规模机器人数据预训练
      因果建模 LingBot-VA:动作依赖预测视觉;Cosmos-Policy/DreamZero:联合去噪视觉+动作;GigaWorld-Policy:视频条件化于动作
      自回归生成 GE-Act / LingBot-VA / DreamZero,用于历史上下文建模,提高时间一致性

在这里插入图片描述

核心差异:VLA 与 WAM 的本质机理区别

论文从以下几个层面界定了两类模型的不同:

特性 VLAs WAMs
Backbone 视觉-语言模型(VLM),预训练用于next token 预测 预训练的视频生成模型
训练策略 VLM 预训练(静态图像文本) → embodied pre-training(动作/多模态) → 任务微调 大规模视频预训练 → embodied robot pre-training(预测视觉+动作) → 任务微调
预测方式 直接预测动作 联合/分阶段预测视觉+动作
预测能力 擅长高层语义理解 捕捉精细动态和物理规律

下面表2总结了几个有影响力的VLA、WAM和混合方法使用的训练数据集
在这里插入图片描述

2. 实验

双基准 + 七维扰动,保证严谨与公平

为避免单一环境带来的偏差,研究采用两个互补的强化基准,并统一施加7 大类共 21 项扰动,高度贴近真实工业与家庭场景。

2.1 实验平台

  • LIBERO‑Plus:单臂 7 自由度机器人,40 项桌面操作任务,侧重精细操作鲁棒性;

  • RoboTwin 2.0‑Plus:双臂 14 自由度机器人,50 项协作操作任务,侧重双臂协调稳定性。

    七大类扰动维度:

    • 机器人初始状态扰动:关节位置、夹爪状态随机化

    • 相机视角扰动:距离、角度、朝向变化

    • 语言指令扰动:同义改写、增加干扰、目标式描述

    • 光照扰动:颜色、强度、阴影、高光变化

    • 背景扰动:材质、纹理、颜色替换

    • 传感器噪声扰动:模糊、雾化、畸变

    • 物体布局扰动:干扰物数量、目标位姿变化

    LIBERO Plus主要评估在扰动下的单臂灵活性,而RoboTwin 2.0-Plus则侧重于双手协调的鲁棒性。

在这里插入图片描述

2.3 评估指标

  • 任务成功率:衡量扰动下的操作鲁棒性;
  • 单块动作推理时间:衡量落地部署的实时性

2. 4 实验结果

在这里插入图片描述

在这里插入图片描述

3. 实验结论

本文围绕四个核心问题展开研究分析:

  • 基于WAM的policy对扰动是否鲁棒
  • WAMs的性能优势是否在所有干扰类型中都成立?
  • 如何解释VLA和WAMs之间的性能差异
  • 二者的推理速度差异?

3.1 四类关键发现

  • 回答问题1:WAM 在视觉类扰动中具备显著鲁棒优势
    • WAMs 鲁棒性优势: 对视觉外观类(光照变化、图像噪声、背景杂乱、物体布局)表现更鲁棒,普遍优于 VLAs,主要因为:WAM 从海量视频中学习到了时空动态先验,能够在画面外观发生变化时,依然抓住物体与场景的本质结构。
    • 混合模型启示:MOTUS、VLA‑JEPA 等在 VLA 基础上引入世界模型辅助任务的混合架构,鲁棒性高于普通 VLA,但原生 WAM(直接在视频潜在空间操作)仍优于混合策略

在这里插入图片描述

  • 回答问题2:WAM 存在明确短板:几何配置类扰动鲁棒性不足

    • WAMs 对视觉扰动表现优异,尤其是光照、噪声、布局扰动;对复杂扰动(相机视角、初始状态背景变化)仍存在挑战,这是因为视频预训练只学习动态外观,无法覆盖相机几何、机器人运动学结构等物理本体配置变化
    • 训练数据多样性至关重要
      • 多样化训练 + 视频骨干时空先验 → 高鲁棒性
      • 单一训练数据 → 对扰动敏感,即使有视频骨干也无法完全抵抗扰动
  • 回答问题3:顶级 VLA 可通过数据多样性达到超越 WAM 的鲁棒性

    • WAM建立在经过预训练的视频生成模型之上,视频生成骨干提供的 spatiotemporal priors(时空先验),能有效捕捉物理动态和时间依赖,减少下游任务对大量多样化训练数据的依赖
    • VLA采用静态图像-文本预训练 → 缺乏动态先验, 需要额外多样化视频数据和复杂训练才能达到类似鲁棒性。若想提升,可以动态时空知识注入混合视频预训练,例如VLA-JEPA and MOTUS融合人类视频

​ π0.5作为经典 VLA 模型,未使用世界模型结构,但依靠大规模多源数据训练(机器人数据 + 互联网图文与视频数据),在 LIBERO‑Plus 上实现 85.7% 的成功率,超过所有参评 WAM。结果直接说明:显式世界建模并非鲁棒性的唯一来源,数据规模、多样性与训练策略同样可以让 VLA 达到顶尖水平

在这里插入图片描述

  • 回答问题4:WAM 的推理速度明显慢于 VLA

    • WAMs的主要局限性:运行速度较慢,主要归结于去噪步骤和状态生成、骨干模型大小(2B-5.3B参数)、生成策略(联合去噪与单独动作解码)以及是否采用自回归生成

    • 这使得 WAM 在需要高频、实时控制的场景中,目前难以直接部署。

3.3 总结

研究结论与技术选型指南

本文给出中立且明确的结论:

  • WAM 在视觉干扰多、数据稀缺的场景更具优势,但对相机与本体几何变化敏感,且推理速度慢;

  • VLA 在数据充足、需要实时控制的场景更实用,可以通过数据多样性可以弥补显式世界建模的缺失,顶级 VLA 的鲁棒性可超越 WAM,例如π0.5整合不同的机器人和网络数据;

  • 混合架构是现阶段的折中方案,但仍需优化先验融合方式;

未来方向:提升 WAM 推理效率、增强模型对几何配置变化的鲁棒性、实现 VLA 与 WAM 的深度融合。

这篇论文在于把已有各自论文中宣称的泛化性,放到一个统一的评测框架下接受检验,但实验都是在仿真中进行的,没有真机实验,这一点非常致命

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐