机器人操作路线之争:WAMs对比VLAs
机器人路线之争:WAMs和VLAs泛化能力对比
论文:DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY
机构:华为与多伦多大学
机器人具身操作领域首次在统一基准、统一扰动、统一评估协议下,对 视觉‑语言‑动作模型(VLA)与世界动作模型(WAM) 两大技术路线开展的全面对比。文章不预设立场、不偏向任何范式,以实验数据回答行业最关心的问题:世界模型带来的 “物理预测能力”,是否真的让机器人在真实干扰环境中更稳、更通用,并清晰揭示两类模型的能力边界、内在机理与工程落地代价
这个博客介绍了VLA和WAM的发展,值得一看:VLA与WAM的路线之争
1. 介绍
在真实场景中,机器人执行抓取、装配、整理等任务,面临光照变化、相机抖动、背景杂乱、物体位置偏移等大量不可控干扰。能否在扰动下稳定完成任务,直接决定技术能否落地。
当前主流解决方案分为两条路径:
-
视觉‑语言‑动作模型(VLA)
以VLM为基础,将视觉观测、语言指令、本体直接映射为机器人动作。它是目前最成熟、部署最广泛的方案,优势是推理速度快、工程链完善;但依赖大量机器人演示数据,对未见过的环境扰动鲁棒性不足。
代表工作:RT-1 / RT-2,Octo,OpenVLA,π0 系列,CoT-VLA,SimpleVLA-RL等
-
世界动作模型(WAM)
以视频生成世界模型为基础,先学习海量互联网视频中的时空演化规律,基于文本指令、视觉观察和本体状态作为输入,能够 “预测未来状态”,再基于预测生成动作。这类模型被认为具备更强的物理理解与泛化能力,但推理开销大、实际鲁棒性缺乏系统性验证。
-
基于视频生成的策略模型
代表工作:Video Prediction Policy (VPP),mimicvideo / GE-Act,Cosmos-Policy,LingBot-VA / DreamZero
-
提升实时性能与推理效率
代表工作:GigaWorld-Policy、Fast-WAM
特性 说明 Backbone 预训练世界模型骨干,轻量级修改以编码机器人状态 架构 1. 统一 transformer(Cosmos-Policy, GigaWorld-Policy)2. Mixture-of-transformers(GE-Act, Fast-WAM) 训练目标 预测未来视觉状态 + 动作,通常需大规模机器人数据预训练 因果建模 LingBot-VA:动作依赖预测视觉;Cosmos-Policy/DreamZero:联合去噪视觉+动作;GigaWorld-Policy:视频条件化于动作 自回归生成 GE-Act / LingBot-VA / DreamZero,用于历史上下文建模,提高时间一致性
-

核心差异:VLA 与 WAM 的本质机理区别
论文从以下几个层面界定了两类模型的不同:
| 特性 | VLAs | WAMs |
|---|---|---|
| Backbone | 视觉-语言模型(VLM),预训练用于next token 预测 | 预训练的视频生成模型 |
| 训练策略 | VLM 预训练(静态图像文本) → embodied pre-training(动作/多模态) → 任务微调 | 大规模视频预训练 → embodied robot pre-training(预测视觉+动作) → 任务微调 |
| 预测方式 | 直接预测动作 | 联合/分阶段预测视觉+动作 |
| 预测能力 | 擅长高层语义理解 | 捕捉精细动态和物理规律 |
下面表2总结了几个有影响力的VLA、WAM和混合方法使用的训练数据集
2. 实验
双基准 + 七维扰动,保证严谨与公平
为避免单一环境带来的偏差,研究采用两个互补的强化基准,并统一施加7 大类共 21 项扰动,高度贴近真实工业与家庭场景。
2.1 实验平台
-
LIBERO‑Plus:单臂 7 自由度机器人,40 项桌面操作任务,侧重精细操作鲁棒性;
-
RoboTwin 2.0‑Plus:双臂 14 自由度机器人,50 项协作操作任务,侧重双臂协调稳定性。
七大类扰动维度:
-
机器人初始状态扰动:关节位置、夹爪状态随机化
-
相机视角扰动:距离、角度、朝向变化
-
语言指令扰动:同义改写、增加干扰、目标式描述
-
光照扰动:颜色、强度、阴影、高光变化
-
背景扰动:材质、纹理、颜色替换
-
传感器噪声扰动:模糊、雾化、畸变
-
物体布局扰动:干扰物数量、目标位姿变化
LIBERO Plus主要评估在扰动下的单臂灵活性,而RoboTwin 2.0-Plus则侧重于双手协调的鲁棒性。
-

2.3 评估指标
- 任务成功率:衡量扰动下的操作鲁棒性;
- 单块动作推理时间:衡量落地部署的实时性
2. 4 实验结果


3. 实验结论
本文围绕四个核心问题展开研究分析:
- 基于WAM的policy对扰动是否鲁棒
- WAMs的性能优势是否在所有干扰类型中都成立?
- 如何解释VLA和WAMs之间的性能差异
- 二者的推理速度差异?
3.1 四类关键发现
- 回答问题1:WAM 在视觉类扰动中具备显著鲁棒优势
- WAMs 鲁棒性优势: 对视觉外观类(光照变化、图像噪声、背景杂乱、物体布局)表现更鲁棒,普遍优于 VLAs,主要因为:WAM 从海量视频中学习到了时空动态先验,能够在画面外观发生变化时,依然抓住物体与场景的本质结构。
- 混合模型启示:MOTUS、VLA‑JEPA 等在 VLA 基础上引入世界模型辅助任务的混合架构,鲁棒性高于普通 VLA,但原生 WAM(直接在视频潜在空间操作)仍优于混合策略

-
回答问题2:WAM 存在明确短板:几何配置类扰动鲁棒性不足
- WAMs 对视觉扰动表现优异,尤其是光照、噪声、布局扰动;对复杂扰动(相机视角、初始状态、背景变化)仍存在挑战,这是因为视频预训练只学习动态外观,无法覆盖相机几何、机器人运动学结构等物理本体配置变化
- 训练数据多样性至关重要:
- 多样化训练 + 视频骨干时空先验 → 高鲁棒性
- 单一训练数据 → 对扰动敏感,即使有视频骨干也无法完全抵抗扰动
-
回答问题3:顶级 VLA 可通过数据多样性达到超越 WAM 的鲁棒性
- WAM建立在经过预训练的视频生成模型之上,视频生成骨干提供的 spatiotemporal priors(时空先验),能有效捕捉物理动态和时间依赖,减少下游任务对大量多样化训练数据的依赖
- VLA采用静态图像-文本预训练 → 缺乏动态先验, 需要额外多样化视频数据和复杂训练才能达到类似鲁棒性。若想提升,可以动态时空知识注入或混合视频预训练,例如VLA-JEPA and MOTUS融合人类视频
π0.5作为经典 VLA 模型,未使用世界模型结构,但依靠大规模多源数据训练(机器人数据 + 互联网图文与视频数据),在 LIBERO‑Plus 上实现 85.7% 的成功率,超过所有参评 WAM。结果直接说明:显式世界建模并非鲁棒性的唯一来源,数据规模、多样性与训练策略同样可以让 VLA 达到顶尖水平

-
回答问题4:WAM 的推理速度明显慢于 VLA
-
WAMs的主要局限性:运行速度较慢,主要归结于去噪步骤和状态生成、骨干模型大小(2B-5.3B参数)、生成策略(联合去噪与单独动作解码)以及是否采用自回归生成
-
这使得 WAM 在需要高频、实时控制的场景中,目前难以直接部署。
-
3.3 总结
研究结论与技术选型指南
本文给出中立且明确的结论:
-
WAM 在视觉干扰多、数据稀缺的场景更具优势,但对相机与本体几何变化敏感,且推理速度慢;
-
VLA 在数据充足、需要实时控制的场景更实用,可以通过数据多样性可以弥补显式世界建模的缺失,顶级 VLA 的鲁棒性可超越 WAM,例如π0.5整合不同的机器人和网络数据;
-
混合架构是现阶段的折中方案,但仍需优化先验融合方式;
未来方向:提升 WAM 推理效率、增强模型对几何配置变化的鲁棒性、实现 VLA 与 WAM 的深度融合。
这篇论文在于把已有各自论文中宣称的泛化性,放到一个统一的评测框架下接受检验,但实验都是在仿真中进行的,没有真机实验,这一点非常致命
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)