机器人操作路线之争：WAMs对比VLAs

行如流水

456人浏览 · 2026-05-18 10:42:57

行如流水 · 2026-05-18 10:42:57 发布

机器人路线之争：WAMs和VLAs泛化能力对比

论文：DO WORLD ACTION MODELS GENERALIZE BETTER THAN VLAS? A ROBUSTNESS STUDY

机构：华为与多伦多大学

机器人具身操作领域首次在统一基准、统一扰动、统一评估协议下，对 视觉‑语言‑动作模型（VLA）与世界动作模型（WAM） 两大技术路线开展的全面对比。文章不预设立场、不偏向任何范式，以实验数据回答行业最关心的问题：世界模型带来的 “物理预测能力”，是否真的让机器人在真实干扰环境中更稳、更通用，并清晰揭示两类模型的能力边界、内在机理与工程落地代价

这个博客介绍了VLA和WAM的发展，值得一看：VLA与WAM的路线之争

1. 介绍

在真实场景中，机器人执行抓取、装配、整理等任务，面临光照变化、相机抖动、背景杂乱、物体位置偏移等大量不可控干扰。能否在扰动下稳定完成任务，直接决定技术能否落地。

当前主流解决方案分为两条路径：

视觉‑语言‑动作模型（VLA）

以VLM为基础，将视觉观测、语言指令、本体直接映射为机器人动作。它是目前最成熟、部署最广泛的方案，优势是推理速度快、工程链完善；但依赖大量机器人演示数据，对未见过的环境扰动鲁棒性不足。

代表工作：RT-1 / RT-2，Octo，OpenVLA，π0 系列，CoT-VLA，SimpleVLA-RL等

世界动作模型（WAM）

以视频生成世界模型为基础，先学习海量互联网视频中的时空演化规律，基于文本指令、视觉观察和本体状态作为输入，能够 “预测未来状态”，再基于预测生成动作。这类模型被认为具备更强的物理理解与泛化能力，但推理开销大、实际鲁棒性缺乏系统性验证。

基于视频生成的策略模型

代表工作：Video Prediction Policy (VPP)，mimicvideo / GE-Act，Cosmos-Policy，LingBot-VA / DreamZero

提升实时性能与推理效率

代表工作：GigaWorld-Policy、Fast-WAM

特性	说明
Backbone	预训练世界模型骨干，轻量级修改以编码机器人状态
架构	1. 统一 transformer（Cosmos-Policy, GigaWorld-Policy）2. Mixture-of-transformers（GE-Act, Fast-WAM）
训练目标	预测未来视觉状态 + 动作，通常需大规模机器人数据预训练
因果建模	LingBot-VA：动作依赖预测视觉；Cosmos-Policy/DreamZero：联合去噪视觉+动作；GigaWorld-Policy：视频条件化于动作
自回归生成	GE-Act / LingBot-VA / DreamZero，用于历史上下文建模，提高时间一致性

在这里插入图片描述

核心差异：VLA 与 WAM 的本质机理区别

论文从以下几个层面界定了两类模型的不同：

特性	VLAs	WAMs
Backbone	视觉-语言模型（VLM），预训练用于next token 预测	预训练的视频生成模型
训练策略	VLM 预训练（静态图像文本） → embodied pre-training（动作/多模态） → 任务微调	大规模视频预训练 → embodied robot pre-training（预测视觉+动作） → 任务微调
预测方式	直接预测动作	联合/分阶段预测视觉+动作
预测能力	擅长高层语义理解	捕捉精细动态和物理规律

下面表2总结了几个有影响力的VLA、WAM和混合方法使用的训练数据集
在这里插入图片描述

2. 实验

双基准 + 七维扰动，保证严谨与公平

为避免单一环境带来的偏差，研究采用两个互补的强化基准，并统一施加7 大类共 21 项扰动，高度贴近真实工业与家庭场景。

2.1 实验平台

LIBERO‑Plus：单臂 7 自由度机器人，40 项桌面操作任务，侧重精细操作鲁棒性；
RoboTwin 2.0‑Plus：双臂 14 自由度机器人，50 项协作操作任务，侧重双臂协调稳定性。

七大类扰动维度：
- 机器人初始状态扰动：关节位置、夹爪状态随机化
- 相机视角扰动：距离、角度、朝向变化
- 语言指令扰动：同义改写、增加干扰、目标式描述
- 光照扰动：颜色、强度、阴影、高光变化
- 背景扰动：材质、纹理、颜色替换
- 传感器噪声扰动：模糊、雾化、畸变
- 物体布局扰动：干扰物数量、目标位姿变化
LIBERO Plus主要评估在扰动下的单臂灵活性，而RoboTwin 2.0-Plus则侧重于双手协调的鲁棒性。

在这里插入图片描述

2.3 评估指标

任务成功率：衡量扰动下的操作鲁棒性；
单块动作推理时间：衡量落地部署的实时性

2. 4 实验结果

在这里插入图片描述

3. 实验结论

本文围绕四个核心问题展开研究分析：

基于WAM的policy对扰动是否鲁棒
WAMs的性能优势是否在所有干扰类型中都成立？
如何解释VLA和WAMs之间的性能差异
二者的推理速度差异？

3.1 四类关键发现

回答问题1：WAM 在视觉类扰动中具备显著鲁棒优势
- WAMs 鲁棒性优势：对视觉外观类（光照变化、图像噪声、背景杂乱、物体布局）表现更鲁棒，普遍优于 VLAs，主要因为：WAM 从海量视频中学习到了时空动态先验，能够在画面外观发生变化时，依然抓住物体与场景的本质结构。
- 混合模型启示：MOTUS、VLA‑JEPA 等在 VLA 基础上引入世界模型辅助任务的混合架构，鲁棒性高于普通 VLA，但原生 WAM（直接在视频潜在空间操作）仍优于混合策略

在这里插入图片描述

回答问题2：WAM 存在明确短板：几何配置类扰动鲁棒性不足
- WAMs 对视觉扰动表现优异，尤其是光照、噪声、布局扰动；对复杂扰动（相机视角、初始状态、背景变化）仍存在挑战，这是因为视频预训练只学习动态外观，无法覆盖相机几何、机器人运动学结构等物理本体配置变化
- 训练数据多样性至关重要：
  - 多样化训练 + 视频骨干时空先验 → 高鲁棒性
  - 单一训练数据 → 对扰动敏感，即使有视频骨干也无法完全抵抗扰动
回答问题3：顶级 VLA 可通过数据多样性达到超越 WAM 的鲁棒性
- WAM建立在经过预训练的视频生成模型之上，视频生成骨干提供的 spatiotemporal priors（时空先验），能有效捕捉物理动态和时间依赖，减少下游任务对大量多样化训练数据的依赖
- VLA采用静态图像-文本预训练 → 缺乏动态先验，需要额外多样化视频数据和复杂训练才能达到类似鲁棒性。若想提升，可以动态时空知识注入或混合视频预训练，例如VLA-JEPA and MOTUS融合人类视频

π0.5作为经典 VLA 模型，未使用世界模型结构，但依靠大规模多源数据训练（机器人数据 + 互联网图文与视频数据），在 LIBERO‑Plus 上实现 85.7% 的成功率，超过所有参评 WAM。结果直接说明：显式世界建模并非鲁棒性的唯一来源，数据规模、多样性与训练策略同样可以让 VLA 达到顶尖水平

在这里插入图片描述

回答问题4：WAM 的推理速度明显慢于 VLA
- WAMs的主要局限性：运行速度较慢，主要归结于去噪步骤和状态生成、骨干模型大小（2B-5.3B参数）、生成策略（联合去噪与单独动作解码）以及是否采用自回归生成
- 这使得 WAM 在需要高频、实时控制的场景中，目前难以直接部署。

3.3 总结

研究结论与技术选型指南

本文给出中立且明确的结论：

WAM 在视觉干扰多、数据稀缺的场景更具优势，但对相机与本体几何变化敏感，且推理速度慢；
VLA 在数据充足、需要实时控制的场景更实用，可以通过数据多样性可以弥补显式世界建模的缺失，顶级 VLA 的鲁棒性可超越 WAM，例如π0.5整合不同的机器人和网络数据；
混合架构是现阶段的折中方案，但仍需优化先验融合方式；

未来方向：提升 WAM 推理效率、增强模型对几何配置变化的鲁棒性、实现 VLA 与 WAM 的深度融合。

这篇论文在于把已有各自论文中宣称的泛化性，放到一个统一的评测框架下接受检验，但实验都是在仿真中进行的，没有真机实验，这一点非常致命

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

智慧透明化货场装载·存储·集散一体化管控方案

AtomGit开源社区

Linux系统篇（五）：Linux 进程控制全解：fork、exec、wait 核心原理与实战

AtomGit开源社区

python3 uvicorn 是啥？

它是一个 Python 的 ASGI Web 服务器，常用来运行 FastAPI、Starlette 这类异步 Web 应用。一句话：Uvicorn 就是用来把 FastAPI 这种 Python Web 应用跑起来的服务器。用 uvicorn 启动 app/main.py 里的 app 对象，让服务可以被外部访问，不只是本机访问。监听所有网卡地址 0.0.0.0，启动 Uvicorn 服务器。服