快速了解部分

基础信息:

  1. 题目: WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform
  2. 时间: 2026.05
  3. 机构: THU
  4. 3个英文关键词: World Model, Embodied Intelligence, Benchmark

1句话通俗总结

通过把评测标准从“光看视频像不像”升级到“多模态感知+真动手干活+现实世界测试”,逼出真正能用的具身世界模型。

研究痛点

现有评测只看模型生成的视频画面是否逼真,导致模型“眼高手低”:视频看着很真,但机器人拿它练不出真本事,一到现实世界就抓瞎。

核心方法

搞个新评测基准 WorldArena 2.0,在三个维度动刀:加触觉(Visuotactile)、让模型当训练场(Interactive RL Env)、以及必须去真实机器人上跑(Real-World)。

深入了解部分

作者核心主张

别再只盯着视频生成质量了,评测世界模型的唯一标准,应该是它能不能帮机器人在真实世界里把活干成。

创新本质

相比 SOTA,真正新在“功能定义”和“评测平台”:把世界模型从单纯的“视频预测器”重新定义为“可交互的强化学习环境”。

方法直觉解释

输入是视觉画面+触觉信号,模型不仅要预测下一帧画面,还要能被策略网络反复调用进行“脑内模拟训练”,最后把练好的策略直接部署到真实机械臂上跑任务。

关键实现细节

  1. 触觉注入:用 Tactile VAE 把触觉数据编码进视频 latent space,不改原模型架构直接插件式升级。
  2. 闭环 RL 评测:用世界模型替代 simulator 训练策略(如 GRPO 算法),看策略迁移到真机后的成功率。

技术传承

继承自 WorldArena (v1),保留了感知质量评测;但把下游任务从简单的“动作规划”升级到了复杂的“在线策略优化(RL)”。

实验验证(只列最关键的2-3个)

exp1: Visuotactile Evaluation (UniVTAC Sim)

  • 设置: 对比加了触觉后的模型在插 HDMI 和提瓶子任务的成功率
  • 数据: UniVTAC simulator
  • 结论: Wan2.2 加触觉后插 HDMI 成功率达 100%,证明触觉对接触丰富任务至关重要。
    exp2: Real-World Evaluation (AgileX ALOHA)
  • 设置: 在真实机器人上测“倒水”和“擦桌子”任务
  • 数据: AgileX Split-Type ALOHA platform
  • 结论: 现有模型在仿真里表现尚可,但迁移到真机后成功率断崖式下跌,揭示了巨大的 sim-to-real gap。

同类工作对比

  • WorldArena [10] <2026>: v1 版只测视频质量和离线策略,v2.0 升级为在线 RL 训练和真机测试。
  • WorldSimBench [7] <2024>: 只关注用视频生成控制信号,没涉及多模态和真实世界部署。
  • UniVTAC [12] <2026>: 提供了触觉数据集,本文基于它构建了标准化的触觉评测流水线。

强相关文献(3篇)

  • WorldArena: A unified benchmark for evaluating perception and functional utility of embodied world models <2026>
  • UniVTAC: A unified simulation platform for visuo-tactile manipulation data generation, learning, and benchmarking <2026>
  • WorldSimBench: Towards video generation models as world simulators <2024>

局限与适用边界

目前真实世界任务成功率普遍偏低,模型还撑不起直接部署;现阶段最适合用来筛选有潜力的模型架构,或者做仿真内的算法验证。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐