【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试

萌新一个啥都不会

196人浏览 · 2026-06-10 12:36:13

萌新一个啥都不会 · 2026-06-10 12:36:13 发布

快速了解部分

基础信息：

题目: WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform
时间: 2026.05
机构: THU
3个英文关键词: World Model, Embodied Intelligence, Benchmark

1句话通俗总结

通过把评测标准从“光看视频像不像”升级到“多模态感知+真动手干活+现实世界测试”，逼出真正能用的具身世界模型。

研究痛点

现有评测只看模型生成的视频画面是否逼真，导致模型“眼高手低”：视频看着很真，但机器人拿它练不出真本事，一到现实世界就抓瞎。

核心方法

搞个新评测基准 WorldArena 2.0，在三个维度动刀：加触觉（Visuotactile）、让模型当训练场（Interactive RL Env）、以及必须去真实机器人上跑（Real-World）。

深入了解部分

作者核心主张

别再只盯着视频生成质量了，评测世界模型的唯一标准，应该是它能不能帮机器人在真实世界里把活干成。

创新本质

相比 SOTA，真正新在“功能定义”和“评测平台”：把世界模型从单纯的“视频预测器”重新定义为“可交互的强化学习环境”。

方法直觉解释

输入是视觉画面+触觉信号，模型不仅要预测下一帧画面，还要能被策略网络反复调用进行“脑内模拟训练”，最后把练好的策略直接部署到真实机械臂上跑任务。

关键实现细节

触觉注入：用 Tactile VAE 把触觉数据编码进视频 latent space，不改原模型架构直接插件式升级。
闭环 RL 评测：用世界模型替代 simulator 训练策略（如 GRPO 算法），看策略迁移到真机后的成功率。

技术传承

继承自 WorldArena (v1)，保留了感知质量评测；但把下游任务从简单的“动作规划”升级到了复杂的“在线策略优化（RL）”。

实验验证（只列最关键的2-3个）

exp1: Visuotactile Evaluation (UniVTAC Sim)

设置: 对比加了触觉后的模型在插 HDMI 和提瓶子任务的成功率
数据: UniVTAC simulator
结论: Wan2.2 加触觉后插 HDMI 成功率达 100%，证明触觉对接触丰富任务至关重要。
exp2: Real-World Evaluation (AgileX ALOHA)
设置: 在真实机器人上测“倒水”和“擦桌子”任务
数据: AgileX Split-Type ALOHA platform
结论: 现有模型在仿真里表现尚可，但迁移到真机后成功率断崖式下跌，揭示了巨大的 sim-to-real gap。

强相关文献（3篇）

WorldArena: A unified benchmark for evaluating perception and functional utility of embodied world models <2026>
UniVTAC: A unified simulation platform for visuo-tactile manipulation data generation, learning, and benchmarking <2026>
WorldSimBench: Towards video generation models as world simulators <2024>

局限与适用边界

目前真实世界任务成功率普遍偏低，模型还撑不起直接部署；现阶段最适合用来筛选有潜力的模型架构，或者做仿真内的算法验证。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【新手友好】Win10 系统 OpenClaw v2.7.9 安装教程本地 AI 智能体一键部署（含安装包）

AtomGit开源社区

AI学伴软件怎么选？家长真实经验：看透底层逻辑，告别盲目跟风

选择AI学伴，请务必超越表面的功能演示和广告宣传。我的孩子最核心的问题是什么？（是知识？方法？习惯？还是动力？我希望通过这个软件，最终让孩子获得什么？（是某次考试分数，还是终身受益的学习能力？这个产品的底层逻辑，是否真的能系统性地解决我孩子的问题？记住，最好的选择，是那个能看懂孩子学习底层逻辑，并用科学方法陪伴他一步步重建学习系统的“伙伴”。希望这份基于真实经验的深度分析，能帮助你拨开迷雾，为孩子

AtomGit开源社区

2026年短视频矩阵工具横评：乌拉工具箱、蚁小二、易媒助手谁更胜一筹？

无论选择哪款工具，请务必遵守各平台的用户协议和相关法律法规。本工具仅用于提高内容分发效率，帮助创作者将优质内容触达更多人。我们不提供任何刷量、刷赞、批量生成低质内容的功能。请合规使用，才能长久运营。2026年，短视频矩阵竞争已进入“效率战”阶段。选对工具，就是赢在起跑线。**AI内容标识：**本文部分内容由人工智能辅助生成，已由人工审核校对。