WorldArena竞赛冠军GE-Sim 2.0:面向机器人操作的全闭环视频世界模拟器
基于动作条件视频生成框架的机器人操作仿真与策略评估平台
来源:arXiv:2605.27491v1 | 研究团队:AgiBot、BUAA、LV-NUS Lab、TJU
在机器人学习进入规模化发展阶段的当下,如何构建高保真、可闭环、具备自主评估能力的仿真环境,已成为连接策略训练与真实部署的关键桥梁。GE-Sim 2.0(Genie Envisioner World Simulator 2.0)正是在这一背景下提出的新一代视频世界模拟器,该系统在仅使用20亿参数的条件下,登顶WorldArena公开排行榜,为机器人操作任务的仿真评估与闭环学习提供了全新的技术路径。
一、研究背景:从视频生成到世界模拟
近年来,机器人学习领域正在经历一场由大规模模型驱动的变革。以π0、RT-2、OpenVLA等为代表的视觉-语言-动作(VLA)策略模型,正在将机器人操作从传统的刚性物体抓取与放置,推向长时程、接触丰富、可变形物体的复杂任务领域。然而,随着策略模型规模的不断扩大,评估环节逐渐成为制约发展的瓶颈:真实机器人基准测试不仅成本高昂、周期漫长,且难以复现;而现有的机器人仿真平台在接触动力学、可变形物体建模、精细视觉外观以及机器人自身执行器特性等方面仍存在明显局限。
与此同时,生成式视频建模技术的飞速进步为这一困境提供了新的解决思路。经过海量网络视频训练的现代化视频生成器,能够在多样化的场景、物体与交互条件下合成高度逼真的画面,涵盖了许多传统手工构建仿真器难以复现的长尾情况。这催生了一种全新的技术范式——神经世界模拟器:给定初始观测和来自策略、人类或遥操作的动作轨迹,模型能够生成机器人在学习到的视觉世界中执行该行为的视频。通过用数据驱动的生成过程替代手工构建的物理与渲染管线,此类模拟器有望覆盖经典仿真引擎遗漏的长尾现实世界外观与交互,为现代操作策略的可扩展评估与闭环学习开辟道路。
已有研究工作(包括Ctrl-World、DreamDojo、GigaWorld以及GE-Sim等)开始探索面向操作任务的视频世界模拟器。这些工作的共同技术路线是将预训练的文本-图像到视频(TI2V)生成器重新定位为动作-图像到视频(AI2V)模拟器,核心挑战在于如何注入动作信号以确保生成视频忠实跟随给定轨迹。然而,现有系统在可变形物体上的保真度、分布外轨迹或失败轨迹的覆盖能力方面仍显不足。更为关键的是,即便视频生成质量再高,如果缺乏闭环交互能力,也无法构成可供策略模型使用的完整仿真环境。
二、GE-Sim 2.0 系统架构总览
GE-Sim 2.0在Genie Envisioner平台的基础上进行了全面升级,保留了前代系统的动作条件视频生成骨干网络,并在数千小时真实机器人数据上进行了重新训练。这些数据涵盖了大规模遥操作记录、接触丰富的臂-物体交互序列,以及物理机器人上策略部署期间采集的轨迹数据。在此坚实基础上,研究团队引入了三个核心模块,分别对应闭环世界模拟器所需的三大能力:
三大核心模块:(1)本体感知状态专家(Proprioceptive State Expert):从视频隐变量解码双臂关节角度与夹爪状态,为下游策略模型提供本体感知信息;(2)世界裁判(World Judge):基于视觉语言模型对生成轨迹进行逐帧评分,输出机器可验证的成功信号与奖励;(3)加速框架:通过分布匹配蒸馏将多步扩散推理压缩为少步推理,实现伪实时轨迹生成。

图1:GE-Sim 2.0 系统架构总览。系统接收长时程多视角历史帧与动作轨迹,生成动作条件化的多视角视频。本体感知状态专家从视频隐变量解码关节状态,世界裁判对生成轨迹进行任务完成度评分。
如图1所示,GE-Sim 2.0的输入包括长时程多视角历史帧(头部视角、左腕视角、右腕视角)以及经过末端执行器标定嵌入的动作轨迹。模型生成动作条件化的多视角视频,展示机器人执行指定行为的画面。在此基础上,两个互补模块完成闭环:本体感知状态专家解码双臂关节角度和夹爪状态,为下游策略模型的下一时段预测提供所需的状态信息;基于VLM的世界裁判则根据任务指令对生成轨迹进行评分,替代人工检查提供机器可验证的成功信号。
三、视觉专家:高保真动作条件视频生成
GE-Sim 2.0的视觉专家是一个动作条件化的多视角扩散模型,构成了整个模拟器的视觉骨干。它继承了GE-Base的块式自回归生成、稀疏记忆机制与多视角扩散Transformer架构。在每个自回归步骤中,网络输入通过通道拼接方式整合多种条件信息:16通道的噪声视频隐变量、6通道的逐像素光线图(Ray Map)、3通道的末端执行器姿态图(EE Pose Map),以及1通道的二值掩码区分记忆帧与待预测帧。
3.1 动作表征:光线图与姿态图
对于双臂机器人系统,每个控制步骤被编码为一个14维向量,包含双臂各7维末端执行器状态(位置、姿态、夹爪开合度)。为了将低维控制信号与视频模型的高维隐空间对齐,GE-Sim 2.0采用了两种视觉对齐的通道进行动作编码:光线图(Ray Map)和末端执行器姿态图(EE Pose Map)。
光线图针对每个像素构建世界坐标系中的光线,由原点与单位方向向量组成(共6通道)。由于摄像头随机器人运动,光线图相应变化,为视觉专家提供显式的相机几何先验,使其能够区分由视角运动引起的外观变化与场景中物体运动引起的变化。这对于腕部摄像头尤为重要,因为末端执行器相对于摄像头几乎静止,光线图承载了臂的大部分运动学信号。
末端执行器姿态图则遵循GE-Sim提出的Pose2Image方法,将双臂的未来末端执行器轨迹渲染到每个摄像头视角的图像空间中,生成与场景空间对齐的3通道姿态图。渲染过程包括姿态投影、深度感知渲染(距离摄像头越近,圆圈越大)以及夹爪开合度编码(通过连续色图将开合状态编码为颜色深浅)。这一统一的姿态级动作条件被视觉专家、本体感知状态专家和世界裁判共享使用。
3.2 记忆帧增强与训练策略
在闭环推理过程中,记忆帧来自模型自身的生成输出,不可避免地包含生成伪影与累积误差,与训练时使用的干净记忆帧存在分布差异。为缓解这一问题,GE-Sim 2.0在训练时引入了随机化的误差模拟机制,通过预编码扰动、局部退化以及多视角同步外观变化,近似自生成记忆帧的误差模式。具体而言,训练时以0.8的概率激活三种扰动:渐进噪声混合(沿时间轴混合高斯噪声)、局部高斯模糊(应用于覆盖约20%帧面积的连通区域)、以及多视角同步颜色抖动(在所有摄像头视角间共享相同的抖动参数以保持光照与颜色统计的一致性)。

图2:视觉专家与本体感知状态专家架构。视觉专家处理历史帧与动作条件生成未来视觉状态,本体感知状态专家消费视觉专家的中间特征预测双臂关节角度与夹爪开合度。
四、本体感知状态专家:填补视觉与状态的鸿沟
闭环交互不仅需要未来的视觉观测,还需要机器人的本体感知状态——这是现代策略模型进行下一时段动作预测的关键输入之一。视觉专家仅生成未来视频,并不直接暴露臂的本体感知状态。为填补这一空白,GE-Sim 2.0引入了本体感知状态专家,这是一个轻量级的Transformer分支,与视觉专家并行运行,从视觉专家产生的视觉上下文中预测对应时间区间内的本体感知状态序列。
本体感知状态采用关节空间表示:每个帧的状态是一个16维向量,由双臂各7维关节角度和夹爪开合度拼接而成。除了待预测的当前区间(包含未来帧)外,输入序列还包含历史帧的本体感知状态以及对应的历史与未来动作,总计构成多组token,其中仅未来本体感知状态token被加噪。
视觉信息通过视觉专家各层输出的可学习标量加权聚合,经LayerNorm归一化后形成融合视觉特征,作为本体感知状态专家各层交叉注意力模块的键与值。在多视角设置下,融合特征被重排为包含所有摄像头视角token的序列,使本体感知状态专家能够同时关注所有视角的视觉信息。
本体感知状态专家在冻结的视觉专家之上进行训练,采用与视觉专家相同的流匹配目标。为增强闭环鲁棒性,训练时对历史段应用两种针对性扰动:时间索引扰动(模拟策略与模拟器之间的短程时序错位)和历史轨迹重采样(模拟异步闭环执行下的轻微时间拉伸或压缩)。这些扰动确保专家不过分依赖"完美历史",从而提升闭环执行时的稳定性。
五、世界裁判:机器可验证的奖励信号
大规模策略评估需要自动化的裁判机制。世界模拟器生成轨迹,但无法自行判断轨迹质量。为使模拟器真正服务于评估与奖励驱动的学习,GE-Sim 2.0引入了世界裁判——一个视觉语言奖励模型,在闭环推理期间对生成的轨迹进行逐帧评分,输出任务完成的成功信号。
世界裁判以视觉语言模型为骨干,冻结其视觉编码器,仅训练语言模型与下游预测头。每个轨迹帧作为独立图像输入,不沿时间轴平均,以保留逐帧的判别粒度。帧图像后附加一个专用token,其隐藏状态作为该帧的表示。文本条件并非完整任务指令,而是与当前时段匹配的子任务描述,使评判聚焦于该时段应完成的具体子任务。
与Robometer采用的双目标(进度+偏好)设计不同,GE-Sim 2.0的世界裁判专注于单一的逐帧成功预测。这一设计基于两点考虑:首先,稀疏的成功信号已足以支持闭环评估与下游强化学习,在机器人操作基准与离线强化学习设定中被广泛采用;其次,在真实机器人数据收集中,轨迹常包含有意识或无意识的错误恢复行为(如绕行、重试、暂时倒退后最终成功),在这种非单调执行过程中,标量进度标签会变得嘈杂,不再对应真实的任务完成过程。因此,世界裁判将评判形式化为类别平衡的逐帧二分类问题,采用轻量级MLP作为成功头,在类别平衡的二元交叉熵损失下进行训练。

图3:世界裁判架构。视觉编码器处理轨迹帧,文本编码器编码指令,两者结合进行逐帧成功评估,输出持续进行与成功完成的信号。
在闭环集成中,策略模型输出的时段级动作通过统一的动作图驱动世界模型逐块生成;世界模型生成的视频与本体感知状态返回给策略模型用于后续预测,同时世界裁判为生成帧输出成功信号,形成贯穿整个轨迹的成功曲线。该曲线既作为策略评估的自动化决策依据,也作为奖励驱动学习(如过滤行为克隆与强化学习)的密集反馈,将策略评估从依赖人工检查转变为机器可验证的过程。
六、加速框架:从多步扩散到伪实时生成
可扩展的策略评估需要跨多个任务和种子并行地逐块生成轨迹,而多步扩散推理成为这一场景下的吞吐量瓶颈。GE-Sim 2.0从两个方向进行加速:通过步数蒸馏减少每次生成所需的降噪步数,以及通过随机步幅训练使单次生成覆盖更长的时间跨度。
步数蒸馏采用DMD2(Distribution Matching Distillation)框架,将多步扩散教师模型蒸馏为少步学生模型。蒸馏过程涉及冻结的教师、待蒸馏的少步学生,以及一个可训练的假分数评判网络,用于估计学生输出分布的分数。学生和评判网络交替优化,使评判网络持续跟踪当前学生的输出分布。为适应GE-Sim 2.0的动作条件、记忆机制设置,教师、学生和评判网络接收相同的动作图条件,记忆帧在整个过程中保持为干净的真值隐变量。
时间加速通过随机步幅训练实现。在训练时,每个块的帧以随机时间步幅采样,使模型在训练时接触不同时间密度的轨迹,从而在推理时能够执行帧跳过,以相同帧数覆盖多达四倍的时间跨度。对于长时程任务的评估,这显著减少了覆盖给定任务段所需的自回归块数,且未观察到时空一致性的可测量损失。
结合两个方向的加速,GE-Sim 2.0在单张H100上仅需约2.3秒即可生成100帧轨迹,且仅需4次推理步骤,达到了适合大规模并行评估的吞吐量水平。
七、实验验证:从视频质量到闭环一致性
实验围绕五个核心问题展开:(1)视频模拟质量:GE-Sim 2.0是否比现有机器人世界模型生成更高质量的操作视频?(2)闭环忠实度:策略在模拟器中运行时的结果是否与物理世界一致?(3)可验证奖励:世界裁判的成功信号是否足以替代人工检查?(4)策略提升:世界模型及其奖励信号能否生成改善下游策略的过滤训练数据?(5)组件贡献:各核心模块对闭环模拟与奖励预测的具体影响如何?
评估在六项长时程双臂操作任务上进行,涵盖液体处理(倒水)、可变形物体操作(叠毛巾)、精细力交互(拔插头)、明火点燃(借火)、语言引导选择(指令抓取与释放)以及外观变化下的表面接触(清洁镜面污渍)。这些任务对动作跟随精度、接触与变形渲染、以及成功与失败轨迹的忠实复现能力提出了全面挑战。
7.1 视频模拟质量:WorldArena排行榜与逐任务指标
尽管仅使用20亿参数的主干网络,GE-Sim 2.0在WorldArena公开排行榜上取得了总体最高分,超越了包括Ctrl-World、DreamDojo、GigaWorld、ABot在内的专用机器人世界模型,以及Sora、Veo等规模更大的闭源通用视频生成器。这表明面向操作任务的领域特定训练,在多样化、动作 grounded 的机器人数据上,对于操作仿真而言比单纯的模型规模更为重要。

图4:WorldArena排行榜。GE-Sim 2.0在总体EWMScore-P以及物理遵循度、3D精度、运动质量、可控性等分项指标上均取得领先表现。
在六项任务上的逐任务重播指标(PSNR、SSIM、LPIPS、FID、FVD)显示,GE-Sim 2.0在头部视角和更难的多视角设置下均全面领先。在头部视角上,PSNR较Ctrl-World提升3.96dB,较DreamDojo提升5.67dB;FID降至32.3(Ctrl-World为62.7),FVD降至481.3(Ctrl-World为1083.7)。在多视角设置下,优势更为显著:FID降低31.9,FVD降低至Ctrl-World的约2.5倍水平。逐项任务对比中,GE-Sim 2.0在每项任务的全部五项指标上均为最优,表明质量提升具有广泛性而非局限于特定任务。

表1:六项操作任务上的重播视觉质量均值。GE-Sim 2.0在头部视角与多视角的全部五项指标上均优于基线方法。
长时程时间稳定性方面,将50秒轨迹分为五个连续10秒段并逐段评估PSNR的结果显示,GE-Sim 2.0在头部视角上从24.84dB衰减至21.08dB,全程波动不足4dB;而Ctrl-World与DreamDojo在首段后急剧下降,末段分别仅为16.16dB和15.44dB,较GE-Sim 2.0低近5dB。在多视角设置下,GE-Sim 2.0全程保持在19.4dB以上,而Ctrl-World在第二段即跌至15dB区间并持续下降。曲线的形态表明,GE-Sim 2.0在首段后趋于平稳,而基线方法持续退化,随着轨迹延长优势进一步扩大。这种长时程稳定性正是闭环评估所需的仿真器核心能力。

图5:不同时间区间的重播质量(PSNR)。GE-Sim 2.0在长时程轨迹上保持更忠实的视觉重播,随时间推移的衰减更小。
7.2 定性对比:倒水与拔插头任务
在倒水任务中,GE-Sim 2.0成功跟随动作,提起水壶并正确渲染倒水过程,包括液体从壶嘴流出的动态效果。相比之下,Ctrl-World在动作跟随方面出现失败,未能忠实复现目标倒水行为。在拔插头任务中,GE-Sim 2.0成功移除插头并正确呈现台灯熄灭后的状态;而Ctrl-World和DreamDojo均出现动作跟随失败,且未能复现拔插头后台灯熄灭的状态变化。

图6:倒水任务定性对比。GE-Sim 2.0正确渲染倒水过程,基线方法出现动作跟随失败。

图7:拔插头任务定性对比。GE-Sim 2.0正确复现台灯熄灭状态,基线方法未能呈现该状态变化。
7.3 闭环策略一致性:模拟与真实对齐
重播保真度本身并不保证世界模型能够作为策略模拟器使用。在闭环场景中,视觉状态、本体感知状态或接触演化中的微小误差可能改变策略的后续动作,导致不同的任务结果。为此,研究团队在GE-Sim 2.0和基线方法中运行相同的π0.5策略,比较模拟结果与物理机器人结果的一致性。
任务级成功率对齐方面,GE-Sim 2.0(含状态条件)展示了最接近的对齐关系:拟合趋势线斜率接近1且负偏移较小,表明其更好地保留了真实机器人上观察到的相对任务难度。去除状态条件后,对应关系减弱,斜率更浅且出现正偏移。Ctrl-World的偏差最大,斜率同样较浅但呈负偏移,表现出低估策略成功率的倾向。

图8:世界模型成功率与真实机器人结果的对齐。GE-Sim 2.0(含状态条件)与真实世界策略性能的一致性最强。
逐片段结果对齐方面,GE-Sim 2.0(含状态条件)的平均准确率和召回率均为最优:准确率从Ctrl-World的0.63提升至0.81,召回率从0.25提升至0.82。召回率的大幅提升表明,状态条件化的模拟器在保留真实策略成功片段方面的能力显著增强,而非仅仅匹配边缘成功频率。在叠毛巾、借火、清洁镜面污渍等任务上,GE-Sim 2.0恢复了更多的真阳性结果;在接触丰富的任务上,仍存在少量假阳性与假阴性,提示细粒度接触状态与长时程状态累积仍是需要持续优化的方向。

图9:闭环世界模型模拟与物理机器人结果的混淆矩阵对比。GE-Sim 2.0在真阳性率方面显著优于基线,尤其在接触丰富任务上表现突出。
7.4 世界裁判质量:超越通用视觉语言模型
在模拟轨迹(WM模式)上,GE-Sim 2.0的世界裁判达到79%的准确率,较Qwen3.5-122B的60%提升19个百分点;成功事件定位距离从57.8帧缩短至28.2帧。在真值视频(GT模式)上,优势进一步扩大:87%对58%(+29个百分点),事件距离从64.7帧缩短至15.7帧。在六项任务中的五项上,世界裁判的准确率均优于通用VLM;仅在指令抓取与释放任务上,通用VLM表现接近,这是因为该任务以离散物体抓取事件为主,通用VLM相对擅长识别。在清洁镜面污渍任务上,Qwen完全未能识别成功帧,因为该任务的成功标准涉及细微的外观变化而非离散物体事件。WM模式与GT模式准确率之间的差距(约8个百分点)反映了可归因于模拟器伪影的误差份额,这一差距足够小,使得来自GE-Sim 2.0的奖励信号对于策略评估保持可靠。

表2:世界裁判质量对比。在模拟轨迹与真值视频上,专用世界裁判均大幅优于通用VLM基线。
7.5 基于世界模型的过滤行为克隆:策略提升
GE-Sim 2.0不仅可用于评估,还可作为数据生成引擎改善策略。研究团队将π0.5策略在GE-Sim 2.0中运行,使用世界裁判对生成轨迹评分,保留超过任务阈值的轨迹,并将其与原始行为克隆数据混合。在倒水、叠毛巾和拔插头三项代表性任务上,真实机器人成功率分别从0.40提升至0.55、从0.40提升至0.50、从0.45提升至0.65,平均成功率从0.417提升至0.567,绝对增益达0.150。这些结果表明,GE-Sim 2.0生成的合成轨迹在经过奖励过滤后,对下游策略学习具有实际价值。

图10:基于世界模型过滤行为克隆的策略提升。在液体处理、可变形物体操作和精细力交互任务上,策略成功率均获得显著提升。
八、附录:更多定性结果
在指令抓取与释放任务中,GE-Sim 2.0正确呈现了抓取薯片袋并放入红色容器的过程,包括物体姿态与手部交互的精细变化。在清洁镜面污渍任务中,系统正确渲染了毛巾抓取、镜面擦拭以及污渍清除后的状态变化。在借火任务中,GE-Sim 2.0忠实呈现了蜡烛抓取与火焰传递过程,而基线方法出现蜡烛分离或火焰状态错误。

图11:指令抓取与释放任务。GE-Sim 2.0正确呈现物体抓取与放置过程。

图12:清洁镜面污渍任务。GE-Sim 2.0正确渲染擦拭动作与污渍清除后的状态。

图13:借火任务。GE-Sim 2.0忠实呈现火焰传递过程。

图14:叠毛巾任务。GE-Sim 2.0正确渲染可变形物体的折叠过程。
九、总结与未来展望
GE-Sim 2.0代表了从"仅视觉"视频世界模拟器向全闭环操作世界模拟器的重要迈进。在Genie Envisioner动作条件视频生成框架的基础上,通过数千小时真实机器人数据重新训练,三个协调组件完成了闭环:本体感知状态专家从视频隐变量解码关节空间状态,世界裁判将轨迹转化为机器可验证的成功信号,基于DMD的加速框架将多步扩散压缩为少步推理。在六项长时程双臂任务上,GE-Sim 2.0在WorldArena排行榜和多项重播指标上均取得领先,其闭环成功率与真实机器人结果在1个百分点内对齐,世界裁判显著优于强通用VLM,基于其轨迹与奖励的过滤行为克隆为真实机器人策略带来15个百分点的平均提升。
这些成果将视频世界模拟器从单纯的前向预测器推进为具备内置评估能力的闭环平台,为操作策略的可扩展评估与闭环学习提供了实用的起点。随着数据与模型规模的持续扩展、状态解码与成功评判的进一步统一,以及从离线过滤行为克隆向在线闭环强化学习的演进,视频世界模拟器有望成为通用具身智能的关键基础设施。
研究团队指出,未来的发展方向包括:将基础模型扩展到大规模跨本体、第一人称视角和UMI风格数据,系统研究数据与模型规模的行为规律;将状态解码与成功评判统一为单一世界模型,使奖励信号继承世界模型学习到的先验;以及将系统从评估器和数据过滤器推进为在线策略训练环境,在更广泛的策略家族上验证GE-Sim 2.0的通用性。
参考文献
- Qiu B, Chen L, Liao Y, et al. GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation. arXiv:2605.27491, 2026.
具身智能&世界模型blog: https://jinxindeep.github.io/blog/blog2026.html
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)