GigaWorld-Policy: 一种高效的行动为中心世界-动作模型

硅谷秋水

880人浏览 · 2026-03-28 00:15:00

硅谷秋水 · 2026-03-28 00:15:00 发布

26年3月来自极佳科技的论文“GigaWorld-Policy: An Efficient Action-Centered World–Action Model”。

本文提出一种以动作为中心、高效的世界-动作模型——GigaWorld-Policy。在训练过程中，未来的视觉动态提供密集的监督信息和动作学习的推理信号，无需过度依赖显式的视频合成。在推理阶段，未来视觉预测是可选的，只需解码动作即可，从而实现低延迟控制。另外，提出一种预训练范式，将通用的视频生成模型转换为机器人策略学习的强初始化模型，并充分利用各阶段的互补数据源。在真实机器人平台上进行的实验表明，GigaWorld-Policy 的推理速度提升 9 倍（每次推理耗时低至 0.36 秒），任务成功率比基线方法提高 7%；与 π0.5 相比，GigaWorld-Policy 的推理速度与之相当，但在 RoboTwin 2.0 上的性能提升 95%。

近期的研究将视频生成中的世界模型（WM）（Liu et al., 2026; Podell et al., 2023; Wang et al., 2025; Ye et al., 2026）融入机器人策略学习（Bi et al., 2025; Kim et al., 2026; Shen et al., 2025），以进一步提高监督密度和可扩展性。利用视频生成的优势在于，它能够在稀疏的动作标签之外，提供观测空间中时间密集的监督信息，并注入从大规模视频数据中学习到的强时空先验信息。

用于机器人视频生成的世界模型

近年来，世界模型（Li et al., 2025; Ni et al., 2025; Wang et al., 2025; Zhao et al., 2025）的进步显著提升了机器人视频的生成和预测能力（Chen et al., 2025; Dong et al., 2025; Liu et al., 2025; Ni et al., 2025; Wang et al., 2025; Zhou et al., 2024）。其核心目标是学习一个能够捕捉环境时间演变的生成模型，从而预测未来的视觉序列。

Pandora（Xiang et al., 2024）提出一种混合自回归-扩散世界模型，该模型能够生成视频，并支持通过自由文本动作进行实时控制。 FreeAction（Kim，2025）通过使用动作尺度的无分类器引导，在基于扩散的机器人视频生成中显式地利用连续动作参数，从而更好地控制运动强度。GigaWorld-0-video（Team，2025）是一个高保真度的世界模型数据引擎，能够合成时间上连贯的高质量二维视频序列，并对外观和场景布局进行精细控制。一些方法（Chen，2025）也探索显式的视频世界模型，旨在构建结构化且可操作的三维场景表示（Liu，2024，2025；Ni，2025；Wang，2025）。Aether（Team，2025）通过联合优化四维动态重建、动作条件视频预测和目标条件视觉规划，统一了几何感知的世界建模。然而，现有的大多数研究工作都侧重于提高视频世界模型的保真度、一致性和可控性，却大多忽略了如何将通用视频生成器适配到以动作为中心的模型中，从而在严格的延迟约束下直接支持策略学习。

用于机器人控制的世界-动作模型

基于视频生成范式的世界-动作模型（WAM）（Bi et al., 2025; Kim et al., 2026; Shen et al., 2025; Wang et al., 2025）旨在统一的框架内预测机器人动作和未来的视觉动态。通过对动作相关的未来观测进行建模，WAM 提供密集的时间监督和学习到的预测先验，从而规范策略学习。

VideoVLA（Shen，2025）直接利用视频生成模型作为预训练权重，探索将大规模视频生成模型转换为机器人操作模型的方法。它采用多模态扩散Transformer（Diffusion Transformer）联合建模视频、语言和动作模态，实现动作和未来视觉结果的双重预测。Motus（Bi，2025）提出一种统一的世界模型，该模型利用现有的通用预训练模型和丰富的可共享运动信息，引入混合Transformer（MoT）架构来集成三个专家模块，并采用类似 UniDiffuser 的调度器来实现不同建模模式之间的灵活切换。相比之下，Mimic-video（Pai，2025）采用一种两阶段流程：首先，它利用互联网规模的预训练视频骨干网络来预测未来的视觉观测结果；然后，使用流匹配逆动力学动作解码器将生成的视频潜在信息映射到底层机器人动作。

然而，这些方法通常都需要在推理过程中进行迭代扩散采样来生成未来的视频，这会引入显著的延迟，并限制实时部署。同时，过度依赖显式视频预测可能存在缺陷：像素级预测对随机可观测性非常敏感，微小的视觉预测误差可能会在较长的时间尺度上累积，从而削弱学习到的动力学信息在鲁棒动作生成方面的有效性。

GigaWorld-Policy

基于 VLM 的 VLA 具有辅助的未来监督，可以增强训练信号的密度，如图（a）所示，但受限于 VLM 的判别性（Cen，2025；Ni，2025；Zhang，2025）。这些方法通常优化未来视觉动态和动作预测的联合目标，将未来观测预测与动作选择显式耦合，从而利用视频模型的表征和生成能力来指导动作学习（如图(b-c)所示，VideoVLA和Mimic-video）。然而，这些方法通常需要在推理时进行迭代采样以生成未来视频，导致较高的延迟。此外，视频预测中的误差会传播到动作解码，导致错误和长期控制能力下降，尤其是在早期微小误差随时间累积的情况下。
请添加图片描述

为了解决这些局限性，GigaWorld-Policy，是一种以动作为中心且高效的世界-动作模型。GigaWorld-Policy 并非过度依赖显式视频生成，而是利用未来的视觉动态作为推理信号和密集监督来源。具体来说，GigaWorld-Policy 被实现为一个因果序列模型，该模型在因果掩码下表示动作token和未来视觉 token。在训练过程中，该模型学习根据当前观察上下文预测未来动作序列，并同时学习一个动作条件视觉动态模型，该模型在给定当前观察结果和预测动作的情况下预测未来的视觉观察结果，从而将动作学习与显式的二维像素级状态演化相结合。这两个学习信号在同一模型中得到优化，使得未来的视觉动态能够规范动作的合理性并提供更密集的监督，从而提高学习效率。

至关重要的是，在推理阶段，显式的未来视频预测是可选的：该模型可以以仅动作模式执行，直接生成控制命令，而无需展开冗长的视频序列。这种设计显著降低计算和内存开销，避免因长时间的视觉展开而导致的累积误差，并实现了低延迟的闭环控制，如上图 (d) 所示。为了获得更强的预训练权重，用一种课程训练流程，该流程在任何特定任务的监督之前，先从各种视频源注入物理先验信息。

GigaWorld-Policy 基于大规模网络视频基础模型（Wan，2025）进行初始化，然后基于具身的、以机器人为中心的数据进行进一步预训练，这些数据结合真实机器人录像和大规模的以自我为中心的人类视频，从而提高模型对具身视角和交互动态的鲁棒性。对目标机器人轨迹进行后训练，使图像、语言和动作保持一致，使其专门用于在目标机器人的控制界面和状态分布下进行指令条件动作预测。

将机器人操作建模为一个顺序决策任务。在每个时间步 𝑡，机器人接收来自一组固定相机视点 𝑆 = {𝑙𝑒𝑓𝑡, 𝑓𝑟𝑜𝑛𝑡, 𝑟𝑖𝑔h𝑡} 的多视图 RGB 观测值 𝑜_𝑡 = {𝑜^𝑣_𝑡}、自然语言指令 𝑙 和本体感觉状态 𝑠_𝑡。基于这些输入，该策略预测长度为 𝑝 的动作块，𝑎_𝑡:𝑡+𝑝−1 = (𝑎_𝑡, 𝑎_𝑡+1, . . . , 𝑎_𝑡+𝑝−1)。

视觉-语言-动作策略。大多数现有的 VLA 策略通过模仿学习进行训练，以建模和采样基于观察、机器人状态和语言指令的动作块：

𝑎_𝑡:𝑡+𝑝−1 ∼ 𝑞_Θ(· | 𝑜_𝑡, 𝑠_𝑡, 𝑙) (1)

分布 𝑞_Θ( · | 𝑜_𝑡, 𝑠_𝑡, 𝑙) 参数化接下来 p 个动作的策略。在这种范式下，学习完全由来自演示的动作监督驱动，无需在观测空间中进行任何显式监督。

与仅对动作分布进行建模的方法不同，采用一种世界建模的视角，学习视觉观测如何在已执行的动作块下演变。将方法实现为一个统一的模型 𝑔_Θ，该模型参数化两个互补的条件分布。对于基于演示的动作建模，模型学习如何根据观察结果、机器人状态和语言对动作块进行采样：

(︀𝑎_𝑡:𝑡+𝑝−1, 𝑐_𝑡)︀ ∼ 𝑔_Θ( · | 𝑜_𝑡, 𝑠_𝑡, 𝑙), (2)

其中，𝑐_𝑡 是一个动作潜条件信号，用于指导视觉预测。对于视觉前馈动力学建模，给定相同的上下文和预测的动作条件信号，模型学习采样一个能够捕捉视觉观测演变的未来观测序列：

(𝑜_𝑡+Δ, 𝑜_𝑡+2Δ, …, 𝑜_𝑡+𝐾Δ) ∼ 𝑔_Θ(︀· | 𝑜_𝑡, 𝑠_𝑡, 𝑙, 𝑐_𝑡)︀, (3)

其中 ∆ 表示预测观测之间的时间步长，𝐾 = ⌊𝑝/∆⌋，使得模型能够在 𝑝 步长范围内预测 {𝑜_𝑡+𝑘Δ}。

GigaWorld-Policy 的架构

如图所示，GigaWorld-Policy 采用一个 5B 参数的扩散transformer（Wan，2025），该transformer通过以动作为中心的训练目标进行预训练，作为机器人操作的世界-动作模型。通过拼接多视角输入，该框架能够实现具有一致性的联合跨视角推理，并使用因果掩码方案来统一动作生成和视觉动态。
请添加图片描述

输入token。对于视觉token输入，为了在不修改主干网络的情况下实现多视角生成并同时保证跨视角一致性，将三个摄像头的视角合并成一个与标准输入分辨率相同的合成图像 𝑜^{𝑐𝑜𝑚𝑝}_t：

𝑜^{𝑐𝑜𝑚𝑝}_t = 𝐶𝑜𝑚𝑝𝑜𝑠𝑒(︁𝑜^{𝑙𝑒𝑓𝑡}_t, 𝑜^{𝑓𝑟𝑜𝑛𝑡}_t, 𝑜^{𝑟𝑖𝑔h𝑡}_t)︁. (4)

这种复合表示在共享坐标系中保留了每个视图的空间结构，从而保证了跨视图的一致性。同时，由于相邻观测之间存在很强的时间连续性和冗余性，因此通常不需要逐帧密集预测，仅使用固定步长预测一组稀疏的未来帧 {𝑜^{𝑐𝑜𝑚𝑝}_𝑡+𝑘Δ }。具体来说，沿着动作视界每隔 ∆ 步预测一个未来观测值，这既保留场景的关键演化，又减少监督冗余。

共享 Transformer 模块。然后，使用同一个预训练的变分自编码器（VAE）对当前观测值 𝑜^{𝑐𝑜𝑚𝑝}_t 和预测的未来观测值 {𝑜^{𝑐𝑜𝑚𝑝}_t+𝑘Δ} 进行编码，并将得到的潜变量token化为时空视觉token 𝑇_𝑜 和 𝑇_𝑓。同时，通过线性投影将本体感觉状态和动作嵌入到预训练模型的隐维度中，分别得到状态token 𝑇_𝑠 和动作token 𝑇_𝑎。语言指令 𝑙 由预训练的语言编码器进行编码，得到指令token序列 𝑇_𝑙。

与MoE的设计不同，用单个共享的Transformer模块堆栈处理所有类型的token。具体来说，所有token在每一层都共享相同的Q、K和V投影矩阵，这使得动作token与视觉证据紧密耦合，同时保留预训练骨干网络的计算特性。此外，针对不同类型的token使用不同的位置编码，以尊重其底层结构：视觉token采用基于图像网格的二维位置编码，而本体感觉状态和动作token则采用一维时间位置编码。

用于视频和动作建模的因果自注意机制。为了在单个扩散Transformer中统一动作生成和前馈视觉动态建模，将所有模态打包到一个token序列中，并使用因果注意掩码来控制信息流。具体而言，在每个扩散步骤𝑡中，将特定模态的token连接成一个统一的序列T_t。

如图所示，施加分块因果注意掩码来强制执行以下依赖关系：（i）𝑇_𝑠 和 𝑇_𝑜 可以互相关注，但不能关注 𝑇_𝑎 或 𝑇_𝑓；（ii）𝑇_𝑎 中的动作token可以关注token {𝑇_𝑠, 𝑇_𝑜}，但不能关注 𝑇_𝑓；（iii）𝑇_𝑓 中的未来视频token可以关注 {𝑇_𝑠, 𝑇_𝑜, 𝑇_𝑎}，从而能够根据动作块进行前馈动态预测。这种掩码方案可以防止预测的未来帧的信息泄漏到动作生成中，同时允许未来帧预测利用观察和动作，这与公式（2）和公式（3）一致。
请添加图片描述

值得注意的是，语言指令并未包含在统一的自注意序列中；相反，𝑙 作为外部条件信号通过交叉注意机制提供，因此不参与上述因果排序。

GigaWorld-Policy：训练

训练过程和数据。对 GigaWorld-Policy 进行预训练，逐步注入来自不同视频源的物理先验信息，使模型能够在任何特定任务的监督之前获得可泛化的视觉动力学知识。

首先使用基于大规模预训练视频模型（Wan，2025）初始化 GigaWorld-Policy，该模型在各种网络视频上进行训练。在此基础上，进行具身数据预训练，进一步使用以机器人为中心的视频数据（涵盖真实世界的机器人视频和大规模的以自我为中心的人类视频）对模型进行预训练。在机器人方面，聚合来自多个来源的真实世界机器人视频（例如，Agibot (Bu et al., 2025)、RDT (Liu et al., 2024)、RoboMind (Wu et al., 2024)、ATARA (Feng et al., 2025)），这些视频捕捉机器人特有的成像特征、具身性和工作空间限制，以及机械臂和末端执行器在交互过程中产生的独特视觉模式。同时，也纳入大规模的以自我为中心人类演示视频（例如，EgoDex (Hoque et al., 2025)、Ego4D (Grauman et al., 2022)），以扩展对日常交互基本要素和长时程活动结构的覆盖范围，从而提高模型对不同场景、工具和任务环境的鲁棒性。总体而言，如表所示。收集约 10,000 小时的数据，并对所有来源的数据进行统一的清洗、格式化和采样，以确保数据质量和可控的数据分布。这一具身化阶段将模型表征调整为与具身化相关的视角和操作交互模式，从而提高模型对视角引起的视觉变化的鲁棒性。
请添加图片描述

预训练之后，用包含图像、语言和动作的目标机器人任务轨迹数据对模型进行后训练。这一阶段通过学习在机器人控制界面和状态分布下基于指令的动作预测，使模型能够更好地适应目标机器人。

训练目标。用流匹配来优化动作预测和视觉前馈动力学建模。对于任一模态 𝑥（动作token或未来视频token），采样一个流时间 𝑠 ∼ 𝒰(0,1) 和噪声 𝜖 ∼ 𝒩 (0, 𝐼 )，并构建具有目标速度的插值噪声变量：

𝑥^(𝑠) =(1−𝑠)𝜖+𝑠𝑥,
𝑥 ̇^(𝑠) =𝑥−𝜖.

令 𝑧_𝑓 表示对应于未来观测token 𝑇_𝑓 的 VAE 潜变量。训练模型以预测基于历史数据和已执行动作块的未来潜变量的速度场，即目标函数L_video。

类似地，令 𝑎 表示动作块 𝑇_𝑎 的动作token表示，优化基于历史数据的动作流匹配目标L_action。

对于预训练，仅优化视频流匹配目标。对于后训练阶段，用标量权重 𝜆_𝑣𝑖𝑑𝑒𝑜 和 𝜆_𝑎𝑐𝑡𝑖𝑜𝑛 来结合视频和动作目标，以平衡它们的贡献：

L_𝑎𝑙𝑙 = 𝜆_𝑣𝑖𝑑𝑒𝑜 L_𝑣𝑖𝑑𝑒𝑜 + 𝜆_𝑎𝑐𝑡𝑖𝑜𝑛 L_𝑎𝑐𝑡𝑖𝑜𝑛。

GigaWorld-Policy：推理

在推理阶段，目标是生成低延迟的动作。直接运行统一的视频-动作扩散Transformer，需要在每个控制步骤中对未来的视频- token流进行采样，这会带来很高的开销，因为视频token通常比动作token长得多。此外，预测未来的帧对于策略的执行并非必要。因此，采用动作解码，并可选择性地解码视频，在保持与训练阶段相同的骨干网络和token化方式的同时，避免视频生成的开销。

保持语言、观察和本体感觉的条件化流程不变。在每个控制步骤 𝑡，首先根据指令、当前的本体感觉状态和多视角观察，如公式（4）所示拼接，构建上下文：

𝑤_𝑡 = (︀𝑇_𝑙, 𝑇_𝑠, 𝑇_𝑜)︀.

然后，仅从基于 𝑤_𝑡 学习的动作流模型中采样动作块token 𝑇_𝑎，而不实例化任何未来的视频token。具体来说，初始化 𝑎⁽⁰⁾ ∼ 𝒩 (0, 𝐼)，并将学习的速度场从 𝑠 = 0 积分到 𝑠 = 1，得到 𝑎⁽¹⁾，然后将其解码为连续动作块 𝑎ˆ_𝑡:𝑡+𝑝−1。最后，执行该动作，观察新的状态和图像，并在下一个控制步骤中重复上述过程。如果需要进行未来预测，可以在推理时启用视频分支。这可以通过两种方式实现：一是将未来的视频token包含在输入中，并与动作token一起进行去噪；二是重用动作去噪过程中保存的KV缓存，然后基于该缓存的上下文对视频token进行去噪。

评估指标。主要报告成功率 (SR) 来评估任务完成性能。在仿真中，SR 是一个二元指标：任务完成时 SR = 1，否则 SR = 0。对于实际实验，采用分级评估方案。具体来说，对于抓取放置任务，为成功抓取赋予 0.5 分，并为成功将物体放置在指定目标位置额外赋予 0.5 分。
基线。将 GigaWorld-Policy 与涵盖两大主流范式的几个最先进基线进行比较。对于基于 VLM 的 VLA 方法，纳入 𝜋0.5 (Intelligence，2025)、GigaBrain-0 (Team，2025) 和 X-VLA (Zheng，2025)。这些方法利用大型 VLM 骨干网络将视觉观察与语言指令对齐，并通过动作头解码底层控制命令，是端到端感知到动作流水线的有力代表。对于 WAM 方法，评估 Cosmos-Policy (Kim ，2026) 和 Motus (Bi，2025)。这两种方法在潜空间中显式学习环境动态，并利用预测性展开来支持决策。

实现细节。Wan 2.2 5B (Wan，2025) 用作 diffusion-Transformer 骨干网络。将动作块长度设置为 p = 48，并采用 ∆ = 12 的未来观测步长，通过沿动作视界稀疏预测未来观测值来提供辅助视觉动态监督。在后训练阶段，用损失权重 λ_action = 5 和 λ_video = 1 来平衡目标函数，强调动作预测，同时保留视频一致性正则化项。在报告推理时间延迟时，用仅动作解码路径，其中禁用未来视频解码，模型直接输出动作。在实际应用评估中，每种方法每个任务进行 20 次试验；在每次试验中，机器人最多可以尝试五次以完成同一指令下的任务。在仿真环境中，对每个任务进行 100 次测试。