Being-H0.7：基于自我中心视频的潜世界行动模型

硅谷秋水

211人浏览 · 2026-04-21 00:15:00

硅谷秋水 · 2026-04-21 00:15:00 发布

26年4月来自智在无界（BeingBeyond）团队的论文“Being-H0.7: A Latent World-Action Model from Egocentric Videos”。

Being-H0.7，是一种潜世界动作模型，它通过在潜空间中对世界动态进行建模来生成动作。视觉-语言-动作模型（VLA）通过将观察结果直接映射到动作，在各种机器人任务中展现出了强大的能力。然而，有限且稀疏的动作监督常常导致行为崩溃，阻碍了这些模型学习基于物理原理且多样化的动作表征。最近的研究引入了基于视频生成的世界动作模型（WAM），试图通过密集像素预测来捕捉未来的演化，并利用大规模视频预训练来提高泛化能力。然而，它们需要在推理时进行未来轨迹的展开，导致相当大的延迟，并且可能存在预测像素不完美的情况。本文选择是通过潜世界建模来弥合这些问题，在感知和动作之间引入一个紧凑的潜推理空间。用一组可学习的潜查询来实现这一目标，这些查询支持一个紧凑的推理接口，该接口在动作生成之前携带与未来相关的信息。为了高效地构建推理空间，采用一种双分支设计，将查询与潜空间中面向未来的嵌入对齐。

世界动作模型。近年来，越来越多的研究探索将视频生成和世界建模作为机器人控制的基础，其动机在于观察到视频模型能够捕捉静态视觉语言预训练所缺乏的时间动态和合理的未来演化。一种研究方向主要将视频模型用作预测表征学习器或可迁移的世界先验，并辅以独立的动作解码模块[43-46]。另一种研究方向则致力于更紧密的耦合，在统一的架构中联合建模未来的视频和动作[47-49]，结果表明，联合预测视觉未来和动作序列可以提高泛化能力和数据效率。更新的研究基于日益强大的预训练视频基础模型[50-52]，并进一步推动统一的世界动作模型发展，以支持闭环控制、因果展开或基于预测未来的规划[53, 54]。 DreamZero [8]、Cosmos Policy [9] 和 LingBot-VA [10] 都体现了这一趋势，表明更强的视频先验信息可以融入具身策略，从而提升泛化能力和具身迁移能力。Fast-WAM [11] 表明，在训练过程中保留视频协同训练，同时移除测试时的未来生成，可以在显著降低延迟的同时保持良好的动作性能。此外，受 JEPA [59] 启发，一条相关但不同的研究路线 [55–58] 试图通过联合预测表征来建模未来演化。

本文工作与这条世界动作建模路线最为密切相关，但不同之处在于，其并不依赖于显式的未来视频展开，也不仅仅停留在感知未来的表征学习阶段。相反，本文利用未来信息来构建一个可部署的显式潜推理过程，该过程直接参与动作生成。如图 1所示：
请添加图片描述

潜推理：VLA与世界动作模型的交汇点

一个有效的具身模型不仅应该对瞬时情境做出反应，还应该真正理解交互的展开方式。VLA和视频生成世界动作模型（WAM）的进展凸显了这两个互补的方面。标准的VLA模型擅长将当前观测结果直接映射到动作，但它们并没有明确地对交互下世界如何演化进行建模。相比之下，视频生成世界模型试图通过密集像素预测来捕捉这种未来演化，但这既计算成本高昂，又与物理动力学的抽象不匹配。

关键不在于在这两种范式之间做出选择，而在于通过潜推理空间将它们连接起来：一个显式的中间空间，用于在生成底层动作之前组织与未来相关的、面向动作的信息。

如图2（左）所示，通过在骨干网络中引入少量可学习的潜查询来实现这一想法，并将它们置于多模态情境和噪声动作之间。具体来说，令 x 表示指令，o_−H:0 表示范围 H 的观测上下文，s 表示状态。在动作块之前插入一组潜查询 Q，得到增强序列：
请添加图片描述

S = [x; o_−H:0; s; Q; a_0:T]

其中 K 为潜查询的数量，d 为隐藏维度，a_0:T 表示长度为 T 的动作块。这些潜查询定义了潜推理空间，它与指令、观测、状态和动作一起参与逐层 Transformer 传播。通过跨层的重复交互，它们逐步整合来自多模态上下文的任务相关信息，将其组织成面向动作的潜状态，进而影响下游动作的生成。这样，模型不再需要将抽象的多模态语义直接映射到密集的底层动作。相反，它可以在前向传播过程中逐步形成一个紧凑的中间推理状态，并利用该状态来指导动作预测。

然而，仅凭这种方法并不能保证未来预测会在潜推理过程中真正出现。如果仅使用动作监督进行训练，潜推理状态反而可能坍缩成一个弱中间表示，或者仅编码足以进行局部动作解码的浅层线索。因此本文引入一种面向未来的对齐机制，以将这种潜推理显式地塑造为世界建模。

潜世界-动作模型：与未来信息的联合对齐

虽然引入的潜推理空间为中间推理提供一个明确的基础，但它本身并不能保证潜查询能够组织出有意义的、与未来相关的结构。为了在保留可部署推理路径的同时，利用未来信息来塑造这个潜推理空间，引入一种双分支训练设计，如上图 2（右）所示。

双分支设计。构建两个结构匹配的分支，它们共享相同的上下文、主干网络和动作生成路径。先验分支是主要的可部署分支，其动作生成仅取决于当前指令、观察上下文、状态以及一组可学习的潜查询。与此同时，引入一个仅用于训练的后验分支，该分支可以访问未来的观察结果 õ_0:T。将后验分支中的潜查询替换为一组形状相同的紧凑型未来嵌入，从而使两个分支在潜推理位置上保持结构对齐。具体来说，未来观测首先由一个冻结的预训练ViT进行编码，然后由感知器重采样器聚合为K个未来嵌入z^post。

在动作监督下，这两个分支自然地捕捉动作生成推理的不同视角。先验分支，鼓励模型首先根据当前上下文组织一个潜推理状态，然后基于该潜推理状态生成动作。相比之下，后验分支，旨在揭示哪些未来信息对动作决策真正有用。通过用未来嵌入替换潜查询，它提供一个包含未来信息的推理空间版，并突出未来演化中对下游动作生成至关重要的部分。

联合对齐。然后，在潜推理位置对两个分支的隐状态进行联合对齐，使得这两个视角在同一个潜空间中显式地相遇。形式上，令 h^prior_l 和 h^post_l 分别表示来自先验分支和后验分支第 l 层对齐的隐状态。应用二者之间的对齐损失 L_align。通过这种面向未来的联合对齐，潜推理空间不再仅仅是动作解码的中间载体。相反，它被显式地塑造为编码与未来相关的、面向动作的结构。从这个意义上讲，所得模型可以被视为一个潜世界-动作模型：未来信息仅在训练期间引入，但其效果通过潜推理路径实现，该路径在推理时仍然完全可执行。

高效的双分支实现

如图3所示，以结构简单且训练高效的方式实现了潜世界动作模型。没有运行两个完全独立的前向传播，而是将先验分支和后验分支打包成一个具有 Mixture-of-Transformers (MoT) [60] 结构的单一序列。这两个分支共享相同的当前上下文tokens，但它们各自特有的tokens占据不同的潜推理位置：先验分支使用动作之前可学习的潜查询，而后验分支使用相同形状的未来嵌入。
请添加图片描述

为了在一个打包序列中保持预期的双分支结构，应用双分支注意掩码。共享的上下文token对两个分支都可见，而先验分支和后验分支的token彼此隔离，仅通过显式对齐的潜推理状态进行连接。此外，两个分支在对应token位置的位置ID保持一致，从而确保先验潜查询和后验未来嵌入在整个Transformer层中保持结构匹配。这种设计使得模型能够在单次主干前向传播中高效地实现双分支潜世界动作模型。

为了训练这两个分支，对先验和后验噪声动作流应用流匹配目标来生成动作。由于隐状态对齐很容易导致简单的崩溃，对两个分支都应用一个轻量级的正则化项。与诸如 SIGReg [61] 或 VICReg [62] 等强表征学习正则化器不同（它们会强制要求高度结构化的特征几何），其对潜推理空间的隐状态从两个方面进行轻微的正则化：它们的范数和它们的秩。

将正则化项应用于两个分支和所有对齐层的潜推理状态，从而使用一个综合正则化项

L_reg = w_norm R_norm + w_rank R_rank

在实践中，用与 UniHand 2.0 相同的统一格式，在混合的人类和机器人操作数据上预训练模型。这为跨具身动作学习提供一个共享的序列结构，并允许以统一的方式在异构操作轨迹上训练潜世界动作模型。尽管所提出的架构原则上也兼容相同数据格式的文本生成任务，但在当前阶段不使用这些任务，而只专注于动作生成。最终的训练目标是：

L = L_FM + w_align L_align + L_reg

在训练过程中，用观察范围 H = 4，动作块长度 T = 20，潜查询数量 K = 16，对齐权重 w_align = 10⁻³，以及正则化权重 w_norm = w_rank = 10⁻⁴。

模拟环境实验设置

在所有评估中，策略严格依赖于仅包含 RGB 色彩空间的图像，所有图像均统一调整为 224 × 224 像素。此外，除非另有说明，用打包序列训练模型，这使得不同数据集的有效批大小保持在 128 左右。所有优化过程均在配备 4 个 A800 GPU 的标准计算节点上进行。

用以下六个广泛使用的模拟基准测试来评估 Being-H0.7 模型：
• LIBERO [72]：LIBERO 是一个综合基准测试，旨在评估桌面操作中的知识迁移和终身学习能力。它包含四个不同的任务套件（目标、对象、空间和长任务）。遵循 [72, 73] 的方法，使用来自所有四个套件的数据训练模型。为了进行评估，对每个套件进行 500 次试验，并报告所有套件的平均成功率。
• RoboCasa [74]：RoboCasa 提供一个大规模仿真框架，专注于日常长期家务任务。在不同的厨房环境中评估24 个基础操作任务，并采用具有挑战性的 Human-50 少样本设置，每个任务使用 50 个人类演示。评估在每个任务上进行 50 次试验，并针对预留场景进行，重点测试模型对未见过的物体实例和新型厨房风格的鲁棒性。
• GR1 [5]：GR1 是一个双手操作基准测试，使用配备傅里叶灵巧手的 GR-1 人形机器人。它包含 24 个复杂的桌面操作任务，需要精细的灵巧性和协调性。用每个任务 1000 个演示来训练模型。评估在每个任务上进行 50 次试验。
• LIBERO-plus [75]：LIBERO-plus 专门设计用于系统地评估在各种受控环境扰动下的策略鲁棒性和零样本泛化能力。遵循标准做法 [75]，在两种不同的训练配置下评估模型：一个完全基于标准 LIBERO 数据集训练的基线模型，以及一个在增强型 LIBERO-plus 数据集上微调变异的模型。
• RoboTwin 2.0 [76]：RoboTwin 2.0 是一个综合框架，旨在对鲁棒的双手动机器人操作进行基准测试。为了系统地评估和增强仿真-到-真实环境的迁移，该基准测试在五个维度上引入了结构化的域随机化：桌面杂物、不同的光照条件、不同的背景纹理、桌面高度的变化以及不同的语言指令。用来自干净场景的 2500 个演示（每个任务 50 个）和来自高度随机化场景的 25000 个演示（每个任务 500 个）来训练模型。在两种不同的设置下评估该策略：简单（干净场景）和困难（领域随机化场景），每个任务进行 100 次测试。
• CALVIN [77]：CALVIN 是一个专门针对跨四个不同环境（A、B、C 和 D）的多任务学习和长时域操作能力的基准测试。按照标准评估流程，在两个数据集上评估我们的模型：ABCD→D（在所有环境中训练，并在已见环境 D 上测试）和 ABC→D（测试对未见环境 D 的零样本泛化能力）。评估严格执行 1000 个独特的指令序列，每个序列要求智能体执行 5 个连续指令。报告每个序列完成任务的平均数量。

真实世界实验

在三个真实机器人平台上评估 Being-H0.7：PND Adam-U、Unitree G1 和 Franka FR3。这三个平台均配备 Linkerbot O6（6 自由度）机械手。PND Adam-U 和 Unitree G1 使用双臂机械手配置，而 Franka FR3 提供单臂桌面配置，配备一个外部摄像头和一个腕部摄像头。如图 4 提供已部署的三种实施例概览。
请添加图片描述

实施例和任务套件

除非另有说明，所有实施例均共享相同的统一控制接口和在线推理基础架构。在 PND Adam-U 中，策略控制 19 个身体自由度以及 Linkerbot O6 的双侧机械手。在 Unitree G1 中，策略公开了一个 26 自由度的上半身动作接口，即 14 个机械臂关节和 12 个 Linkerbot O6 机械手关节。Franka FR3 提供了一个 7 自由度的机械臂，并与单个 Linkerbot O6 机械手配对。

部署堆栈。所有三种实施例共享相同的客户端-服务器推理接口。策略服务器使用时间缓冲的观测数据，并预测分块动作而非单步动作。对于每个查询，它返回用于立即执行的机器人空间动作以及一个仅用于下一个异步查询的统一延续块。这种分离在实践中非常重要：机器人执行特定于身体的命令，而延续状态则保持在共享表示中，从而使下一次推理调用与已经执行的运动保持一致。

在客户端，用一种延迟-觉察的通用异步分块（UAC）机制，该机制以异步实时分块的方式实现。具体来说，客户端维护一个线程安全的动作缓冲区，并实时估计在下一个分块可用之前需要消耗多少个控制步骤。控制线程以机器人频率从已提交的前缀中弹出动作，而并行推理线程在剩余缓冲区低于触发阈值时被唤醒，获取最新观测值，并从服务器请求下一个分块。关键规则是 UAC 永远不会重写已提交的前缀：它只会在估计的推理延迟之后将未来的后缀拼接回缓冲区。这种前缀锁定/后缀更新的设计可以吸收模型、传输和调度方面的抖动，而无需更改策略接口本身，并且使得相同的部署协议可以在具有不同控制频率和特定于实例的动作维度的平台上使用。

UAC 是一种将分块预测转换为连续控制的部署协议。它保持了时间连续性，减少了可见的控制卡顿，并保持了不同实例的评估堆栈一致。
对于 Unitree G1，该策略仍然公开了与部署堆栈其余部分相同的 26 自由度动作接口。新增的后端是一个预训练的 AMO 控制器 [78]，用作人形机器人执行的平衡感知底层全身模块。在集成中，AMO 负责 50 Hz 的 Unitree 身体控制回路，根据最新的上臂目标预测下半身和腰部指令，并组合最终的身体指令以执行。同时，Linkerbot O6 的手部仍然通过与其他实现相同的手部接口进行控制。这既保持了上半身策略接口的一致性，又为 G1 提供了稳定的全身执行。

其为 Being-H0.7 设计 12 个新的真实机器人任务，并将它们组织成五个面向能力的套件：动态场景、物理推理、运动推理、长时域执行和泛化。这些任务套件的设计初衷是组合式的：单个任务可能同时考验多种能力，例如对移动目标做出反应，同时还要推理物体轨迹、重力、包含关系或多阶段子目标。为了便于报告，每个任务都被分配一个主要套件，并可添加可选的重叠标签，套件级别的平均值是对所有带有相应套件标签的任务计算得出的。

这五个套件针对不同的难度来源。动态场景任务要求策略在移动物体或变化的场景离开可行交互窗口之前做出反应。物理推理任务要求预测由重力、流体转移、可变形接触、包含关系或工具介导的交互引起的后果。运动推理任务强调轨迹预测、相对速度和接触时间。长视野任务强调子目标记忆和跨多个阶段的顺序一致性。泛化任务侧重于在布局、货架层级、容器和物体实例发生变化的情况下保持任务结构。

评估协议

通过统一的黑盒推理服务器部署所有对比策略。该协议确保所有方法的执行栈保持一致。对于每个任务，预先定义一组场景布局和初始条件，然后在评估过程中随机化测试策略的端点和展开顺序。操作员使用为该任务定义的固定二元标准记录任务成功与否，同时隐藏当前策略的端点。除非另有说明，每个任务均使用每种方法进行 20 次盲测。

该协议在此尤为重要，因为一些新的测试套件除了考察终端抓取精度外，还会显式地考察反应质量。例如，涉及动态场景变化、柔性物体或类似液体的交互的任务可能对策略更新的微小时间差异非常敏感。共享的部署服务器和固定的盲测评估流程确保了这些对比在不同方法之间的一致性。