在野外环境中学习潜动作世界模型

硅谷秋水

454人浏览 · 2026-03-14 00:15:00

硅谷秋水 · 2026-03-14 00:15:00 发布

26年1月来自Meta、Inria和NYU的论文“Learning Latent Action World Models In The Wild”。

能够在现实世界中进行推理和规划的智体需要具备预测其行为后果的能力。虽然世界模型具备这种能力，但它们通常需要行为标签，而大规模获取行为标签可能非常复杂。这促使人们学习潜动作模型，该模型仅从视频中就能学习行为空间。本文工作旨在解决在真实场景视频中学习潜行为世界模型的问题，从而扩展现有工作的范围，这些现有工作主要集中于简单的机器人模拟、视频游戏或操作数据。虽然这能够捕捉更丰富的行为，但也带来源于视频多样性的挑战，例如环境噪声或视频间缺乏通用的具身性。为了应对其中一些挑战，讨论行为应遵循的属性以及相关的架构选择和评估方法。连续但受约束的潜行为能够捕捉真实场景视频中行为的复杂性，这是常用的矢量量化方法所无法做到的。例如，来自智体的环境变化（例如人进入房间）可以跨视频传递。这凸显学习特定于真实场景视频的动作的能力。由于视频之间缺乏通用的具身模型，主要能够学习到相对于摄像机在空间中定位的潜动作。尽管如此，仍然能够训练一个控制器，将已知动作映射到潜动作，从而能够将潜动作用作通用接口，并使用世界模型解决规划任务，其性能与基于动作的基线模型相近。

潜动作模型。潜动作模型旨在从未标注的视频中学习动作。通常的做法是学习一个逆动力学模型，该模型根据过去帧和未来帧预测潜动作；以及一个正向模型，该模型根据过去帧和潜动作预测未来帧（Schmidt & Jiang，2024）。这会导致信息因果泄漏，一个关键挑战是确保潜动作不会捕获过多信息，例如整个下一帧。一种常用的方法是将潜动作离散化。LAPO（Schmidt & Jiang，2024）、Genie（Bruce，2024）、LAPA（Ye，2025）或 UniVLA（Bu，2025）等方法均采用这种方法。例如，这可以基于对期望动作空间的先验知识（Bruce et al., 2024）。其他方法，如CoMo（Yang et al., 2025）或AdaWorld（Gao et al., 2025），则选择连续空间，这种空间本身就更灵活。在这种情况下，可以添加正则化项来降低潜动作的信息含量。此外，尽管许多方法使用现成的视觉编码器对帧进行编码，但潜动作仍然通常是通过预测像素空间中的未来帧来学习的（Chen et al., 2025; Yang et al., 2025; Ye et al., 2025）。这使得潜动作更容易受到干扰因素的影响（Nikulin et al., 2025），导致潜动作学习编码背景噪声而不是期望的动作。虽然使用监督学习是一种解决方案（Nikulin et al., 2025; Liang et al., 2025），但在抽象的潜空间中并精心设计潜动作可以帮助避免其中一些问题。总的来说，尽管学习潜动作显然适用于世界模型，但现有方法往往是针对视觉-语言-动作（VLA）开发的（Bu et al., 2025; Ye et al., 2025）。即使这些方法在架构上与世界模型相似，前向模型/动作解码器可以被视为世界模型，但它们通常被舍弃。即使训练世界模型，通常也采用两阶段方法，即在逆动力学模型之后训练世界模型（Yang et al., 2025）。Wang et al.（2025）提出将前向模型视为世界模型，方法是重用预训练的视频生成模型作为世界模型。

为了学习一个真正通用且可迁移的潜动作世界模型，必须超越这些特定数据源。诸如 HowTo100M (Miech et al., 2019) 或 YoutubeTemporal-1B (Zellers et al., 2022) 等自然场景视频数据源，提供比通常研究的更为丰富和通用的学习环境，如图所示。然而，这也带来了一系列新的研究挑战，本文旨在探讨这些挑战，以证明 LAM 在大规模自然场景视频中的可行性。
请添加图片描述

首先，自然场景视频中“动作”的含义不像在已知动作空间的环境中那样清晰。打个比方，动作的第一维度——或者说主成分——可以是运动，这是所有视频数据源共有的特征。由此，可以将动作区分为以自我为中心的动作和以外部为中心的动作，从而区分佩戴摄像机者的动作和环境中其他主体的动作。在真实场景视频中，除了佩戴摄像头者自身的动作之外，还会看到更多外部主体执行各种不同的动作。深入分析动作分布，真实场景视频会包含一些独特的动作，例如汽车驶入画面、人们跳舞、手指在指板上弹奏和弦等等。这造就旨在建模的丰富动作。与电子游戏或操控视频相比，真实场景视频提供更丰富的动作集，这意味着仍然能够解决更经典的导航或操控任务。虽然以往研究中使用的数据源主要包含动作的隐喻性第一主成分，但尝试对更多样化的动作进行建模可能会捕捉到更多环境噪声（Nikulin et al., 2025），例如树叶的摇曳。最后，真实场景视频中的主体没有模型可以依附的统一具身性，这给学习的潜动作迁移和后续应用带来挑战。

因此，本文工作重点在于研究在大规模真实视频数据集上训练的潜动作世界模型，研究潜动作在这种设置下固有的挑战和潜在陷阱，并证明其可行性。

考虑一个视频 V，其中每个时间步 t 的世界状态为 s_t，感兴趣的是模拟世界的演化，即找到一个函数 f，使得 s_t+1 = f(s_0:t)。然而，由于智体的存在以及普遍存在的随机性，预测是不确定的，因此这种表述并不充分。用包含相关信息的潜变量 z_t 来模拟预测的不确定性，使得 s_t+1 = f(s_0:t, z_t)。另一种模拟不确定性的方法是不直接考虑 s_t+1，而是输出一个关于可能未来状态的分布 p(s_t+1 | s_0:t)，这在文本中很常见（Radford，2018），或者在量化表示中也很常见（Hu，2023；Agarwal，2025）。

尽管如此，将未来预测形式化为 s_t+1 = f(s_0:t,z_t) 仍然很有吸引力，因为可以将 z_t 的一部分解释为场景中发生的动作。例如，在学习机器人世界模型时，在简单的环境中，除了智体的动作之外不存在任何随机性。因此有 s_t+1 = f(s_0:t,a_t)。如果环境是随机的，既有来自环境的噪声，也有来自智体的动作，这就需要比之前更复杂的形式化，即 s_t+1 = f(s_0:t, a_t, z_t)。这让人联想到基于扩散的世界模型（例如 Alonso，2024；Bar，2024）。

潜动作模型（Schmidt & Jiang，2024）旨在对场景中发生的动作进行建模，而不捕捉可能来自环境的外生噪声。为此，大多数方法通过观察未来来推断 z_t，从而引入因果关系泄漏。这通常使用逆动力学模型（IDM）来实现，该模型以过去帧和未来帧作为输入，并输出潜动作 z_t = g_φ (s_t , s_t+1 )。

由此，可以训练一个世界模型（也称为前向模型）p_ψ，并使用以下损失函数来估计 s_t+1：L_t = ||s_t+1 −p_ψ(s_0:t,z_t)||_1，其中 z_t =g_φ(s_t,s_t+1)。

在干净的环境中，这种方法效果很好（Hoque et al., 2025; Yu et al., 2020），因为随机性主要来源于定义明确的智体执行的动作。然而，在实际场景的视频中（Zellers et al., 2022; Miech et al., 2019），存在捕捉到外生噪声（例如树叶的摆动）的显著风险。因此，限制潜动作的信息含量至关重要，需要在捕捉复杂动作和捕捉噪声之间取得平衡，甚至避免将整个下一个状态编码到潜动作中。

总的来说，这种信息正则化的目标是找到能够解释未来预测的最小潜动作。本文重点关注三种不同的机制，每种机制都有其优缺点。

稀疏性。第一种机制，或许也是实现起来最复杂的，是基于稀疏性的约束（Drozdov et al., 2024）。在此，希望潜动作的 L1 范数尽可能低。由于一些平凡的解决方案会降低向量的 L2 范数、将范数集中在少数几个维度上，或者过于集中在潜分布的模式附近，因此添加一些额外的正则化项。正则化项为：

L(Z) = VCM(Z) + sum(E(Z_i))/N,

其中
请添加图片描述

这种方差-协方差-均值 (VCM) 正则化项，其灵感来源于 VICReg（Bardes，2021），它确保信息的充分分散，并强制模型正确利用稀疏性约束。在实践中，将系数设置为 λ_l2 = 1，λ_V = 0.1，λ_C = 0.001，λ_M = 0.1，并通过改变 λ_1 来调节信息含量。

噪声添加。另一种限制学习的潜动作信息量的方法是向其添加噪声，同时确保其范数不会增加，并且噪声可以忽略不计。这可以采用类似于变分自编码器（VAE）的方式实现（Kingma & Welling，2014；Gao，2025）。这里的先验匹配项充当正则化项，其中目标标准差添加噪声，而目标均值降低潜动作的范数。

L(z_t) = −β D_KL (q(z_t|s_t, s_t+1)||N (0, 1))

离散化。最后一种方法是对潜动作进行离散化。为此，最常用的方法是矢量量化（Van Den Oord，2017）或其变型。这可以作为基准比较，以说明先前工作中常用的正则化方法（Ye，2025；Bu，2025）。在实践中，采用与 UniVLA (Bu et al., 2025) 相同的量化方案，使用经典矢量量化 (Van Den Oord et al., 2017) 以及对未使用的码字进行码本重置。

所有这些操作都可以在训练好的编码器的潜空间中完成，其中 s_t 和 s_t+1 是从视频帧中获得的表示，这便构成如图所示的完整架构。
请添加图片描述

在实验中，长度为 T 的视频 V 通过帧因果编码器 f_θ –V-JEPA 2-L (Assran，2025) 进行编码，生成表示 s_0:T−1。该编码器在训练过程中保持冻结状态。然后，联合训练世界模型 p_ψ(s_0:t, z_t) 和逆动力学模型 g_φ，以使用上述预测损失和潜动作正则化来预测 s_t+1。

为了提高效率，用教师强制 (Williams & Zipser，1989；Vaswani，2017) 来训练模型。默认情况下，使用 RoPE (Su，2021；Assran，2025) 实现p_ψ 为 ViT-L (Dosovitskiy，2021)，用于位置嵌入。为了使 p_ψ 与 z 成正比，用 AdaLN-zero（Peebles & Xie，2023），并对其进行调整以逐帧地对序列进行条件化。潜动作 z_t 默认是 128-维连续向量。除非另有说明，所有模型均在 YoutubeTemporal-1B 数据集（Zellers，2022）上进行训练，使用 16 帧/秒、4 fps 的片段，迭代 30000 次，批大小为 1024。用学习率为 0.02 的 Muon 优化器（Jordan，2024）和学习率为 6.25 × 10−4 的 AdamW 优化器（Loshchilov & Hutter，2019），在 10% 的训练时间内进行线性预热，然后进行余弦退火。权重衰减系数为 0.04。

为了便于可视化，还使用结合 L1 损失和感知损失的 ViT-L 模型训练一个帧因果视频解码器（Johnson，2016；Zhang，2018）。虽然视频生成并非工作的核心，但它是计算感知指标和检查模型预测结果的有效工具。

潜动作空间的一个应用是将其用作各种实现方式的通用接口。如果能够学习从“真实”动作到潜动作的映射，就可以以一种可解释的方式控制世界模型。

控制器训练。第一步是训练一个模块，使其能够从真实动作（以及可选的表示）映射到潜动作。如果仅使用动作，用一个简单的多层感知器（MLP）；如果同时使用动作和过去的表示，用基于交叉注意机制的适配器。然后，只需训练该控制器模块，使其使用 L2 损失来预测潜动作。在下图中展示这一过程。由于学习的潜动作与相机位置相关，因此仅使用动作可能不够，因为目标潜动作不仅会根据动作而变化，还会根据相机位置而变化。在实践中，如果不使用过去的表示，控制器会收敛到一个不会导致任何运动的潜动作。
请添加图片描述

展开质量。用 DROID（Khazatsky，2024）和 RECON（Shah，2021）数据集训练控制器。DROID 是一个机器人操作数据集，而 RECON 是一个导航数据集。DROID 允许在摄像头固定但智体在场景中移动的数据上评估模型，而 NWM 则包含静止的场景，但摄像头佩戴者是移动者。使用控制器时，模型能够实现高质量的预测。使用控制器获得的预测结果与使用 IDM 获得的预测结果非常相似，只是动作略微保守一些。

然而，在实际场景视频上的预测误差（即潜动作的容量）与使用控制器时的展开质量之间缺乏相关性。对于稀疏和噪声潜动作，使用约束最多或最少的设置并非最优，而更平衡的正则化能够带来最佳预测。这可以直观地解释为：约束过多的潜动作包含的信息不足，而约束不足的潜动作则包含过多的未来信息。这与之前观察的趋势一致，即约束更多的潜动作迁移效果更好，而更自由的潜动作可以捕捉更精细的运动。由于此处动作空间较为简单，即使是离散的潜动作也能很好地工作，这与之前的研究（Bu et al., 2025; Schmidt and Jiang, 2024）中的选择相符。

规划性能。现在可以使用训练好的控制器，并利用现有协议在基于目标的规划任务上评估性能。给定初始观测值s_t和目标观测值s_g，寻找一个动作序列，使预测状态和目标状态之间的距离最小化。

对于DROID控制器，采用Terver（2025）的协议，并使用一组在Franka Emika Panda机器人上于真实世界录制的视频。考虑的目标是将机械臂移动到特定目标位置的轨迹。用交叉熵方法（CEM）（Rubinstein，1997）在H=3步的水平面上进行规划，并将模型性能与V-JEPA 2-AC的性能进行比较。V-JEPA 2-AC的训练方式与该模型类似，但使用的是已知动作。此外，还将模型性能与Terver（2025）基于V-JEPA 2的最佳模型进行比较，以确定性能上限。为了衡量性能，采用到目标的距离（∆xyz），由于平移的组合性，该距离可以轻松计算。虽然性能仍低于专门设计的模型，但模型能够达到与 V-JEPA 2-AC 类似的性能，这表明学习的潜动作可以有效地用作规划任务的接口。在此，容量更高的潜动作，即使可能导致较差的展开效果，也能带来最佳的规划性能。值得注意的是，相对而言，当展开效果最差时，噪声潜动作反而能获得最佳的规划性能。

在导航任务中，用在 RECON 数据集上训练的控制器，遵循 NWM 协议（Bar，2024），并使用 CEM 进行规划来评估性能。主要采用规划轨迹与真实轨迹之间的相对位姿误差 (RPE)（Sturm，2012）作为主要评价指标。在此也得出类似的结论，这些模型虽然性能不及NWM，但能够超越基于策略的基线模型，例如NoMaD（Sridhar，2024）。以自我为中心的导航方式的难点在于，每次预测步骤中都会有额外信息进入画面，这使得生成清晰的展开图变得更加困难，并降低规划性能。

尽管如此，轨迹的质量与规划性能并非完全相关。这是世界模型中普遍存在的挑战（Zhang et al., 2025）。总体而言，仅使用真实场景视频训练的模型能够学习到可有效复用的潜动作空间，用于解决简单的规划问题，其中含噪声的潜动作空间效果最佳。