VLA-JEPA：利用潜世界模型增强VLA模型

硅谷秋水

443人浏览 · 2026-03-13 00:15:00

硅谷秋水 · 2026-03-13 00:15:00 发布

26年2月来自中科大、中关村研究院、上海交大、清华、东方理工大学（宁波）、中科院大学和南开的论文“VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model”。

在互联网规模的视频上预训练视觉-语言-动作（VLA）策略极具吸引力，但当前的潜动作目标函数常常学习到错误的信息：它们仍然锚定于像素变化而非与动作相关的状态转换，这使得它们容易受到外观偏差、干扰运动和信息泄露的影响。VLA-JEPA，一个 JEPA 方式的预训练框架，它通过设计规避这些陷阱。其核心思想是无泄漏状态预测（leak-free state prediction）：目标编码器从未来帧生成潜表示，而学生路径仅看到当前观测值——未来信息仅用作监督目标，绝不作为输入。通过在潜空间而非像素空间进行预测，VLA-JEPA 学习到对相机运动和无关背景变化具有鲁棒性的动态抽象。这产生一个简单的两阶段方案——JEPA 预训练后进行动作头的微调——避免了先前潜动作流水线的多阶段复杂性。

机器人潜动作学习

为了利用缺乏动作标签的大规模视频，ILPO [26]、LAPO [64] 和 Genie [11] 提出将潜动作应用于视频游戏。对于机器人学习，LAPA [75]、IGOR [18]、UniVLA [13]、MotoGPT [20]、Adaworld [29]、CoMo [74] 和 StaMo [49] 从帧转换中提取离散或连续的运动tokens，并预训练 VLA 模型来预测这些潜动作，然后再将其映射到真实的机器人控制。为了将潜动作与真实动作空间对齐，villa-x [19]、XR-1 [27]、CLAP [77] 和 VITA [54] 提出从机器人和人类视频中提取潜动作，并使用统一的码本。然而，由于潜动作通常直接从相邻帧学习，模型可能会利用像素级捷径并编码未来帧的泄露信息。尽管 LAOF [14] 和 Motus [7] 提出使用光流来约束潜动作空间，但它仍然将可控动态与相机运动和背景变化混淆在一起。因此，学习的潜空间可能更倾向于与视觉增量而非可操作的控制信号对齐，这需要多阶段训练流程和额外的对齐机制 [78]。

为什么潜动作预训练经常偏离动作语义？

基于无标签视频构建的潜动作预训练流程中反复出现四种失败模式：

像素级目标函数使表示偏向于外观而非动作。一种常见的策略是使用“未来”作为监督——要么直接预测未来的像素，要么将帧间变化压缩成一个被解释为动作的潜变量[75, 13, 82]。即使使用诸如 VQ-VAE [67] 之类的压缩机制，监督信号也常常被视觉变化所主导：纹理、光照、背景杂乱和视角。这些因素方差大但难以控制；它们易于预测，但与策略必须掌握的可控自由度之间的联系却很弱。
真实世界的视频会放大噪声运动。这种不匹配在人类视频和自然场景视频中尤为明显[32, 33]，因为在这些视频中，摄像机运动和非因果背景变化可能比交互引起的状态变化更强。基于帧之差的潜动作目标因此倾向于编码这些主导信号，从而将潜动作变成干扰运动的增量帧编码器，而不是有意义的转换动态的表征。
信息泄露导致“潜动作”沦为捷径。一些潜动作流程将当前观测值和未来观测值都输入到同一个模块中，或者允许未来上下文在训练期间影响学习的动作变量，这样可以对转换进行建模[75, 13]。这种设计创建一个简单的捷径：潜动作可以直接编码未来本身，而无需捕捉状态转换应如何解释[78]。由此产生的“动作”在语义上变得空洞（empty）——虽然可用于匹配训练损失，但对控制而言并非有意义的因素。
多阶段训练流程复杂且脆弱。为了稳定训练并缓解上述问题，许多方法依赖于三阶段（或更多阶段）的流程：表征预训练、潜动作学习/对齐，然后是策略学习[75, 19, 27]。这些流程增加工程复杂性，引入阶段间的不一致性，并且使方法的训练和评估变得更加困难。

这些问题共同指向一个根本问题：许多潜动作目标仍然隐式地锚定于像素变化，因此学习的动态具有预测性，但不一定以动作为中心[78]。对于具身控制，需要一个承载价值的潜状态，它能够去除无关的外观，同时保留控制交互下状态演化的因素[33, 58, 70, 36]。这引出一个关键原则：预测反映动作相关转换结构的未来潜状态，同时防止未来信息泄露到预测器中。

这与 JEPA（联合嵌入预测架构）[4, 2, 1, 23] 自然契合，JEPA 用潜空间对齐取代像素重建。通过预测表征而非像素，JEPA 本质上对低级噪声具有鲁棒性，并鼓励语义抽象 [30]。

VLA-JEPA

基于此，本文引入 VLA-JEPA，这是一个专为 VLA 策略定制的 JEPA 式预训练框架。如图所示，其关键设计是无泄漏状态预测：在预训练期间，目标视频编码器根据未来上下文（例如，一段短视频）生成潜目标，而潜动作路径仅通过 VLM 主干网络接收当前观测值。预测器将历史潜状态和潜动作表示映射到未来潜状态，并使用 JEPA 对齐损失将其训练为潜世界模型。关键在于，未来的帧永远不会作为 VLM 主干网络的输入；相反，它们仅用于构建训练目标，从而避免导致潜动作崩溃的捷径。这带来两个好处：（1）对相机运动和背景变化具有语义鲁棒性，因为监督操作是在潜空间而非像素空间中进行的；（2）简化的两阶段流程——先进行 JEPA 预训练，然后进行动作头微调——无需引入辅助模块或重新定义已学习的表示。

为了克服现有方法的局限性，VLA-JEPA，作为一个统一的框架，能够同时对无动作数据和有动作标注数据进行联合预训练。对于无动作的人类视频，VLA-JEPA通过优化基于世界模型的状态转移目标，从视觉语言先验表示中提取潜动作。在此基础上，进一步集成一个基于流匹配的机器人演示动作生成器，以支持精确的末端执行器轨迹生成。在微调过程中，VLA-JEPA实现两个目标的端到端融合，使得学习的状态转移动力学能够有效地用于下游机器人控制。

模型骨干

如图所示，采用Qwen3-VL [3] 作为框架的核心大型视觉-语言模型（VLM）。该VLM基于Qwen3 [73]构建，并使用SigLIP-2 [66] 作为其视觉编码器。众所周知，VLM在大规模预训练过程中获取的世界知识，包括图像理解和关键目标检测，可以迁移到机器人控制任务中。为了从VLM中提取连续的潜动作表示（该表示编码用于世界建模的状态转换信息），引入一组可学习的tokens，分别表示为⟨latent_i⟩和⟨action⟩，其中i表示时间步。例如，⟨latent_0⟩表示s_0和s_1之间的状态转换。为了对连续视频中的状态转换进行建模，用基于V-JEPA2 [2] 训练的编码器架构，将像素级的人类视频编码为时间步感知的特征序列，并采用时间因果注意机制来捕获特征序列和潜动作之间的相关性。
请添加图片描述

从人类视频中学习

为了使 VLM 能够从人类演示视频中学习，设计一个训练框架，该框架将环境动态显式地注入到潜动作token中。具体来说，考虑一个人类视频数据集 D = {(O_0 , O_1 , …, O_v , l)}，其中 l 表示关联的语言指令，每个 O_v 代表从视角 v 拍摄的视频。形式上，O_v = (I_v,t_0, I_v,t_1,…,I_v,t_i)，其中 I 表示从视角 v 拍摄的、时间步为 t_i 的视频帧，n 是视频中的总帧数。

世界状态编码器。与传统的单视角视频表示方法不同，通过世界状态编码器将同一场景中的不同观测值编码为统一的世界状态表示。具体来说，采用自监督的 V-JEPA2 编码器作为单视角视频状态表示，并通过拼接算子整合来自多个视角的表示。每个视图的编码过程以及后续跨视图的聚合过程如下：

s_t_i =||_v F(I_v,t_i) （1）

其中 F(·) 是单视角视频编码器（例如 V-JEPA2），|| 表示向量拼接运算符。得到的 s_t_i 是时间戳 t_i 的统一世界状态表示。

基于世界建模的潜动作预训练。为了鼓励可学习的潜动作token捕捉到状态转换动力学，引入一个基于自回归 Transformer 世界模型的世界状态预测目标。

形式上，VLM 以初始时间步 t_0 的多视角观测值以及语言指令 l 作为输入。基于这些输入，VLM 将一组特殊的可学习token ⟨latent_i⟩ 映射到概括基础世界动态的潜表示：

z_t_i = p^VLM_θ ⟨latent_i⟩ {I_j,t_0}, l), （2）

其中 z_t_i 表示在时间步 t_i 处与第 i 个潜动作token关联的潜表示。

随后，统一表示 z_t_i 用于对世界模型进行条件化，从而为状态预测提供额外的上下文信息。形式上，给定编码后的世界状态序列 s_t_0:i 和相应的条件变量 z_t_0:i，世界模型预测下一个状态块如下：

s_tˆ_1:i+1 = p^WM_θ (s_t_0:i, z_t_0:i), （3）

其中 s_tˆ_1:i+1 是 [t_1, t_i+1] 区间上的预测世界状态块。

实际上，每个特殊潜token ⟨latent_i⟩ 在输入序列中重复 K 次，以实现可变长度的潜动作编码，其中 K 是一个可调超参。世界模型采用时间因果注意机制。在每个时间步内，所有潜动作token和世界状态token都通过双向全注意机制相互关注。在不同的时间步长内，注意严格遵循因果关系：时间步 t 的tokens只能关注到时间步 t（含 t）的token，而对未来时间步长的关注则被屏蔽。

从联合嵌入预测架构 [4, 2] 的角度来看，训练目标可以解释为最大化语义空间中预测对数似然的证据下界 (ELBO)。具体来说，给定生成目标世界状态 s_t_i 的冻结 V-JEPA2 编码器 F(·)，以及基于 z_t_i 预测 sˆ_t_i 的世界模型 p^WM_θ，目标函数可以写成如下形式：
请添加图片描述

其中 F(·) 用作冻结目标编码器（带有停止梯度），p^WM_θ 为在线预测器。实际上，由于 F(·) 生成确定性嵌入，KL 项消失，ELBO 简化为潜空间中的重构损失。

最后，用教师强制目标函数优化组合的世界模型（WM）和视觉语言模型（VLM）。这使得统一表示 z_t_i 能够利用编码在 VLM 中的世界知识，从而有效地刻画世界状态的转换。世界建模损失定义为：
请添加图片描述

其中 s_t_k 是对应的预测值，T 是视频预测范围。

基于联合优化目标的动作预测

动作token条件化。为了利用从视频数据中学习到的潜动作表示来指导动作预测，设计一个联合优化目标。具体来说，对于机器人数据集中的多视角RGB视频，采用与公式（5）相同的训练目标，以微调机器人数据域中的潜动作表示。在实际动作预测中，希望潜动作作为具身动作生成的条件信号，类似于初始图像观测值I_v,t_0和语言指令的作用。因此，在潜动作token之后附加一组可学习的具身动作tokens ⟨action⟩。利用VLM的因果注意机制，该模型能够捕捉⟨action⟩、潜动作tokens、初始视觉观测值和语言指令之间的依赖关系。

形式上，给定初始时间步 t_0 的视觉token {I_i_t_0}、语言指令 l 和潜动作token序列 ⟨latent_i⟩，得到一个全局动作条件表示：
请添加图片描述

其中 z_a 用作基于流匹配动作头的附加调节信号。

条件流匹配的动作头。采用条件流匹配来建模连续动作轨迹上的分布。具体来说，令 a_0:H 表示时间范围 H 内的真实动作序列，aˆ_0:H 表示由学习的流生成所预测动作序列。遵循标准的流匹配公式，定义一个时域-相关的插值：
请添加图片描述

其中 ε ∼ N (0, I ) 为高斯噪声。动作头参数化一个以 z_a 为条件的向量场 v_θ (a_t, t | z_a)，该向量场经过训练以匹配真实条件流。按照标准做法，流匹配目标函数由下式给出：
请添加图片描述

其中 v_θ(·) 表示预测的速度场，(a_0:H − ε) 是由线性插值产生的目标速度，|| · ||_2 表示 l2 范数。

在推理时，将学习的向量场从噪声空间整合到数据空间，以获得基于动作token z_a 的预测动作轨迹 aˆ_0:H。

综上所述，动作标注的机器人数据总体训练目标如下：

L = L_FM + βL_WM, (9)

其中 β 是一个可调超参。

实现细节

在预训练阶段，训练模型中除世界状态编码器之外的所有参数。具体来说，用公式（5）作为训练目标，并在包含 22 万个人类视频的大规模人类动作数据集 Something-Something-v2 [31] 上进行预训练。该模型支持同时使用机器人动作数据和无动作标签的人类视频进行潜动作的预训练。此外，还使用公式（9）作为训练目标，并在包含 7.6 万条高质量演示轨迹的大规模动作标注机器人数据集 Droid [38] 上进行预训练。

在微调阶段，对于 LIBERO 和 LIBERO-Plus，用 LIBERO 数据集，该数据集包含在仿真环境中收集的约 2000 个专家演示，但不包含 LIBERO-Plus 的增强数据集。对于 SimplerEnv，用 Fractal 数据集和 BridgeV2 数据集进行训练后训练，分别对应于 SimplerEnv 中的两种机器人具身类型。在真实世界实验中，用一个包含 100 个演示的数据集进行后训练的训练，该数据集涵盖三个不同的任务。所有实验均在 8 个 NVIDIA A100 GPU 上进行。

仿真设置和基准测试

在 LIBERO [47] 和 SimplerEnv [42] 基准测试平台上进行泛化实验。LIBERO 基准测试平台采用 Franka Emika Panda 机械臂，包含四个任务套件，旨在促进机器人操作终身学习的研究。SimplerEnv 平台则包含 WidowX 和 Google Robot 的设置，提供多样化的操作场景，涵盖不同的光照、颜色、纹理和机器人相机姿态，从而弥合真实环境和模拟环境之间的视觉差异。此外，还在 LIBERO-Plus [28] 基准测试平台上进行鲁棒性实验。LIBERO-Plus 是一个大规模基准测试平台，旨在通过七个维度上的扰动任务系统地测试 VLA的性能。

这三个仿真环境分别对应于：(i) 分布内场景，其中使用模拟专家数据训练的策略在仿真环境中的分布内任务上进行验证（LIBERO）；(ii) 分布外场景，其中存在真实世界数据与仿真数据之间的差距，策略使用真实世界数据进行训练，并在仿真环境中进行评估（SimplerEnv）；以及 (iii) 分布外场景，其中使用模拟专家数据训练的策略在仿真环境中的分布外任务上进行验证（LIBERO-Plus）。

基线。主要将 VLA-JEPA 与之前的潜动作 VLA、未来预测 VLA 以及最先进的开源 VLA 进行比较，包括 Moto [20]、LAPA [75]、UniVLA [13]、villa-X [19]、CoT-VLA [83]、WorldVLA [16]、RoboVLMs [41]、GR00T N1 [8]、OpenVLA-OFT [40]、π0 [9]、π0-Fast [57] 和 π0.5 [34]。

真实世界实验

为了进行真实世界实验，用配备 Robotiq 2F-85 夹爪的 Franka Research 3 机械臂设计桌面操作任务。收集 100 条人类演示轨迹用于训练，其中包括 3 个抓取和放置任务。与仿真实验一致，并超越分布式任务评估，引入两种OOD的实验方案，以严格评估模型的泛化能力和在实际部署中的鲁棒性。第一种 OOD 方案要求执行训练数据中未包含的任务，以验证模型获取和迁移基本技能的能力。第二种方案要求执行训练中出现过的任务，但物体布局随机化，从而模拟真实世界桌面操作任务中常见的杂乱场景。为了公平比较，用收集的演示数据集对 π0 和 π0.5 进行微调。