摘要

近期潜在世界模型(如 V-JEPA2)在从视频观测预测未来世界状态方面展现出可观能力。然而,基于短观测窗口的稠密预测会限制时序上下文,并使预测器偏向局部、低层次的外推,难以捕捉长时程语义,降低下游任务实用性。相比之下,视觉 - 语言模型(VLM)通过对均匀采样帧进行推理,具备强大的语义锚定与通用知识建模能力,但因计算驱动的稀疏采样、语言输出瓶颈(将细粒度交互状态压缩为文本导向表示),以及适配小样本动作条件数据集时的数据分布不匹配,并不适合作为独立的稠密预测器。

本文提出一种VLM 引导的 JEPA 式潜在世界建模框架,通过双时序路径融合稠密帧动态建模与长时程语义引导:一条稠密 JEPA 分支用于捕捉细粒度运动与交互线索,一条大时序步长、均匀采样的 VLM 推理分支提供富含知识的引导。为有效传递 VLM 的渐进式推理信号,本文引入层级金字塔表示提取模块,将多层 VLM 表示聚合为适配潜在预测的引导特征。在手部操作轨迹预测实验中,该方法优于纯 VLM 基线与 JEPA 预测器基线,且长时程滚动预测行为更稳健。

关键词:潜在世界模型;V-JEPA;视觉 - 语言模型

1 引言

世界模型旨在学习环境的预测性抽象表示,以支持预测、规划与控制。其中,潜在世界模型尤为受关注:通过在表示空间中进行预测,避免生成高计算成本且对下游决策非必需的逼真像素或精细 3D 几何结构。以 JEPA 类方法(如 V-JEPA2)为代表的范式,在提升效率的同时,促使模型更关注高层次结构(如动态与物理约束),而非过度拟合外观信息。

尽管 V-JEPA2 及其变体取得显著进展,现有 JEPA 式潜在世界模型仍存在两大核心局限:

  1. 预测时序视角受限:多数方法依赖短窗口稠密采样帧预测未来潜在表示,虽能捕捉细粒度运动,但限制时序上下文,使预测器偏向局部动态,丢失对鲁棒预测至关重要的长时程语义与事件级线索。
  2. 语义锚定与通用知识对齐薄弱:潜在空间通常通过自监督视觉表示学习(多基于掩码重建 / 预测目标)习得,特征对运动敏感,但与开放词汇概念、组合知识的对齐有限。模型仅能学习物体运动方式,却无法理解实体类别、关键属性与关系,泛化能力局限于窄领域(如单一操作数据集)。

视觉 - 语言模型(VLM)是自然的替代方案,其凭借大规模预训练与多模态对齐,在视频高层次理解与推理上表现优异。对大步长均匀采样帧处理时,VLM 可捕捉长程上下文、识别实体及其属性,并利用纯视觉潜在预测器缺失的通用世界知识。这种互补性催生了新思路:将 VLM 作为推理器引导潜在世界建模。但直接将 VLM 作为独立稠密预测器并不实用,且细粒度动态表示效果欠佳,原因如下:

  • 计算驱动的稀疏性:视频 VLM 受二次注意力成本与 GPU 内存限制,通常仅处理少量均匀采样帧,虽能提供长时程上下文,但难以建模物理交互与操作所需的高帧率、细粒度动态。
  • 语言输出瓶颈:多数 VLM 流程最终输出文本(描述、推理、动作说明),视觉信息经多层 Transformer 逐步向文本生成目标与离散令牌预测转换,导致细粒度空间细节与连续交互状态(如接触、精确轨迹、快速运动)被压缩为文本适配表示,虽利于语义识别,却难以支撑精准物理预测,基于 VLM 输出的文本规划逻辑连贯但物理不一致。
  • 数据分布不匹配:将 VLM 用于领域特定预测或控制时,需适配小规模领域数据集,直接微调会破坏通用知识与语义能力(如灾难性遗忘)。

综上,VLM 更适合作为语义与知识引导器,而非独立稠密预测器。因此,本文将 VLM 推理分支集成到 JEPA 式潜在世界模型中,在统一框架内融合稠密帧动态建模与长时程语义引导。具体而言,保留 V-JEPA 类模型的稠密帧观测路径以保留细粒度运动与交互线索,新增第二条路径将均匀采样帧输入 VLM,获取长时程、高知识含量的引导信号,并注入 JEPA 预测器,提升语义锚定能力与未来潜在预测的泛化性。

另一挑战是如何从 VLM 中提取有效引导:仅使用 VLM 最后一层特征效果欠佳 —— 深层特征更偏向文本生成目标,而中间层包含更丰富的视觉推理线索与空间敏感度。受此启发,本文提出层级金字塔表示提取模块,聚合 VLM 多深度表示并提炼为适配 JEPA 预测器的引导特征,使预测器受益于 VLM 的渐进式推理过程,而非单一终端表示。

本文贡献总结:

  1. 提出VLM 引导的 JEPA 式潜在世界模型,将 VLM 作为推理器,为未来潜在预测提供语义锚定与通用知识引导。
  2. 设计双时序感知路径:①稠密帧 JEPA 路径,建模细粒度动态;②大步长均匀采样 VLM 路径,捕捉长时程上下文与高层次概念。
  3. 引入层级金字塔表示提取模块,聚合 VLM 多层特征,保留视觉推理线索并有效注入 JEPA 预测器。大量实验表明,该方法在表示质量与下游性能上均优于 V-JEPA 预测器基线与开源 SOTA VLM 基线(Qwen3-VL (Thinking)),在手部操作轨迹预测任务上提升显著。

2 相关工作

2.1 潜在世界模型与预测性表示学习

潜在世界模型旨在学习环境的预测性抽象,支撑预测、规划与控制。通过在习得表示空间建模动态,无需显式生成高维观测即可高效预测未来状态。近期预测性表示学习进一步强化该范式,JEPA 类方法通过预测目标学习表示,促使模型捕捉运动模式、物理交互等高层次结构。V-JEPA2 等系统验证了该范式的可扩展性,在视频理解与世界建模上效果优异。

尽管如此,多数潜在世界模型仅从视觉信号学习,缺乏与开放词汇语义、外部知识的对齐,限制了复杂预测场景下对高层次线索的利用。

2.2 面向多模态理解的视觉 - 语言模型

视觉 - 语言模型(VLM)通过大规模图像 - 文本数据对齐视觉与文本模态,在多模态表示学习上取得突破。早期方法聚焦联合表示学习与图像描述、视觉问答等多模态理解任务;近期多模态大语言模型(MLLM)将预训练语言模型扩展至视觉令牌处理,具备指令遵循与多模态推理能力,典型如 LLaVA 系列通过投影层或交叉注意力机制融合视觉编码器与大语言模型。

这类模型虽具备强大语义推理与多模态理解能力,但主要为感知与推理任务设计,未针对结构化物理动态建模优化。

2.3 多模态融合与语言引导预测

语言逐渐成为视觉生成与决策系统的高层次控制信号,文本条件生成模型支持自然语言引导图像合成与编辑,如 DALL・E、Imagen、DiT 等扩散模型。语言引导也被用于具身决策框架,大语言模型为感知与动作提供高层次指令或目标。这类工作验证了语言作为柔性接口控制视觉与具身系统的潜力,但利用语言信号引导结构化物理预测的研究仍较少。

近期有工作尝试将语言模型与 JEPA 类表示结合,但方向与潜在世界建模不同。例如,VL-JEPA 将语言信号融入联合嵌入预测框架,或把 V-JEPA 表示输入大语言模型用于视频理解。这类设计虽适用于多模态理解,但将主输出接口转向文本生成,未为下游世界模型任务保留潜在预测接口。与之不同,ThinkJEPA 保留 JEPA 式潜在预测,将 VLM 语义作为引导注入 JEPA 预测器,在维持稠密潜在预测的同时补充长时程语义线索。

3 方法

3.1 问题定义

基本设置:给定包含 N 帧的视频片段 v,目标是预测未来潜在表示以支撑下游任务,本文聚焦3D 手部轨迹预测。采用 JEPA 式潜在世界建模范式:视觉骨干将视频帧编码为潜在令牌,Transformer 预测器从历史观测预测未来潜在令牌。为提升语义锚定与长时程推理能力,预测器额外条件化于视频 VLM 推理模型(本文采用 Qwen3-VL (Thinking))的缓存特征,由该 VLM 提供富含知识的引导。

递归长时程潜在预测:当预测时长超过单次前向传播支持的片段长度时,采用 JEPA 类预测器通用的递归滚动策略。预测器将上一步预测的潜在令牌作为下一步输入,迭代滚动生成超出原窗口的未来潜在表示。递归虽支持任意长时程预测,但易随时间累积误差。因此,实验同时评估单次预测与递归滚动,并分析长时程预测的鲁棒性。

3.2 双时序感知场采样架构

融合 VLM 推理与潜在世界建模的核心挑战,是精准动态预测所需的稠密时序信号语义理解、事件推理所需的长时程时序上下文之间的不匹配:稠密采样保留高频运动与交互线索,但覆盖时长短;稀疏均匀采样覆盖时长长,但丢失稠密运动细节。为在计算与内存预算内平衡该矛盾,ThinkJEPA 采用双时序感知场设计,为两条互补分支分配不同功能。

给定输入视频片段​,构建两种时序采样输入:

  1. 均匀采样片段v_u:用于 VLM 推理分支,提供大时序感知场以捕捉全局上下文与语义。
  2. 稠密采样片段v_d:用于 JEPA 分支,提供高频时序线索以实现细粒度潜在预测。两条分支源于同一视频,层级对齐,后续通过逐层引导注入融合。
VLM 推理分支的大时序感知场采样

视频 VLM 凭借大规模多模态预训练,擅长语义锚定、实体 / 属性 / 事件关系识别。但 Transformer 类 VLM 处理长视频受二次注意力成本与内存限制,单次前向传播处理帧数有限,因此普遍采用均匀时序采样:选取少量帧覆盖长时程。该方式虽丢失稠密运动细节,但最大化时序覆盖,使 VLM 能推理长程上下文。

ThinkJEPA 沿用该策略,将 VLM 分支专门用于长时程语义与知识引导(而非稠密动态预测),采用 Qwen3-VL (Thinking) 作为 VLM 推理器,并缓存其中间表示以高效条件化潜在预测器。形式化定义均匀采样片段:

其中N_u为 VLM 分支采样帧数,在有限计算下覆盖全片段,提供大时序感知场。

JEPA 分支的稠密帧采样

JEPA 式潜在世界建模需要稠密时序观测以精准预测未来潜在表示,细粒度动态、接触变化、微妙交互常表现为高频时序信号,稀疏采样难以捕捉。因此,ThinkJEPA 对 JEPA 分支采用稠密采样策略,限定于较短观测窗口并保留所有帧。形式化定义以帧索引t0​为起点的稠密片段:

其中Nd​为稠密采样帧数。V-JEPA 骨干将vd​编码为逐帧块令牌,生成历史潜在令牌Fpast;JEPA 式预测器从Fpast预测未来潜在令牌F^fut,这些预测潜在值作为下游头(如轨迹回归)的目标表示,VLM 分支则提供互补的长时程语义引导。

双时序采样的必要性

VLM 均匀采样与 JEPA 稠密采样并非冗余,而是针对不同失效模式设计:均匀采样使 VLM 推理器获取短稠密窗口难以推断的长程上下文与语义,稠密采样则精准建模稀疏 VLM 输入无法可靠表示的高频动态。通过耦合两种感知场并将 VLM 引导注入 JEPA 预测器,ThinkJEPA 在未来潜在预测中同时受益于长时程语义上下文与细粒度动态线索。

3.3 JEPA 式潜在令牌化与预测

视觉骨干将稠密采样片段编码为逐帧空间令牌F∈RB×T×P×D,其中 B 为批次大小、T 为观测窗口帧数、P 为每帧空间令牌数、D 为骨干潜在维度。将片段划分为历史与未来段,使用掩码令牌 Transformer 预测器从历史令牌预测未来潜在令牌。预测器在内部维度Dp​运行,并将输出投影回骨干潜在空间 D。

JEPA 分支的滚动预测

稠密采样输入虽提供强运动与交互线索,但受计算与内存限制,单次前向传播处理时长有限。对于超出 JEPA 观测窗口的视频,采用递归滚动:重复预测下一阶段,并将预测潜在值输入后续步骤。

设 w 为每个 JEPA 窗口帧数(如​),k 为滚动步骤索引。第 k 步,预测器接收历史潜在令牌并输出未来潜在令牌

下一步,将历史令牌设为上一步预测的未来令牌(或包含其的滑动窗口):

​通过迭代上述公式,可生成任意长时程潜在预测。

滚动虽支持长时程预测,但易累积误差,且受窗口内局部时序上下文限制。因此需引入 VLM 推理器引导,提供互补的长时程语义上下文以稳定预测、提升泛化性。

3.4 VLM 推理器:层级金字塔表示提取

通过注入 VLM 引导实现互补

已有工作尝试融合语言与 JEPA 类表示,如 VL-JEPA、将 V-JEPA 特征输入 LLM 用于视频理解等,多将 JEPA 特征作为语言模型输入,虽适用于视频转文本理解,但将输出空间转向文本生成,未直接保留下游预测所需的潜在世界模型接口。与之不同,本文目标是保留 JEPA 式潜在预测,同时利用 VLM 语义作为引导。这要求 VLM 提供有效长时程语义上下文,且不替代 JEPA 预测器的稠密动态建模。

如 3.2 节所述,均匀采样使 VLM 推理器在有限计算下获取长程上下文与事件语义,稠密采样为 JEPA 分支提供高频时序信号以实现细粒度动态。通过逐层注入 VLM 引导融合两条路径,形式化表示为:

其中为 V-JEPA 骨干从稠密片段提取的历史潜在令牌,为均匀片段的 VLM 引导特征,p 为 VLM 推理器的文本提示,为 V-JEPA 预测器。实际应用中,VLM 推理器提示 p 由通用摘要请求生成,内容从片段元数据(任务名、场景描述)填充,帮助推理器聚焦相关实体与事件。

层级金字塔表示提取

关键问题是哪些 VLM 表示最适合引导潜在预测:仅用最后一层 VLM 特征效果欠佳,深层特征更偏向文本生成目标,而中间层保留更丰富的视觉推理线索与空间敏感度。已有研究表明,聚合 LLM 中间层表示在下游任务上优于单终端层,且视觉编码器输出经多模态融合与文本解码后会丢失细粒度线索。

受此启发,本文提出层级金字塔表示提取模块,聚合 VLM 多深度信号:融合①VLM 视觉编码器(ViT 令牌化器)的视觉令牌、②所选语言模型层的中间隐藏状态,形成 VLM 深度金字塔。将这些多深度特征池化并投影到预测器空间,得到引导特征ϕ(vu​),同时保留低层次视觉线索与高层次语义推理轨迹。

逐层引导注入

通过 ** 特征级线性调制(FiLM)** 将提取的推理器引导注入 JEPA 预测器。对预测器块ℓ,引导生成调制参数,调制块输入:

该方式实现逐层、样本专属的条件化,将语义与知识线索注入潜在预测,无需 VLM 充当稠密预测器。

下游回归联合预测

基础设置中,遵循标准 V-JEPA 下游协议,将预测潜在令牌输入任务头进行轨迹回归。长时程递归滚动预测时,将历史潜在值与预测未来潜在值拼接为全长令牌序列,输入时序回归头生成目标轨迹。

3.5 实现细节

  • 骨干:采用 V-JEPA-L 骨干(vit large rope)提取逐帧块令牌,潜在维度D=1024。
  • VLM 注入式 V-JEPA 预测器:预测器内部维度Dp​=384,通过逐层 FiLM 调制注入 VLM 推理器引导,基于缓存的 Qwen3-VL (Thinking) 表示条件化每个预测器块。缓存提供编码器令牌与自回归(AR)令牌,投影至Dp​后池化,经轻量级 MLP 适配器映射为逐层 FiLM 参数。层级金字塔提取缓存 VLM 层L={0,4,8,12,16,20,24,27}的中间隐藏状态。
  • 轨迹头:采用轻量级时序轨迹回归头,每帧内通过可学习查询的注意力池化聚合空间令牌,生成逐帧表示;再通过时序 MLP 块建模帧间依赖,经步长 2 时序下采样对齐时序分辨率与预测时长;最后线性回归 3D 轨迹,输出形状 32×52×3。

第 4 章 实验

4.1 数据集

在两个第一人称视频基准上评估 ThinkJEPA:EgoDexEgoExo4D

  • EgoDex:大规模第一人称精细操作基准,提供第一人称视频与 3D 手部(及手指)姿态标注,天然适配本文的潜在预测与轨迹回归任务。
  • EgoExo4D:大规模多模态、多视角人类熟练行为数据集,包含同步的第一人称与第三人称视频,以及 3D 人体姿态、3D 手部姿态、视线等丰富标注,可用于从第一人称视频评估人体运动。

4.2 评估指标

报告标准轨迹误差与潜在预测诊断指标。

  • 轨迹指标
    • ADE(平均位移误差):所有未来帧与关节的欧氏距离均值,按批次平均。
    • FDE(最终位移误差):未来最后一帧关节欧氏距离均值,按批次平均。
    • Acc(准确率):预测关节位置欧氏误差低于 0.05 米的比例,按时间与关节聚合。
  • 潜在预测指标用预测与目标潜在值之间的三种距离指标评估表示级预测质量:
    • FD:特征 L2 距离
    • SL1:平滑 L1 距离
    • CD:余弦距离(定义为 1−余弦相似度)
  • 滚动预测指标递归滚动评估中,报告不同时长 H 下的A@H(ADE@H)与F@H(FDE@H)。

4.3 基线方法与变体

与单分支基线及控制消融实验对比。

  • ThinkJEPA:完整模型,用稠密帧 V-JEPA 令牌做潜在预测,并注入来自编码器令牌与自回归令牌的 VLM 引导。
  • Qwen3-VL Thinking(仅 VLM):清零视觉潜在令牌,关闭稠密 JEPA 输入,仅保留 VLM 分支,用相同下游头训练,检验 VLM 长时程推理能否单独支撑精准稠密轨迹预测。
  • V-JEPA Predictor(仅 JEPA):标准 JEPA 协议训练的 V-JEPA 预测器与相同下游头,无任何 VLM 条件。
  • 消融:令牌来源:分别验证编码器令牌、自回归(AR)令牌、编码器 + AR 令牌的作用。
  • 消融:层选择:对比仅最后一层、仅中间层、多层金字塔的引导效果。

4.4 训练与实验设置

默认使用相同架构与超参数:

  • 学习率 1e-3,预测器学习率 1e-4
  • 训练批次大小 14,评估批次大小 6
  • 随机种子 42
  • 历史 / 未来帧划分:32/32 帧

4.5 长时程滚动评估

用短窗口预测器配置(每步 Tp=4,Tf=4)递归滚动到时长 H∈{4,8,16,32},报告各时长下的轨迹误差与潜在距离指标。

4.6 定量对比

表 1 展示在 EgoDex 与 EgoExo4D 上的主实验结果。ThinkJEPA 在轨迹预测上持续优于两个单分支基线,ADE/FDE 显著更低,Acc 显著更高。

  • 相比 V-JEPA Predictor:注入 VLM 引导在保留稠密动态的同时提升语义对齐,带来大幅增益。
  • 相比 Qwen3-VL Thinking:避免将 VLM 作为独立预测器,得到物理一致性更强的预测。同时,ThinkJEPA 在潜在预测质量上也更优(FD/SL1/CD 更低),说明引导不仅提升下游头,也改善表示预测。

4.7 轨迹预测基线

在 EgoDex 上与 6 种轨迹预测基线对比,包括解码器 - only / 编码器 - 解码器架构结合行为克隆(BC)、扩散模型(DDPM)、流匹配(FM)。结果显示,ThinkJEPA 的 ADE 与 FDE 低于所有基线,优于最强的 BC 基线,证明 VLM 引导的潜在预测比直接用传统策略头预测轨迹更有效。

4.8 VLM 令牌来源消融

表 2 显示,仅用编码器令牌或仅用 AR 令牌,增益有限;仅用令牌而无稠密 JEPA 分支,则退化为仅 VLM 基线。ThinkJEPA 同时融合两种令牌与 JEPA 路径效果最好,说明两类令牌提供互补信号:编码器令牌承载视觉内容摘要,AR 令牌捕获生成侧推理轨迹。移除引导模块后性能回退到 V-JEPA 水平,证明增益来自 VLM 引导。

4.9 VLM 层选择消融

表 4 显示:

  • 最后一层引导:轨迹指标略优
  • 中间层引导:潜在预测质量更优这符合直觉:深层更偏向文本生成,中间层保留更多视觉推理线索,因此多层金字塔聚合能兼顾两者,是本文设计的依据。

4.10 递归滚动:轨迹误差随时长变化

表 5 显示:

  • 仅 VLM 基线随滚动时长快速退化
  • V-JEPA Predictor 相对稳定但逐渐累积误差
  • ThinkJEPA 在所有时长上表现最优,且时长越长提升越明显,说明语义引导能稳定迭代预测、缓解误差累积。

4.11 定性结果

图 2 可视化预测的 3D 手部轨迹,颜色从蓝到红表示时间推进。ThinkJEPA 轨迹更平滑、时序一致、关节对齐更准;

  • V-JEPA 基线常出现时序塌陷,蓝色点集中在小区域;
  • 仅 VLM 基线会出现幻觉(如虚构左手),关节定位与运动更粗糙。

第 5 章 结论

本文提出ThinkJEPA:一种 VLM 引导的 JEPA 式潜在世界建模框架,将视觉 - 语言推理器的长时程语义推理与稠密潜在动态预测相结合。

  • 采用双时序感知设计:VLM 用均匀采样,JEPA 用稠密采样。
  • 通过层级金字塔提取逐层调制,将 VLM 多深度表示注入 JEPA 预测器。该方案在保留下游世界模型任务所需的潜在预测接口的同时,用知识感知引导增强预测。在第一人称手部操作轨迹预测上的大量实验表明,ThinkJEPA 提升了表示级预测质量与下游任务性能,超过强 VLM 基线(Qwen3-VL (Thinking))与 V-JEPA 基线,并具备稳健的长时程滚动行为。未来工作包括将框架扩展到更广泛的具身任务,以及为更长视频与更多样交互场景探索更可扩展的引导机制。

第 6 章 补充材料

所有补充实验均在 EgoDex 上进行,使用相同缓存视觉骨干特征与相同轨迹预测协议。

6.1 提示 + 视频→VLM 条件特征

预测器以缓存视觉特征为主输入,以语言调制的 VLM 特征为外部条件。结果显示,带提示的 VLM 特征有效,但完整 ThinkJEPA 在下游轨迹任务上权衡更优。

6.2 时序步消融

固定架构、训练预算与条件机制,对比步长 1(全稠密)与步长 2(降采样)。结果:更稠密的时序采样能提升轨迹预测与潜在预测质量,完整 ThinkJEPA 进一步最优。

6.3 条件机制消融

对比三种引导注入方式:FiLM、交叉注意力、AdaLN。三种方式均有效,FiLM 在潜在预测质量上最优,且更轻量、更贴合本文目标,因此作为默认选择。

6.4 直接视觉条件与深度栈令牌移除

  • 直接视觉条件:完全移除 VLM,仅用视觉骨干特征
  • 丢弃深度栈令牌:保留 VLM 分支,但移除生成侧思考令牌两者均弱于完整 ThinkJEPA,证明完整 VLM 引导通路最有效。

6.5 纯提示 VLM 基线

直接用 Qwen3-VL (Thinking) 零样本提示输出未来 3D 轨迹,不训练任务头。结果极差(ADE/FDE≈10.8),证明纯提示无法完成细粒度度量空间轨迹预测,也说明本文主实验中的 “仅 VLM 基线” 是更公平的对比(同训练协议、同下游头)。

第 7 章 实现细节

(略)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐