LeWorldModel 详解:为什么 JEPA 世界模型终于能从原始像素稳定训练,并在 latent 空间里做规划

🧠 LeWorldModel(LeWM)最值得关注的地方,不是“性能一下子碾压所有方法”,而是它第一次把 JEPA 世界模型做成了一个能从 raw pixels 稳定端到端训练、还能直接用于规划的简洁实现。

LeWorldModel 论文于 2026 年 3 月 13 日 上传 arXiv,2026 年 3 月 24 日 更新到 v2。官方同时公开了项目页和代码仓库。


一、先说结论:LeWorldModel 到底重要在哪里?

如果只记一句话,我会这样概括:

LeWorldModel 的核心贡献,不是把 world model 的上限一下子推得特别高,而是把 JEPA world model 从“概念很优雅、训练很脆弱”,推进到了“只靠两个 loss、单卡几小时就能稳定训练”的状态。

论文和项目页都明确把它定位为:

  • 第一个能从 raw pixels 稳定端到端训练的 JEPA world model
  • 模型规模约 15M 参数
  • 可在单 GPU 上训练
  • 相对 foundation-model-based world models,规划速度最高可达 48× 更快

这件事为什么重要?因为它意味着 JEPA 这条路线第一次不只是“理念上好看”,而是开始具备了真正的工程可复现性。


二、它到底想解决什么问题?

world model 这几年有一条很主流的路线:直接生成未来像素

这类方法的直觉很自然:给定过去观测和动作,模型生成未来几帧图像,然后再从这些预测里做控制或决策。

但问题也很明显:图像里有大量对控制并不关键的细节,比如纹理、光照、背景变化、颜色扰动。模型为了把这些像素生成得足够像,往往需要投入很多容量和计算。

LeWM 所代表的 JEPA 路线,反过来问了一个更本质的问题:

如果目标是理解世界并做规划,模型真的需要重建每一个像素吗?

JEPA 的回答是:不需要。

与其生成未来图像,不如学习一个可预测的 latent 世界。也就是把当前图像编码成一个抽象表征,然后只预测未来表征,而不是未来像素。

这样模型就更有机会把能力集中在“哪些状态变化对未来和决策真正重要”上。


三、JEPA 为什么一直难训?

JEPA 虽然思路优雅,却非常容易发生 representation collapse

简单说,就是模型把很多不同输入都映成差不多的向量,导致 prediction loss 看起来很好看,但表示本身已经失去信息量。

这也是为什么过去很多相关方法为了防塌缩,不得不依赖很多额外技巧,比如:

  • 多项损失联合训练
  • EMA
  • stop-gradient
  • 预训练 encoder
  • 辅助监督信号

这些东西不是不能用,但问题在于:训练流程会变复杂、脆弱,也更难复现。

LeWM 的目标,就是把这个问题理顺。


四、LeWorldModel 的结构其实非常简单

LeWM 的结构可以概括为两个模块:

  1. Encoder:把当前观测图像 o_t 编码成 latent 表征 z_t
  2. Predictor:根据当前 latent z_t 和动作 a_t,预测下一时刻 latent z_hat_(t+1)

可以用两行最简单的话概括:

z_t = Enc(o_t)
z_hat_(t+1) = Pred(z_t, a_t)

也就是说,LeWM 并不试图复原未来像素,而是在 latent 空间里建模 dynamics。

从训练设定上看,LeWM 用的是离线的 observation-action trajectories,而且是:

  • reward-free
  • task-agnostic
  • 不需要任务标签
  • 不要求采样策略足够优

它的思路很明确:

先学“世界怎么变化”,再把这个世界模型拿去做规划。


五、这篇论文真正的方法创新,不在结构,而在训练目标

LeWM 最值得认真理解的地方,不是网络结构本身,而是它把训练目标压缩成了 两个部分

L_LeWM = L_pred + λ * SIGReg(Z)

其中:

  • L_pred:下一时刻 embedding prediction loss
  • SIGReg(Z):约束 latent 分布接近各向同性高斯的正则项

5.1 Prediction loss 很直观

第一项 loss 没什么神秘之处:

让 predictor 在给定当前 latent 和动作的情况下,尽量准确地预测下一时刻 latent。

它解决的是:

模型能不能学会环境在 latent 空间中的转移规律。

5.2 SIGReg 才是防塌缩的关键

真正关键的是第二项:SIGReg

论文和项目页都把它描述为一种“让 latent embedding 呈高斯分布”的正则化。

直觉上,这件事非常重要:

如果 latent 空间没有被“撑开”,模型就很容易把所有样本压到一个很小的区域里,最后走向 collapse。

SIGReg 的目标,就是让 latent 空间保持足够的分散度和信息量,避免退化成一个点或者一条线。

你可以把它理解成一句话:

🔑 不仅要会预测未来 embedding,还要保证 embedding 空间本身是健康的、非退化的。

这也是为什么作者一直强调 LeWM 是一个“简单而稳定”的 JEPA world model。

它不再依赖一堆额外稳定化技巧,而是把 anti-collapse 原则直接写进了目标函数。


六、为什么作者反复强调“简单而稳定”?

因为过去很多 JEPA 或类似 latent predictive 方法,真正难的不是“idea 看不懂”,而是“你很难训稳”。

LeWM 的一个核心卖点,是它:

  • 不使用 stop-gradient
  • 不使用 EMA
  • 不依赖预训练表征
  • 不依赖额外稳定技巧
  • 所有参数一起端到端优化

更重要的是,它把需要调的损失超参数显著减少了。

这点非常值得写进教程型博客,因为它改变的不是“一个局部小技巧”,而是 JEPA world model 的工程门槛。

以前大家会觉得这种方法:

  • 理论上有意思
  • 但训练太容易翻车

LeWM 则在很大程度上把它变成了一个更像正常工程系统的东西:

  • 参数量不大
  • 训练成本不夸张
  • 代码结构清楚
  • 复现实验有明确入口

七、LeWM 怎么拿这个世界模型去做规划?

LeWM 学到的是世界模型,不是直接输出动作的 policy。

在测试阶段,它做的是 goal-conditioned planning

过程可以理解为:

  1. 把当前图像编码成 latent
  2. 把目标图像也编码成 latent
  3. 在 latent 空间里 rollout 一批候选动作序列
  4. 比较这些候选动作在 rollout 结束后,预测 latent 离目标 latent 有多近
  5. 选择最优动作序列执行一部分,再继续重规划

这里用到的优化器是:

  • CEM(Cross-Entropy Method)
  • MPC(Model Predictive Control)

它的重点不是“先生成未来视频,再从视频里猜动作”,而是:

直接在 latent dynamics 上搜索动作序列。

对于控制任务来说,这通常更贴近“只保留决策相关信息”的目标。


八、为什么它会快这么多?

项目页给出了一个很关键的信息:

每一帧会被编码成一个单独的 192 维 token。

这大约比 DINO-WM 少 200× token,因此在官方展示中:

  • LeWM 的规划时间大约是 1 秒
  • DINO-WM 大约是 47 秒
  • 对应最高 48× 的速度优势

这里有一个很重要的阅读提醒:

LeWM 的亮点不是“绝对性能全面碾压”,而是“在保持竞争力的前提下,把训练和规划成本显著压低”。

如果你是研究者,这意味着它可能更适合作为 JEPA world model 的实验平台。

如果你是工程实践者,这意味着它更像一个“能真正跑起来”的系统,而不是只能靠大模型和大算力堆出来的结果。


九、实验结果应该怎么读?

LeWM 评测的环境包括:

  • TwoRoom
  • Reacher
  • PushT
  • OGBench-Cube

整体结论可以概括成三句话:

  • PushT、Reacher 上,LeWM 表现很强
  • OGBench-Cube 上,DINO-WM 仍有优势
  • TwoRoom 上,LeWM 反而表现不如对比方法

9.1 PushT 和 Reacher:证明这条路是能走通的

LeWM 在 PushT 和 Reacher 上的结果说明:

纯 latent dynamics + 纯像素输入 + 简洁 anti-collapse 训练,已经足以支持相当强的规划能力。

尤其是在 PushT 上,它甚至超过了带额外 proprioceptive inputs 的 DINO-WM。

这说明它学到的 latent 并不只是“视觉压缩向量”,而是真的编码了对控制有用的状态信息。

9.2 OGBench-Cube:说明大规模视觉先验仍然很强

在 OGBench-Cube 上,DINO-WM 仍然占优。

这个结果其实很合理:当任务更接近复杂 3D 视觉控制时,预训练视觉 backbone 的价值会变得更明显。

所以 LeWM 并没有证明“轻量 end-to-end 一定全面优于 foundation-model-based world models”。

它证明的是:

即便不依赖大规模预训练,也可以把 JEPA world model 做到相当有竞争力,而且效率极高。

9.3 TwoRoom:说明高维高斯正则也有边界条件

LeWM 在 TwoRoom 上表现不如 PLDM 和 DINO-WM。

作者给出的解释是:这个任务的内在维度过低,而高斯正则可能不利于在这种特别简单的环境里形成最合适的表示结构。

这点很重要,因为它提醒我们:

SIGReg 不是“对任何环境都无条件更优”的万能解。

它是一种非常有效的 anti-collapse 原则,但也有自己的适用边界。


十、为什么论文还要做 probing 和 surprise 分析?

如果一篇 world model 论文只展示“控制分数”,其实还不够。

因为你仍然可能会问:

它到底是学到了世界结构,还是只是碰巧学到一个对特定任务有用的压缩表示?

LeWM 补了两类分析。

10.1 Physical probing:latent 里到底有没有物理量?

论文不仅看规划成功率,还在看:

  • 能不能从 latent 中恢复位置
  • 能不能恢复状态信息
  • 能不能恢复与物理相关的结构

这一步很关键,因为它把“模型能做任务”进一步推进到“模型为什么能做任务”。

10.2 Surprise evaluation:它更怕什么样的异常?

论文还做了 surprise evaluation,用来测试模型是否能检测“物理上不合理”的事件。

这类结果的意义在于:模型敏感的可能不是单纯“画面变了”,而是“世界变得不合理了”。

对于一个世界模型来说,这是一个比像素重建误差更接近目标本质的指标。


十一、如果把 LeWorldModel 压缩成四句话,最值得记住什么?

1)它不是视频生成器,而是 latent dynamics model

LeWM 的目标不是重建未来所有像素,而是学习一个对未来状态变化和动作影响可预测的 latent 空间。

2)它真正的创新不在结构,而在 anti-collapse 训练原则

核心就是:

预测下一时刻 embedding + 用 SIGReg 把 latent 空间撑成稳定的高斯结构。

3)它把 JEPA world model 做到了轻量、端到端、可复现

大致可以概括为:

  • 15M 参数
  • 单 GPU
  • 几小时训练
  • 官方代码公开
  • 训练和评测入口明确

4)它证明这条路能做 planning,但离“通用世界模型”还远

它在一些任务上很强,在一些任务上仍不占优。

这说明 LeWM 更像一个很漂亮、很干净、很有说服力的 JEPA 原型,而不是已经解决 world model 的全部问题。

参考资料

  1. LeWorldModel arXiv 摘要页
  2. LeWorldModel 官方项目页
  3. LeWorldModel 官方代码仓库
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐