【WM】LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

山顶夕景

366人浏览 · 2026-05-05 18:15:04

山顶夕景 · 2026-05-05 18:15:04 发布

note

LeWorldModel 的训练目标就是：从 raw pixels 学一个不会坍塌的 latent 状态空间，并在这个 latent 空间里学习“当前状态 + 动作 → 下一状态”的动力学模型。
稳定训练的trick：高斯正则防坍塌阶段【对 latent embedding 加 Gaussian regularizer，使表示分布保持展开，避免所有图像被编码成同一个向量】
在机器人控制、智能体规划里，很多时候不需要生成一张完整未来图片。LeWorldModel 在 latent 空间预测未来状态，所以更轻量，也更适合规划。
李飞飞对世界模型的定义：
- 1、Generative: World models can generate worlds with perceptual, geometrical, and physical consistency
- 2、Multimodal: World models are multimodal by design
- 3、Interactive: World models can output the next states based on input actions

一、LeWorldModel

论文标题：LeWorldModel: Stable End-to-End JEPA from Pixels
论文地址：https://le-wm.github.io/
项目地址：https://arxiv.org/pdf/2603.19312v1

【世界模型进展】这篇 LeWorldModel: Stable End-to-End JEPA from Pixels 打的点是：让 JEPA 世界模型可以从原始像素端到端稳定训练，而不是依赖一堆复杂 loss、EMA、stop-gradient、预训练 encoder 或额外监督来防止表示坍塌。

论文提出 LeWorldModel / LeWM，只用两个核心目标：预测下一时刻 latent embedding，以及用一个 Gaussian regularizer 约束 latent 分布，避免所有输入被编码成同一个向量。作者称它是第一个能稳定从 raw pixels 端到端训练的 JEPA 世界模型。([arXiv][1])

1. 介绍JEPA

JEPA 的核心不是“生成下一帧图片”，而是：

把图像编码成 latent 表示，然后预测未来 latent 表示。

也就是：

当前图像 + 动作
→ encoder 编成 latent
→ predictor 预测下一步 latent
→ 和真实下一帧图像编码出来的 latent 对齐

它不关心像素级重建，比如“这块颜色是不是一模一样”，而是关心更抽象的状态变化，比如物体位置、速度、接触关系、运动趋势。

所以 JEPA 更像是：学一个压缩后的世界动力学模型。

2. 现有问题：JEPA 很容易“坍塌”

JEPA 最大的问题是 representation collapse。

因为训练目标是“预测 latent 越接近越好”，那模型可能偷懒：

所有图像都编码成同一个向量
预测结果也永远是这个向量
loss 很小，但什么都没学到

这就是坍塌。

以前很多方法为了防坍塌，会加很多工程技巧，比如：

用预训练视觉 encoder，不让 encoder 一起训；
用 EMA teacher；
用 stop-gradient；
加多个辅助 loss；
加重建、对比、方差、协方差等约束。

问题是这些东西会让系统很脆：loss 多、超参多、训练难调、复现成本高。

3. 核心思路

在这里插入图片描述

这篇论文的核心思路很直接：

不要预测像素，只预测 latent；
不要堆复杂防坍塌技巧，而是强制 latent 分布像高斯分布；
只要 latent 不能全部挤成一个点，模型就必须学到有信息的表示。

具体来说，LeWM 只保留两个 loss：

next-embedding prediction loss
让模型根据当前 observation 和 action，预测下一时刻的 latent embedding。
Gaussian regularizer / SIGReg
约束 encoder 输出的 latent embedding 整体接近高斯分布，防止所有样本坍塌成同一个向量。

论文里说，相比此前端到端 JEPA 替代方案，LeWM 把可调 loss 超参从 6 个降到 1 个，模型约 15M 参数，单 GPU 几小时可训练，并且在规划速度上比 foundation-model-based world models 快最高 48 倍。([arXiv][1])

4. 方法流程

看 1）具体步骤：

step1. 像素输入阶段【输入是原始图像 observation，不依赖预训练视觉 encoder，而是从 raw pixels 开始端到端训练】

-> step2. 编码阶段【用 encoder 把当前图像压缩成 latent embedding，相当于把复杂像素压缩成一个“世界状态表示”】

-> step3. 动作条件预测阶段【把当前 latent 和 action 输入 predictor，预测执行该动作后下一时刻的 latent embedding】

-> step4. 目标 latent 构建阶段【把真实下一帧图像也输入同一个 encoder，得到真实下一时刻 latent，作为预测目标】

-> step5. 下一 embedding 预测损失阶段【让预测 latent 接近真实下一帧 latent，训练模型学习环境动力学，也就是“做这个动作后世界会怎么变”】

-> step6. 高斯正则防坍塌阶段【对 latent embedding 加 Gaussian regularizer，使表示分布保持展开，避免所有图像被编码成同一个向量；这个正则就是整篇论文稳定训练的关键】

-> step7. 离线训练阶段【模型从环境交互数据中学习，不需要 reward，也不需要像素重建，只学 observation-action-next observation 之间的 latent dynamics】

-> step8. 规划阶段【给定当前状态和候选动作序列，模型在 latent 空间里快速预测未来状态，用预测结果辅助选择更好的动作】

-> step9. 物理理解评估阶段【作者还用 probing 和 surprise evaluation 检查 latent 是否编码了物理量，以及能否识别不符合物理规律的异常事件】

二、具体细节

LeWorldModel：训练目标、输入输出到底是什么？

理解：LeWorldModel 是一个从像素训练的 latent 世界模型：输入当前图像和动作，输出下一时刻的 latent 状态；训练目标是预测准下一状态，同时防止 latent 表示坍塌。

1. 训练数据是什么？

训练样本来自环境交互轨迹，形式是：

$o_t,\ a_t,\ o_{t+1})$

其中：

$o_t$ ：当前时刻图像，也就是 raw pixels
$a_t$ ：当前执行的动作
$o_{t+1}$ ：执行动作后的下一帧图像

比如机器人推箱子：

o_t：箱子在左边
a_t：机械臂往右推
o_{t+1}：箱子往右移动了一点

2. 模型输入是什么？

训练时输入是：

$o_t,\ a_t$

但模型不会直接在像素空间预测下一帧，而是先把当前图像编码成 latent：

$z_t = E(o_t)$

再把当前 latent 和动作输入 predictor：

$\hat{z}_{t+1} = P(z_t,\ a_t)$

所以本质链路是：

当前图像 o_t
↓
Encoder E
↓
当前 latent z_t

当前 latent z_t + 动作 a_t
↓
Predictor P
↓
预测下一 latent $\hat{z}_{t+1}$

3. 模型输出是什么？

模型输出不是下一帧图片，而是： $\hat{z}_{t+1}$

也就是预测的下一时刻 latent 状态。

它不追求：

下一帧每个像素都长得对

而是追求：

物体位置怎么变
速度怎么变
机械臂和物体关系怎么变
环境状态怎么变

所以它是在学：

$\text{当前状态} + \text{动作} \rightarrow \text{下一状态}$

而不是学：

$\text{当前图像} + \text{动作} \rightarrow \text{下一帧图像}$

4. 训练目标是什么？

真实监督信号是什么？

真实下一帧图像 $o_{t+1}$ 也会经过同一个 Encoder： $z_{t+1} = E(o_{t+1})$

这个 $z_{t+1}$ 就是预测目标。

训练时要求： $\hat{z}_{t+1} \approx z_{t+1}$

也就是：预测出来的下一 latent≈真实下一帧图像编码出来的 latent

LeWorldModel 的训练目标Loss函数：

$\mathcal{L}=\mathcal{L}_{\text {pred }}+\lambda \mathcal{L}_{\text {reg }}$

其中：

$\mathcal{L}_{pred}$ ：下一状态预测损失，让模型学会预测世界怎么变
$\mathcal{L}_{reg}$ ：高斯正则损失，防止 latent 表示坍塌
$\lambda$ ：控制正则强度

所以它不是在训练一个图像生成器，而是在训练一个：稳定的 latent 状态空间 + latent 动力学预测器

4.1 下一状态预测损失

核心目标是让预测 latent 接近真实 latent：

$\mathcal{L}_{\text {pred }}=d\left(\hat{z}_{t+1}, z_{t+1}\right)$

这里的 $d(\cdot)$ 可以简单理解为“距离函数”。

即目标是：模型预测的下一 latent 和真实下一 latent 越接近越好

这个 loss 逼模型学习：

$(z_t,\ a_t) \rightarrow z_{t+1}$

4.2 高斯正则，防止表示坍塌

如果只有预测损失，模型可能偷懒：

所有图像都编码成同一个 z
预测器也永远输出同一个 z
loss 看起来不高
但模型其实什么世界规律都没学到

这叫 representation collapse，也就是表示坍塌。

所以 LeWorldModel 加了一个高斯正则，大意是让一批 latent $z$ 的分布接近高斯分布：

$\sim \mathcal{N}(0, I)$

通俗理解：

不同图像要有不同表示
latent 空间要展开
不能所有样本都挤成一个点

这个正则的作用是：

防止 Encoder 把所有输入都压成同一个向量
逼 latent 表示保留有效信息
保证端到端训练稳定

5. 整体训练流程

相关伪代码：
在这里插入图片描述

训练样本：
$o_t, a_t, o_{t+1})$

当前图像编码：
$o_t → E → z_t$
动作条件预测：
$z_t + a_t → P → \hat{z}_{t+1}$
下一帧图像编码：
$o_{t+1} → E → z_{t+1}$
预测损失：
让 $\hat{z}_{t+1}$ 接近 $z_{t+1}$
高斯正则：
让一批 z 的分布保持展开，避免坍塌

更直观地说：

模型看到当前画面
知道执行了什么动作
然后预测下一步世界状态的 latent 表示
最后和真实下一帧的 latent 表示对齐

loss逐渐收敛：
在这里插入图片描述

6. 和传统图像生成世界模型的区别

传统生成式世界模型通常是：

$(o_t,\ a_t) \rightarrow \hat{o}_{t+1}$

也就是：

输入：当前图像 + 动作
输出：下一帧图像
目标：生成未来画面

LeWorldModel 是：

$(o_t,\ a_t) \rightarrow \hat{z}_{t+1}$

也就是：

输入：当前图像 + 动作
输出：下一帧 latent 表示
目标：预测未来状态

核心区别：

传统方法关心像素级生成
LeWorldModel 关心 latent 状态预测

所以它的优势是：

不重建像素，训练目标更轻
不用浪费能力去还原纹理、颜色、背景细节。
在 latent 空间规划，推理更快
不需要一步步生成图片，只需要预测向量变化。
端到端从像素训练
不依赖冻结的 DINO、CLIP 或其他视觉 foundation encoder。
防坍塌机制更简单
主要靠 Gaussian regularizer，而不是一堆工程 trick。

三、实验结果

在这里插入图片描述

2）看结果：论文在多个 2D 和 3D 控制任务上评估 LeWM，包括 manipulation、navigation、locomotion 等场景。结果显示，LeWM 用约 15M 参数就能取得有竞争力的控制表现，同时规划速度最高比 foundation-model-based world models 快 48 倍；此外，作者通过物理量 probing 发现 latent 中确实编码了一些有意义的物理结构，并且 surprise evaluation 表明模型能检测物理上不合理的事件。([arXiv][1])

也就是说，它不只是“能跑控制任务”，还说明 latent 空间里学到了一定的世界规律。

四、总结

1. 相关理解

这篇论文真正有价值的点，不是又提出一个世界模型，而是把 JEPA 世界模型训练不稳定 这个老问题做简单了。

以前 JEPA 最大痛点是：理论上很优雅，工程上很难训。因为一旦端到端从像素训，模型很容易表示坍塌，所以大家不得不用各种 teacher、EMA、预训练 encoder、多项 loss 来兜底。

LeWM 的贡献是：用一个简单的 latent 分布约束，让端到端 JEPA 世界模型变成一个更可控的工程方案。

它和大规模视频生成式世界模型不是一个路线。后者追求生成逼真的未来画面，LeWM 更偏向机器人/智能体控制：不需要画得像，只要 latent 里能预测“世界状态怎么变”，就足够用于规划。

总结：LeWorldModel 是一个轻量、稳定、端到端的 JEPA 世界模型方案，核心是用高斯正则解决 latent 坍塌，让模型从原始像素中学到可用于规划的世界动力学。

2. 李飞飞对世界模型的定义

Stanford李飞飞-From Words to Worlds: Spatial Intelligence is AI’s Next Frontier，链接：https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
李飞飞对世界模型的定义：
1、Generative: World models can generate worlds with perceptual, geometrical, and physical consistency
2、Multimodal: World models are multimodal by design
3、Interactive: World models can output the next states based on input actions

Reference

[1] LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels
[1]: https://arxiv.org/abs/2603.19312?utm_source=chatgpt.com “LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels”

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

谷歌首次发现黑客借助AI开发“零日”漏洞攻击工具——AI漏洞军备竞赛已正式开打

2026年5月11日，谷歌威胁情报小组（GTIG）首次确认一起由人工智能参与开发的零日漏洞利用事件。攻击者借助AI模型发现了一款流行开源Web管理工具中的高层语义逻辑缺陷（双因素认证绕过漏洞），并编写了带有明显AI“指纹”的Python攻击脚本，包括大量教学式注释、虚构的CVSS评分以及教科书式的编码风格。谷歌已及时拦截该攻击并向厂商通报。这一事件标志着AI辅助零日攻击从理论走向实战，AI驱动的漏

AtomGit开源社区

MediaTek召开天玑开发者大会MDDC 2026，携手生态伙伴开启无处不在的智能体化新体验

活动现场，MediaTek 还公布天玑 AI Play 技术与《三角洲行动》的合作成果，借助性能强劲的天玑移动平台的端侧 AI ，助力游戏内的 CC 语音智能伴侣的响应速度更快，相比云端延迟时间大幅降低 56.7%，带来游戏内无感时延实时畅聊的智能体验。依托覆盖多终端、多场景的完整开发工具与开放能力，天玑 AI 开发套件持续赋能跨领域、跨终端的新体验，涵盖大模型应用、视听和影像应用、生产力工具、智