世界模型是什么：从 Sora 到 JEPA，看 AI 如何尝试“理解世界”

救命我真的好菜

654人浏览 · 2026-04-16 00:21:18

救命我真的好菜 · 2026-04-16 00:21:18 发布

世界模型到底是什么

所谓世界模型，可以先把它理解成：AI 在内部建立的一套“世界运行规律”的表示。它不只是识别眼前看到了什么，更重要的是知道当前世界处在什么状态、接下来可能怎么变化，以及某个动作会带来什么后果。Yann LeCun 在 2022 年的《A Path Towards Autonomous Machine Intelligence》中把 world model 描述得很明确：它一方面要补全感知没有直接给出的信息，另一方面要预测未来可能出现的世界状态；而且这种预测不是死板地给出唯一答案，而是要能表达多种可能性和不确定性。

所以，世界模型的核心不是“会不会生成内容”，而是“能不能形成对世界状态和变化规律的内部模拟”。比如自动驾驶系统看到路口，不只是识别红绿灯和行人，还要预测几秒后可能发生什么；机器人看到桌上的杯子，不只是知道这是个杯子，还要知道如果碰它一下，它可能倾倒、滑落，甚至摔碎。换句话说，世界模型关心的是“世界怎么运转”，而不仅仅是“表面长什么样”。

这也是为什么很多研究者会把世界模型看成更高级智能的重要组成部分。单纯的生成模型，往往擅长做出“像真的一样”的结果；但真正有用的智能系统，还需要能做预测、规划和决策。只有当模型内部真的形成了某种对世界的压缩表示，它才有可能在没见过的场景里继续推理下去。

OpenAI 在 Sora 上的受挫尝试

OpenAI 在介绍 Sora 时，曾把视频生成模型称作一种“世界模拟器”。这个判断之所以吸引人，是因为视频本身就包含时间顺序、物体运动、空间关系和因果变化。Sora 也确实展示出了一些很亮眼的能力，比如镜头移动时的三维一致性、被遮挡对象的持续存在，以及一定程度上的长时连贯性。OpenAI 甚至认为，继续扩大这类模型的规模，可能会推动它走向更强的物理世界和数字世界模拟能力。

但真正的问题在于，Sora 离“理解世界”还有明显距离。OpenAI 自己就在技术报告里承认，Sora 目前仍有不少模拟器层面的局限：它不能准确建模很多基础物理交互，比如玻璃破碎；像“吃东西”这样的动作，也不总会带来正确的物体状态变化；长视频里还会出现逐渐累积的不连贯，甚至物体“凭空出现”。而且 OpenAI 对它长程一致性的描述本身也很谨慎，用的是 “often, though not always”，也就是“经常可以，但并不总是如此”。

外界对这些问题的吐槽其实更直接。有人看完样例后，注意到老太太吹蜡烛时，火焰几乎不动；玻璃碎掉后，水流方向不对；跑步机上的人甚至会出现动作逻辑错乱。中国影视从业者在接受采访时也说，Sora 目前更像前期概念演示工具，还远远达不到独立制作影视内容的程度；其中有人给出的评价很直白：画面直觉上不错，但视频“poor logic”，也就是“逻辑很差”。

如图人体结构做的很奇怪

类似的批评在更技术化的讨论里也很常见。WIRED 在报道机器人模型时就提到，相比更强调真实交互约束的系统，Sora 仍会在“准确的人体结构”和“基础物理”上出问题。Yann LeCun 对这条路线的批评则更尖锐，他认为，生成“看起来大多逼真的视频”，并不代表系统真的理解了物理世界，因为生成一个像样样本，和基于世界模型做因果预测，本来就是两回事。

杨立坤提出的 JEPA：另一条路

相比 OpenAI 这种偏生成的路线，Yann LeCun 提出的 JEPA 更像是在换一个角度思考问题：如果目标是让 AI 理解世界，那它是否真的需要把所有细节都生成出来？

他的答案是否定的。

JEPA，全称是 Joint Embedding Predictive Architecture，中文一般译作“联合嵌入预测架构”。它的核心思想是：模型不必逐像素、逐细节去还原世界，而是应该在更抽象的表示空间里做预测。也就是说，它预测的不是“下一帧每个像素长什么样”，而是“接下来在语义和结构上会出现什么状态”。

这个思路背后有很强的现实意义。因为真实世界里有太多细节其实是没必要预测的，比如树叶下一秒怎么轻微晃动、衣角怎样摆动、反光会落在哪个像素上。这些东西会影响画面，但对理解世界的本质并不重要。如果模型把大量能力都浪费在这些难预测又不关键的细节上，它可能会显得很会生成，却不一定更会理解。

JEPA 想解决的，就是这个问题。它希望模型抓住那些更稳定、更重要、更有因果意义的结构关系，把注意力放在“世界真正重要的部分”上，而不是被海量表面细节牵着走。

如果说 Sora 的逻辑更像是“通过生成连续视频，尝试逼近世界规律”，那么 JEPA 的逻辑更像是“直接学习世界中可压缩、可预测、可推演的抽象结构”。前者更接近从逼真的表象里寻找理解，后者更接近从结构和关系中提炼理解。

这也是 LeCun 一直强调的一点：真正强大的世界模型，不一定要最会生成画面，而应该最会抓住世界中的核心规律。对于通向更高级智能来说，这可能是一条更稳的路线。

最近的努力

科研上，Meta 在 2026 年 3 月发布 V-JEPA 2.1，继续沿着 JEPA 路线推进视频世界模型。它不追求逐像素生成，而是在表示空间中学习时空结构、动作后果和场景关系。论文报告称，它在动作预测、机器人抓取、导航等任务上都有提升，其中真实机器人抓取成功率相比前代提高了 20 个百分点。4 月又出现了 Grounded World Model，进一步把世界模型和自然语言指令结合起来，让模型直接根据语义目标预测未来状态并做规划，重点已经从“会不会生成视频”转向“能不能支持可泛化的决策”。

企业上，最受关注的动作是 杨立坤在 2026 年 3 月创立 AMI。这家公司明确把目标放在世界模型上，强调要做能理解现实、具备推理和规划能力的系统，而不是继续依赖“预测下一个词”式的大语言模型。路透社报道称，AMI 已完成 10.3 亿美元融资，面向的重点行业包括制造、航空和制药等复杂场景。这个动作说明，世界模型已经开始被视为下一代产业级 AI 的候选基础能力。

另一边，Google DeepMind 在 2026 年 1 月开放 Project Genie，让用户直接创建、探索和重混可交互世界。它的重点不再是单纯生成一段视频，而是生成一个可以进入、可以操作、可以持续变化的环境。这说明大厂最近对世界模型的投入，正在从“看起来像世界”转向“能不能作为可交互系统运行”。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Runnable组件介绍

在使用 LangChain 开发的时候，某些场合我们希望在一个 Runnable 可运行队列中调用另一个 Runnable，并传递一些常量参数，但是这些参数不是前一个 Runnable 的输出的一部分，也不是用户输入的一部分，而是某个 Runnable 组件的一部分参数。我们就可以考虑使用 Runnable.bind() 来传递这些默认参数。bind() 函数用于修改 Runnable 底层的默认