LLM无用论？杨立昆：博士生别研究LLM，这才是下一代AI核心

秦ぅ时

572人浏览 · 2026-05-20 10:00:00

秦ぅ时 · 2026-05-20 10:00:00 发布

杨立昆：告别LLM内卷，世界模型才是通用AI的未来

今年年初，图灵奖得主、深度学习先驱杨立昆（Yann LeCun）做出了一场颠覆性的选择——离开一手缔造辉煌的Meta FAIR实验室，剥离巨头光环，创立专注“世界模型”研发的AMI Labs。这位曾在神经网络被普遍质疑时坚定押注的先驱，如今再次逆势而行，在一场万字深度对话中，系统性剖析了当前AI行业的核心困局，完整抛出了自己“弃LLM、逐世界模型”的底层逻辑，为下一代通用智能的发展指明了方向。
当下，大语言模型（LLM）几乎重写了整个AI行业的叙事。它让代码生成、数学推理、内容生产等领域成为显学，也让OpenAI、Anthropic、Google、Meta等巨头陷入一场愈演愈烈的军备竞赛。但在这场喧嚣背后，杨立昆看到了难以突破的行业瓶颈：高质量公共语料逐渐枯竭，模型训练成本持续暴涨，闭源趋势愈发明显，整个硅谷陷入了“羊群效应”——所有人都在扎堆LLM路线，却鲜少有人思考，当这条路线撞上天花板，AI的下一站在哪里。
在杨立昆看来，LLM并非一无是处，它是极其实用的应用型产品，在语言、代码、数学等离散符号领域表现出色，也是当下众多AI产品的核心基础。但他始终坚定一个观点：LLM绝对不是通往人类级智能，甚至动物级智能的路径。其核心短板在于，LLM缺乏预测行动后果、规划行动序列、建模真实物理世界的能力——它只能通过自回归预测下一个token，无法像人类一样预判行为带来的影响，更无法基于预判进行规划。
这种局限性的根源，在于LLM的天生属性：它天然适配语言、代码这类离散符号系统，却对高维、连续、充满噪声的真实物理世界束手无策。“真实世界远比语言复杂，你无法用预测token的方式，去预测一瓶水被推动后的倾倒轨迹，也无法用这种逻辑去控制机器人完成复杂动作。”杨立昆解释道。他进一步指出，当下很多看似惊艳的机器人演示，本质上是依靠海量模仿学习数据和少量强化学习微调实现的，系统极度脆弱，换个场景就会失效，而这正是LLM路线无法突破的核心瓶颈。
这也正是杨立昆创立AMI Labs的核心初衷——打造“为真实世界而生的AI”。AMI（Advanced Machine Intelligence，高级机器智能）的核心研发方向，是他在Meta期间开创的JEPA（联合嵌入预测架构），以及基于该架构的世界模型。所谓世界模型，核心是让智能系统具备预测自身行动后果的能力，进而通过优化搜索，规划出最优行动序列以达成目标，这正是人类和动物智能的核心所在。
杨立昆透露，JEPA架构的灵感源于认知科学中的“系统2”（人类的深思熟虑、预判规划行为），但将人脑逻辑转化为神经网络架构，经历了漫长的探索。五年前，他顿悟出一个关键结论：所有成功的图像、视频表征学习架构，都是非生成式的；而像VAE、MAE这类生成式架构，即便耗费巨量算力，效果也不尽如人意，“预测像素注定是一场败局”。JEPA则通过对原始数据进行破坏处理，让两个编码器分别提取原始数据和破坏后数据的表征，再通过预测器实现表征间的预测，这种方式的表征学习效果，远优于像素级预测。
离开Meta，并非杨立昆一时冲动，而是巨头的发展逻辑与他的长期研究理念逐渐背离。他回忆道，自己2014年加入Meta后，一手搭建了FAIR实验室，打造了开放自由的科研文化，也产出了PyTorch这类影响全行业的工具。但随着生成式AI的兴起，Meta成立GenAI部门全力推进LLM商业化，短期KPI和行业竞争压力，让探索性基础研究的优先级被大幅压低。尽管扎克伯格、CTO博兹等高层认可JEPA和世界模型的长期价值，但公司整体资源全部倾斜LLM，且世界模型的核心应用场景（工业控制、机器人等）并非Meta的核心业务，继续留在Meta，已无法推进这项长期研究。
更让杨立昆担忧的是，当下整个AI行业的创新土壤正在消失。大厂实验室越来越封闭，论文发表受限，核心人才因短期压力纷纷出走——Llama系列的核心研发人员离开Meta创立Mistral，就是典型案例。“获得突破性研究的最好方法，就是雇佣最优秀的人，给他们充足的资源，然后别去碍事。”杨立昆感慨道，这是早期FAIR、贝尔实验室成功的关键，也是当下行业最缺失的东西。
除了AMI Labs，杨立昆还在推进Tapestry项目，试图解决全球AI主权的失衡问题。他认为，当下全球绝大多数国家（除美国、中国外），都缺乏自主可控的AI模型，现有AI助手多由美中大厂打造，无法很好适配本土语言、文化和价值体系，甚至存在文化洗脑的风险。Tapestry的核心逻辑，是通过联邦式协作训练开放基础模型：全球各国机构贡献本地数据和算力，无需共享原始数据，仅交换模型参数向量，最终收敛为汇集全人类知识文化的通用基础模型，各国再在此基础上做本地化微调，实现自身的AI主权。
对于LLM的未来，杨立昆直言，它的天花板已经清晰可见——公开语料枯竭后，大厂只能依靠商业版权数据和合成数据续命，且它永远无法实现零样本具身智能，无法应对真实世界的复杂场景。而他押注的世界模型，有望在1-18个月内实现关键突破，落地机器人、工业控制、医疗等领域的规划能力，五年内实现更大规模的技术突破。他甚至大胆预测，到2027年初，行业将普遍认可LLM路线的局限性，世界模型将成为AI发展的主流方向。
对话中，杨立昆还对年轻研究员提出了直白的建议：“如果你在读博士，别去研究LLM，毫无意义，做不出真正的创新贡献。”在他看来，当下LLM相关研究多为描述性科学，只能解释现有模型的原理与局限，缺乏创造性，而博士生应该聚焦世界模型、JEPA这类下一代AI架构，才能真正推动行业进步。
从坚定押注神经网络，到逆势布局世界模型，杨立昆的每一次选择，都站在AI行业的十字路口。他的“逆行”，并非否定LLM的价值，而是希望打破行业内卷，为通用AI寻找真正的出路。正如他所说，LLM只是AI发展的中间阶段，基于JEPA的世界模型，才是通往人类级智能的终极路径——这场豪赌，不仅关乎他个人的科研理想，更关乎整个AI行业的未来走向。
在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

新人转行大模型避坑指南｜大模型算法工程师掏心窝子分享4大真相，避坑指南来了！

AtomGit开源社区

商务英语在线学习哪家好？主流平台深度测评与避坑指南

AtomGit开源社区

2026字节开发岗面试更新

2026年字节跳动开发岗面试呈现"三深一广"特点：算法考察更强调最优解和边界条件，系统设计侧重真实业务场景（如抖音推荐系统），底层原理要求深入理解（如GMP调度模型）。新增AI工程化能力考察，所有岗位均需掌握AI协作技能，Agent岗需手写ReAct循环。面试流程保持3轮技术面+HR终面，一面筛人更严，通过率约30%。建议重点准备LeetCode高频题、字节业务场景设计题，并掌