从“AI教母”李飞飞的新风向标说起:空间智能如何重塑机器人未来?
视觉化为洞察,看见成为理解,理解导致行动。——李飞飞
一、引言:AI的下一个十年,风向已变
当整个AI圈还在为Sora的视频生成能力欢呼时,“AI教母”李飞飞却悄然指出了另一条路。2025年底,她以万字长文宣告:AI的下一个十年是“空间智能”(Spatial Intelligence) ——若AI无法理解物体的深度、距离、遮挡与重力,就永远无法真正“具身”。
“语言是用来描述世界的工具,但不是世界本身。”李飞飞在CES 2026的演讲中再次强调,“大语言模型终究受制于语言本身”的局限性。她笃定地告诉世界:语言模型无法通往AGI,空间智能才是最优路径。
二、学术底色与创业转向
李飞飞是斯坦福大学首位红杉讲席教授,ImageNet创始人,被誉为“AI教母”。她长期深耕计算机视觉与认知神经科学交叉领域,在深度学习爆发中奠定了视觉数据的基础。
2024年,她离开斯坦福学术岗位,与三位联合创始人(Justin Johnson、Christoph Lassner、Ben Mildenhall)共同创立World Labs。这家公司自成立后仅16个月估值就冲到50亿美元,完成10亿美元融资,集结了英伟达、AMD、Autodesk等全球科技巨头。她的自传《我看见的世界》于2024年在中国出版。
研究方向的核心跃迁:从让AI“看见”物体(ImageNet分类/检测),到让AI理解三维世界中的几何、物理与行动可能性。她认为,空间智能是通往具身智能的必经之路。
三、何为空间智能?——来自进化论的启示
3.1 核心定义
李飞飞于2024年10月首次明确提出“空间智能”这一概念,将其定义为:机器在三维空间与时间维度中实现感知、推理与行动的综合能力,核心目标是帮助机器理解事物在三维空间中的位置关系、运动规律及交互方式。
3.2 为什么是空间智能?
李飞飞用生物进化的宏观视角重新审视了AI的发展路径:语言在人类进化史上只有约50万年的历史,是极其晚近的产物。相比之下,视觉、触觉等感知能力早在5亿年前的寒武纪就开启了演化竞赛。
她提出了一个引人深思的观点:一只苍蝇没有万亿级参数,却能在杂乱空间中极速避障、精准着陆。如果AI无法理解三维物理世界、无法具备物理直觉,它就只能被永远困在数字的像素中。
3.3 空间智能 vs 语言智能
李飞飞将人类智能归结为两大智能:语言智能和空间智能。语言智能让我们能通过语言与他人交流;空间智能则让我们理解并与周围世界互动。
目前以LLM为代表的AI能言善辩,却缺乏经验;知识丰富,却没有扎根于现实世界。只有补齐了比语言更古老、更基础的空间智能,让机器拥有理解、推理并与三维物理世界互动的能力,AI才能真正通往AGI。
一句话总结:语言是用来描述世界的工具,但不是世界本身。
四、技术现状:Marble与“世界模型”的AlexNet时刻
4.1 Marble:不只是一段视频
2025年底,World Labs推出了首款核心产品Marble。这款工具可通过图像、视频甚至纯文本等简单输入,快速生成具备空间连贯性、高保真度且可持久存在的3D虚拟世界。
很多人将Marble与Sora等视频生成模型混淆,但李飞飞明确指出二者有着本质区别:
-
全场景交互:能根据提示生成一个完整的、可导航的、可交互的3D世界;
-
物理一致性:生成的不是一段“看起来像”的视频,而是一个在物理逻辑上始终保持一致的空间,具有真实的几何结构。
底层技术上,Marble摒弃了传统的多边形网格,转而采用神经辐射场(NeRF)和高斯点云(3D Gaussian Splatting) 等前沿技术,以实现更高真实感与实时渲染能力。
4.2 数据与算力挑战
World Labs采取了一种混合数据策略:综合利用互联网级的图文视频数据、仿真数据以及类似自动驾驶公司的“实景捕获”数据。
李飞飞坦言,高质量3D物理数据非常稀缺,但预判随着合成数据技术的成熟,世界模型领域即将迎来类似LLM的Scaling Law爆发时刻。
五、空间智能如何改变机器人——核心影响分析
5.1 从“小脑”到“大脑”
北京邮电大学教授吕廷杰指出,当前机器人的发展处于“婴幼儿时期”——“小脑智能”已趋成熟,但“大脑智能”仍严重缺失。如果说之前的机器人拥有的是维持平衡和运动的“小脑”,那么空间智能就是让它能自主感知和决策的“大脑”。
5.2 感知—想象—行动闭环
根据李飞飞发布的万字长文,具身智能需要通过“世界模型”解锁空间智能,实现感知—想象—行动的闭环:
-
感知升维:从理解2D数据(“这是什么”),升级为理解3D空间的深度、距离、遮挡、重力等物理关系;
-
自主决策:为机器人提供物理世界“常识”,例如理解“被风吹起的空塑料袋不会砸坏汽车”这类因果逻辑;
-
行动闭环:将语言指令、视觉感知与物理动作紧密结合,形成完整的智能循环。
5.3 通用机器人才是真正的“皇冠”
李飞飞对通用机器人提出了一针见血的判断:自动驾驶是2D逻辑,通用机器人是3D逻辑。
汽车可以被视作一个在二维平面移动的方块机器人,核心任务是避障,只要不碰到东西就是胜利。但通用机器人的核心任务恰恰相反——是接触,它必须在三维空间中,以不破坏物体的方式进行精确操作。
她提醒不要对通用机器人“乱开空头支票”:“这是一个极高维度的难题,我们不能过度承诺。”
5.4 实际应用场景
空间智能对机器人的实际影响正加速落地:
-
虚拟训练场:Marble可直接成为机器人训练的“虚拟实验室”,与英伟达等伙伴合作为机器人提供高精度仿真环境;
-
合成数据生成:World Labs与光轮智能联手,瞄准困扰行业已久的“规模化评测”问题,推动具身智能进入评测驱动时代;
-
仿真到现实(Sim-to-Real) :其域创新的解决方案可将真实世界空间转化为可用于仿真的3D场景,使机器人能在高度还原真实世界的环境中训练-;
-
具身智能评测基准:2026年ICLR会议中,李飞飞团队推出ENACT基准,评估VLM具身认知能力,首次系统探究模型在真实物理环境中的交互表现。
六、未来发展方向
6.1 融资信号与产业风向
2026年2月,World Labs完成10亿美元新一轮融资,估值达50亿美元。英伟达、AMD、Autodesk等巨头悉数入局,Autodesk单独注资2亿美元。整个空间智能赛道已成为资本和企业争相押注的新风口——2026年3月,图灵奖得主杨立昆创立的AMI Labs也完成了10.3亿美元种子轮融资。
6.2 机器人领域的突破方向
World Labs完成融资后明确将重心向机器人与科学发现倾斜。招聘网站显示,公司正急招研究工程师协助开发SLAM系统(机器人在未知环境中自主导航的核心技术),同时开放3D重建专家岗位,负责将传感器数据融合为高精度环境地图。
具身智能行业在2026年形成共识:先解决单一场景问题,再逐步探索泛化能力。智源研究院院长王仲远认为,最现实的路径是通过“VLA+强化学习”攻克具体场景,在真机运行中积累数据,形成数据闭环。
6.3 消费级市场爆发前夜
尽管当前空间智能应用以工业级为主,但消费级市场的爆发速度可能远超预期。AI从概念走向产业实践的周期正在急剧缩短——生成式AI降低了三维内容制作门槛,空间智能正在加速渗透日常生活。
6.4 跨行业应用扩展
空间智能的应用边界远超机器人领域:
-
游戏与影视:开发者快速构建可穿行的虚拟世界,特效团队虚拟制片;
-
建筑设计:瞬间将平面图转化为可步入的3D样板间;
-
医疗科研:心理学家正利用Marble为强迫症患者定制个性化沉浸式环境,通过模拟特定触发场景进行暴露疗法干预;
-
世界模型×仿真基础设施:构建连接AI大脑与身体的中枢层。
七、AI伦理与挑战
7.1 李飞飞的人文标尺
超越技术维度,李飞飞为AI的未来立下了一把人文标尺: “AI的成功,应当体现为文明的进步,让每个个体都能由此追求幸福、繁荣和尊严。”
她将AI比作一百多年前的电力——电力的成功不是因为建立了庞大的电网,而是因为它点亮了学校的灯、驱动了工厂的机器、延长了人类的寿命。同理,AI的成功不在于模型参数有多大,而在于它能否成为赋能文明的基础设施。
7.2 主要挑战
空间智能发展面临三大核心挑战:
-
技术壁垒高:构建能够统一表征高维、动态物理规律的世界模型,难度远超语言模型;
-
数据饥渴:与生成式大模型可利用海量互联网文本不同,物理空间的真实数据极度匮乏;
-
容错率极低:真实世界中微小模型误差可能导致严重后果。当空间智能从“分析”走向“行动”,对错误的容忍度急剧下降。
7.3 边界与冷思考
值得注意的是,李飞飞明确主张多智能协同——世界模型并非取代LLM,而是补足空间维度,与语言等多种智能共同构成更接近人类的“智能协奏”。她对“超级智能”表述保持克制,强调北极星是“对人类友善、以人类福祉为导向”的智能系统。
有行业观察者发出提醒:世界模型的定义正被不断扩大和模糊化,可能导致类似元宇宙的定义泛化问题。当前需要说清楚要做的世界模型是哪一类。
八、结语:从能看会说到能行动
李飞飞在万字长文末尾写道: “若没有空间智能,我们关于真正智能机器的梦想将永远不完整。这场探索,是我的北极星。”
这颗恒星对她来说意义非凡——是她在十几岁时一次野外徒步中对自然世界的感悟-2。
50岁的李飞飞已在AI领域研究了二十余年。从ImageNet到空间智能,她始终站在AI浪潮的最前沿。探索空间智能,成了她最新的“北极星”。
正如她所说:“如果想让AI超越其自身当前的能力,我们需要的不只是能看会说的AI,而是一个可以行动的AI。”
对机器人开发者而言,空间智能意味着什么?这意味着我们可以停止让机器人在预设规则下机械执行,而是让它们真正“理解”所处的三维世界——感知深度、判断距离、处理遮挡、遵守重力。
这意味着我们可以让机器人在仿真环境中安全地学习复杂操作,然后自信地部署到真实世界。
这意味着我们正在从“教机器人做什么”走向“让机器人理解世界是什么”。
空间智能的时代,才刚刚开始。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)