从“AI教母”李飞飞的新风向标说起：空间智能如何重塑机器人未来？

fxroro

671人浏览 · 2026-04-07 10:35:22

fxroro · 2026-04-07 10:35:22 发布

视觉化为洞察，看见成为理解，理解导致行动。——李飞飞

一、引言：AI的下一个十年，风向已变

当整个AI圈还在为Sora的视频生成能力欢呼时，“AI教母”李飞飞却悄然指出了另一条路。2025年底，她以万字长文宣告：AI的下一个十年是“空间智能”（Spatial Intelligence） ——若AI无法理解物体的深度、距离、遮挡与重力，就永远无法真正“具身”。

“语言是用来描述世界的工具，但不是世界本身。”李飞飞在CES 2026的演讲中再次强调，“大语言模型终究受制于语言本身”的局限性。她笃定地告诉世界：语言模型无法通往AGI，空间智能才是最优路径。

二、学术底色与创业转向

李飞飞是斯坦福大学首位红杉讲席教授，ImageNet创始人，被誉为“AI教母”。她长期深耕计算机视觉与认知神经科学交叉领域，在深度学习爆发中奠定了视觉数据的基础。

2024年，她离开斯坦福学术岗位，与三位联合创始人（Justin Johnson、Christoph Lassner、Ben Mildenhall）共同创立World Labs。这家公司自成立后仅16个月估值就冲到50亿美元，完成10亿美元融资，集结了英伟达、AMD、Autodesk等全球科技巨头。她的自传《我看见的世界》于2024年在中国出版。

研究方向的核心跃迁：从让AI“看见”物体（ImageNet分类/检测），到让AI理解三维世界中的几何、物理与行动可能性。她认为，空间智能是通往具身智能的必经之路。

三、何为空间智能？——来自进化论的启示

3.1 核心定义

李飞飞于2024年10月首次明确提出“空间智能”这一概念，将其定义为：机器在三维空间与时间维度中实现感知、推理与行动的综合能力，核心目标是帮助机器理解事物在三维空间中的位置关系、运动规律及交互方式。

3.2 为什么是空间智能？

李飞飞用生物进化的宏观视角重新审视了AI的发展路径：语言在人类进化史上只有约50万年的历史，是极其晚近的产物。相比之下，视觉、触觉等感知能力早在5亿年前的寒武纪就开启了演化竞赛。

她提出了一个引人深思的观点：一只苍蝇没有万亿级参数，却能在杂乱空间中极速避障、精准着陆。如果AI无法理解三维物理世界、无法具备物理直觉，它就只能被永远困在数字的像素中。

3.3 空间智能 vs 语言智能

李飞飞将人类智能归结为两大智能：语言智能和空间智能。语言智能让我们能通过语言与他人交流；空间智能则让我们理解并与周围世界互动。

目前以LLM为代表的AI能言善辩，却缺乏经验；知识丰富，却没有扎根于现实世界。只有补齐了比语言更古老、更基础的空间智能，让机器拥有理解、推理并与三维物理世界互动的能力，AI才能真正通往AGI。

一句话总结：语言是用来描述世界的工具，但不是世界本身。

四、技术现状：Marble与“世界模型”的AlexNet时刻

4.1 Marble：不只是一段视频

2025年底，World Labs推出了首款核心产品Marble。这款工具可通过图像、视频甚至纯文本等简单输入，快速生成具备空间连贯性、高保真度且可持久存在的3D虚拟世界。

很多人将Marble与Sora等视频生成模型混淆，但李飞飞明确指出二者有着本质区别：

全场景交互：能根据提示生成一个完整的、可导航的、可交互的3D世界；
物理一致性：生成的不是一段“看起来像”的视频，而是一个在物理逻辑上始终保持一致的空间，具有真实的几何结构。

底层技术上，Marble摒弃了传统的多边形网格，转而采用神经辐射场（NeRF）和高斯点云（3D Gaussian Splatting） 等前沿技术，以实现更高真实感与实时渲染能力。

4.2 数据与算力挑战

World Labs采取了一种混合数据策略：综合利用互联网级的图文视频数据、仿真数据以及类似自动驾驶公司的“实景捕获”数据。

李飞飞坦言，高质量3D物理数据非常稀缺，但预判随着合成数据技术的成熟，世界模型领域即将迎来类似LLM的Scaling Law爆发时刻。

五、空间智能如何改变机器人——核心影响分析

5.1 从“小脑”到“大脑”

北京邮电大学教授吕廷杰指出，当前机器人的发展处于“婴幼儿时期”——“小脑智能”已趋成熟，但“大脑智能”仍严重缺失。如果说之前的机器人拥有的是维持平衡和运动的“小脑”，那么空间智能就是让它能自主感知和决策的“大脑”。

5.2 感知—想象—行动闭环

根据李飞飞发布的万字长文，具身智能需要通过“世界模型”解锁空间智能，实现感知—想象—行动的闭环：

感知升维：从理解2D数据（“这是什么”），升级为理解3D空间的深度、距离、遮挡、重力等物理关系；
自主决策：为机器人提供物理世界“常识”，例如理解“被风吹起的空塑料袋不会砸坏汽车”这类因果逻辑；
行动闭环：将语言指令、视觉感知与物理动作紧密结合，形成完整的智能循环。

5.3 通用机器人才是真正的“皇冠”

李飞飞对通用机器人提出了一针见血的判断：自动驾驶是2D逻辑，通用机器人是3D逻辑。

汽车可以被视作一个在二维平面移动的方块机器人，核心任务是避障，只要不碰到东西就是胜利。但通用机器人的核心任务恰恰相反——是接触，它必须在三维空间中，以不破坏物体的方式进行精确操作。

她提醒不要对通用机器人“乱开空头支票”：“这是一个极高维度的难题，我们不能过度承诺。”

5.4 实际应用场景

空间智能对机器人的实际影响正加速落地：

虚拟训练场：Marble可直接成为机器人训练的“虚拟实验室”，与英伟达等伙伴合作为机器人提供高精度仿真环境；
合成数据生成：World Labs与光轮智能联手，瞄准困扰行业已久的“规模化评测”问题，推动具身智能进入评测驱动时代；
仿真到现实（Sim-to-Real） ：其域创新的解决方案可将真实世界空间转化为可用于仿真的3D场景，使机器人能在高度还原真实世界的环境中训练-；
具身智能评测基准：2026年ICLR会议中，李飞飞团队推出ENACT基准，评估VLM具身认知能力，首次系统探究模型在真实物理环境中的交互表现。

六、未来发展方向

6.1 融资信号与产业风向

2026年2月，World Labs完成10亿美元新一轮融资，估值达50亿美元。英伟达、AMD、Autodesk等巨头悉数入局，Autodesk单独注资2亿美元。整个空间智能赛道已成为资本和企业争相押注的新风口——2026年3月，图灵奖得主杨立昆创立的AMI Labs也完成了10.3亿美元种子轮融资。