具身智能发展——通往通用人工智能的必由之路

Luu_uu_uu

389人浏览 · 2026-03-27 16:59:35

Luu_uu_uu · 2026-03-27 16:59:35 发布

学习资料：https://www.techrxiv.org/doi/full/10.36227/techrxiv.176948355.54623875

在人工智能（AI）的发展史上，“具身智能”（Embodied AI）正成为最引人注目的前沿范式。它不再是单纯的“数字大脑”，而是将智能赋予一个拥有“身体”的实体——机器人、无人机或人形机械臂——使其能够在物理世界中感知、理解、规划并执行任务。不同于传统AI仅在虚拟环境中处理数据，具身智能强调感知-决策-行动的闭环：通过与真实环境的交互，智能体不断学习、适应，并最终实现开放世界的通用能力。

为什么具身智能如此重要？因为它是实现通用人工智能（AGI）的关键桥梁。大型语言模型（LLM）和多模态模型（如GPT系列）已在文本和图像领域展现惊人能力，但它们“离身”——无法真正“触摸”世界、验证物理规律，也难以处理长时序因果关系。具身智能则通过物理交互，让AI从“知道”走向“会做”，从抽象符号走向现实世界。模型是当前具身智能的关键里程碑，而世界模型（World Models）的引入，正在解决VLA的物理幻觉、计划不可执行性和数据稀缺三大瓶颈，推动具身AI迈向真正通用时代。

本文将系统梳理具身智能的发展脉络，从早期哲学与行为主义基础，到VLA模型的爆发，再到世界模型的创新范式，最后展望未来挑战与方向，为读者呈现一幅完整的技术演进图景。

一、早期萌芽阶段（1950s-1990s）

具身智能的思想根源可追溯至20世纪中叶的认知科学与哲学辩论。1950年，图灵在《计算机器与智能》中已暗示智能与物理体验的关联。1980年代，“莫拉维克悖论”（Moravec's Paradox）揭示了传统AI的致命短板：对人类而言“困难”的逻辑任务（如下棋），机器很容易；但“简单”的感知与运动（如婴儿抓物），机器却极难实现。这直接催生了行为主义AI的兴起。

1991年，罗德尼·布鲁克斯（Rodney Brooks）发表开创性论文《Intelligence without representation》，提出“无表征的智能”理念。他认为，智能无需复杂内部符号模型，而可直接从身体与环境的简单物理交互中涌现。布鲁克斯在MIT开发了“Genghis”等移动机器人，采用“ subsumption architecture”（包容架构）：底层是反应式传感器-执行器回路，上层逐步叠加复杂行为，无需中央规划器。这一范式彻底颠覆了符号主义AI的“先思考后行动”逻辑，开启了“具身认知”（Embodied Cognition）时代。

1999年，罗尔夫·普费弗（Rolf Pfeifer）和克里斯蒂安·谢尔（Christian Scheier）在《Understanding Intelligence》一书中进一步系统化“身体化智能”理论：智能是整个身体结构与功能的综合体现，而非孤立大脑计算。2005年，琳达·史密斯（Linda Smith）提出“具身假说”（Embodiment Hypothesis），强调认知过程根植于身体-环境交互。

二、技术积累阶段（1990s-2022）

进入1990s-2020s，具身智能进入“技术深耕”期。强化学习（RL）成为主流：通过试错与奖励信号，机器人学会复杂控制，如DeepMind的AlphaGo虽非具身，但其RL思想迅速迁移到机器人领域。Sim-to-Real（仿真到真实）技术兴起，RLBench、Meta-World等模拟器让数据采集安全高效，避免真实世界风险。

这一时期的研究聚焦专用任务策略：视觉政策（Visual Policies）主导桌面操作、导航等场景。但局限明显——模型高度任务特定，泛化能力弱，无法处理开放世界指令。代表性工作包括波士顿动力Atlas的动态平衡控制、本田ASIMO的人形行走，以及谷歌RT-1（2022）初步将Transformer用于机器人动作生成。这些积累为后续大模型时代铺路：硬件（如Franka Panda机械臂）成熟，传感器（RGB-D相机、触觉）进步，数据集（BridgeData、RT-1）初具规模。

然而，传统方法仍依赖手工特征或有限示范，难以实现“零样本”泛化。VLA世界模型综述指出，这一阶段的具身AI“局限于孤立技能”，亟需互联网-scale知识注入。

三、VLA时代的突破（2022至今）

2022年以后，具身智能真正迎来了“爆发式”转折——VLA（Vision-Language-Action，视觉-语言-动作）模型的诞生，标志着具身AI从“专用任务策略”迈向“通用具身代理”的历史性跨越。

在此之前，机器人策略大多是任务特定（task-specific）的视觉策略，只能完成固定场景下的单一操作（如抓取特定物体或导航固定路线）。它们依赖手工设计的特征或有限示范数据，泛化能力极弱，一旦环境稍有变化（如光照改变、物体新位置）就会失效。2022年谷歌发布的RT-1虽然已开始尝试将Transformer用于动作生成，但仍属于“专用”范畴，无法处理开放世界的自然语言指令。

真正的转折点出现在2023年。谷歌DeepMind推出的RT-2（Robotics Transformer 2）被公认为VLA概念的开山之作。它首次将大型视觉-语言模型（VLM）作为骨干网络，把互联网规模的知识直接迁移到机器人控制中。RT-2不再把“视觉”“语言”“动作”割裂开来，而是把三者统一建模：机器人看到一张图像、听到一句指令，就能直接输出连续动作序列。例如，用户说“把苹果递给我”，RT-2就能理解语义、定位物体，并生成合理的抓取-传递轨迹。这就是VLA的核心优势——语义接地（semantic grounding）：利用LLM/VLM海量常识，实现“零样本”或“少样本”泛化。

VLA时代的后续爆发可以用“井喷”来形容：

2023-2024：PaLM-E（谷歌）将3D感知注入LLM，支持更复杂的导航与多物体操作；Mobile ALOHA（斯坦福）用低成本双臂远程操作平台，实现了炒菜、整理物品等高难度长时序任务。
2024-2025：Octo、π0等模型进一步提升动作频率，从早期的1-5Hz提高到50-200Hz，实现端到端实时控制；GR-1、UniVLA等模型开始大规模视频预训练，让机器人能从互联网视频中“偷师”物理常识。

根据2026年1月发布的《Towards Generalist Embodied AI: A Survey on World Models for VLA Agents》（VLA世界模型综述），VLA模型已成为当前具身智能的关键里程碑。它首次将大型语言模型（LLM）和多模态模型的互联网-scale知识与低级控制策略对齐，使机器人能够跟随开放式指令，并在开放世界环境中泛化。

然而，VLA虽然在语义理解上取得了巨大进步，却暴露出三大致命短板，这正是世界模型诞生的直接驱动力：

物理幻觉（physical hallucination）：VLA生成的动作往往“看起来合理”，但在物理上不可行（如物体穿模、力学不平衡、抓取失败）。
计划不可执行：LLM擅长高层次文本规划，却无法验证抽象策略在真实物理环境中的可行性，尤其在长时序任务中容易出现累积误差。
数据稀缺与安全风险：高质量机器人示范数据极少（真实世界采集成本高、危险），强化学习（RL）在真实机器人上直接训练可能损坏硬件或造成安全事故。

这些问题让VLA难以真正落地。VLA世界模型综述明确指出：“VLA模型在任务泛化上表现出色，但在真实世界部署中面临显著差距。” 正是为了填补这些差距，世界模型（World Models）应运而生。它不再是单纯的“预测器”，而是VLA的“物理大脑”——通过模拟未来状态、注入物理先验，帮助VLA生成真正物理接地（physically grounded）的动作。

四、世界模型的兴起

世界模型的核心思想是：把环境动态建模成一个未来预测器（future predictor），它能根据当前观测预测下一时刻的视觉、动作甚至整个场景演化，从而为VLA提供可验证的物理约束。这与传统LLM的“离散文本世界模型”形成鲜明对比——世界模型处理的是连续物理动态，真正实现了“所想即所得”的具身闭环。

2026年的VLA世界模型综述首次提出统一的四范式分类法，并为每个范式给出形式化定义、二级子分类、演化轨迹和代表性工作。这套分类是目前最权威、最系统的框架：

①World Planner（世界规划器）定义：世界模型 $W_{\phi}$ 作为前向动力学模型，合成未来观测 $z_{t+1}$ 或隐特征，作为策略 $\pi_{\theta}$ 的语义条件。
$\max_{\theta} \mathbb{E}_{z_{t+1} \sim W_{\phi}(\cdot | o_t)} \left[ \sum_{t} \log \pi_{\theta}(a_{t+1} | o_t, z_{t+1}) \right]$
演化：早期（如UniPi 2023、SuSIE 2023）把规划当作高保真视频生成任务，用扩散模型预测像素级未来图像，再通过逆动力学求动作；中期转向隐式规划（如V-JEPA 2、PIVOT-R），避免无关视觉细节干扰；2025年后主流是视频扩散模型+潜在特征指导（如VPP、MinD、TriVLA、Genie Envisioner），GO-1引入离散潜在表示，MoWM则实现混合架构。作用：让规划不再是“纸上谈兵”，而是基于预测物理动态的可执行规划。
②World Action Model（世界动作模型）定义：生成式建模未来观测与动作的联合分布：
$\max_{\phi} \mathbb{E}_{r \sim D} \left[ \sum_{t} \log W_{\phi}(o_{t+1}, a_{t+1} | o_t) \right]$
演化：自回归范式（AR）最早流行（如GR-1/2、WorldVLA、RynnVLA-002），把观测和动作统一为token序列；扩散范式（Diff）后来居上（如UD-VLA、dVLA离散扩散；DUST、FLARE实值扩散），有效缓解量化损失和多步误差。 代表作：Seer、F1、FlowVLA、CoT-VLA、DreamVLA等引入多模态思维链，进一步强化物理推理。作用：直接端到端生成语义对齐且物理一致的动作序列，是VLA最核心的“动作大脑”。
③World Synthesizer（世界合成器）定义：构建可扩展数据引擎，合成交错的观测-动作轨迹 $\hat{\tau}$ ，用于模仿学习。
演化：WristWorld专注腕部视角增强；Genie Envisioner、Ctrl-World采用动作条件生成；DreamGen、GigaWorld-0则先合成视觉轨迹再用逆动力学推断动作。作用：彻底解决“数据稀缺”问题，把世界模型变成“无限数据工厂”。
④World Simulator（世界模拟器）定义：将动作条件世界模型作为虚拟环境，支持RL策略优化
演化：WorldGym、Genie Envisioner用于任务评估；World4RL、WMPO、SRPO、VLA-RFT、NORA-1.5等提供稀疏/稠密奖励，实现闭环优化；VLA-Reasoner、AdaPower支持测试时自适应。作用：让RL训练在“安全沙盒”中进行，极大降低真实世界风险。

演化时间线2023-2024年以Planner和Action Model为主，聚焦推理与控制；2025年视频生成模型爆发后，Synthesizer和Simulator迅猛增长，成为主流。

世界模型的底层依赖三大基础模型：图像/视频生成模型（Stable Video Diffusion、WAN2.1）、统一理解-生成模型（Emu3、Chameleon）、表征模型（V-JEPA 2）。它们共同构成了VLA的“物理引擎”。

通过这四大范式，世界模型成功弥合了VLA的三大痛点：物理幻觉被预测动态压制、计划可执行性得到验证、数据与安全问题被合成与模拟解决。VLA世界模型综述在LIBERO和CALVIN基准上的性能报告（Table 6-7）显示：SRPO Online、RynnVLA-002、DreamVLA等已将成功率推至99.2%，平均任务长度达4.44，接近仿真饱和。这也说明，未来必须转向更具挑战性的真实世界验证。