【具身智能最新进展】π0.5:让机器人从“实验室演示”走向真实家庭的VLA基础模型

摘要

近年来,具身智能正在从传统的“感知—规划—控制”分模块系统,逐渐走向以大模型为核心的端到端机器人基础模型。其中,Vision-Language-Action(VLA,视觉-语言-动作)模型成为当前研究热点,它试图让机器人同时理解视觉环境、语言指令,并直接输出可执行动作。

本文分析 Physical Intelligence 团队提出的 π0.5: a Vision-Language-Action Model with Open-World Generalization。该工作基于 π0 模型进一步扩展,核心目标不是只在固定实验室环境中完成任务,而是提升机器人在未知家庭场景中的开放世界泛化能力。论文重点讨论了多机器人数据、网页多模态数据、语义子任务预测以及低层动作控制的联合训练方法,为具身智能从实验室走向真实场景提供了重要参考。

爆点摘要

这篇论文最值得关注的地方,不是简单地让机器人“多学几个动作”,而是尝试解决具身智能真正落地前必须面对的问题:

机器人到了一个从未见过的新家,能不能自己理解任务、分解步骤,并完成清洁、整理、收纳等长时序操作?

π0.5 采用异构数据联合训练,让机器人同时学习来自真实机器人、不同形态机器人、网页图文数据、语言指令、目标检测和语义子任务预测等多种知识。相比传统只依赖单一机器人数据训练的方法,它更加重视“开放世界泛化能力”,也就是让机器人在没见过的环境中完成真实任务。


1. 论文基本信息

论文题目: π0.5: a Vision-Language-Action Model with Open-World Generalization
研究团队: Physical Intelligence
发表时间: 2025 年
研究方向: 具身智能、机器人基础模型、VLA 模型、开放世界泛化
核心关键词: Vision-Language-Action、Robot Foundation Model、Open-World Generalization、Embodied AI、Robot Learning

这篇论文可以看作是 π0 的进一步扩展版本。π0 更强调通用机器人控制和复杂灵巧操作,而 π0.5 更进一步关注“开放世界泛化”:即机器人能否在没有训练过的新环境、新物体、新任务组合中完成真实任务。

从研究意义上看,π0.5 并不是单纯提出一个新的网络结构,而是进一步推动了机器人基础模型的发展方向:让机器人不只会执行动作,还要能够理解环境、理解语言、拆解任务并完成真实物理交互。


2. 为什么这篇论文值得关注?

传统机器人系统通常依赖人工建模、规则规划和特定场景调试。例如工业机械臂可以在固定产线上高精度完成抓取、装配、搬运等任务,但一旦环境变化、物体变化或任务描述变化,系统往往需要重新标定和重新编程。

而具身智能的目标是让机器人具备类似人的能力:

  • 能看到环境;
  • 能听懂语言指令;
  • 能理解任务意图;
  • 能根据环境变化做出动作;
  • 能在真实物理世界中完成操作。

例如用户只说一句:

“把厨房收拾一下。”

机器人需要进一步判断:

  • 哪些东西不应该放在台面上?
  • 餐具应该放进水槽还是柜子?
  • 衣服应该放到床上还是洗衣篮?
  • 有液体洒了,是否应该用海绵擦掉?
  • 一个任务做完后,下一个子任务是什么?

这已经不只是检测、识别或路径规划问题,而是涉及视觉理解、语言理解、物理交互、任务分解和动作执行的综合智能问题。

π0.5 正是围绕这个问题展开:如何让机器人不仅会执行单个动作,还能在陌生环境中完成长时序、有语义含义的真实任务。


3. 从 VLM 到 VLA:具身智能模型范式的变化

过去几年,大模型主要在文本和图像领域快速发展,例如大语言模型负责文本推理,多模态大模型负责图文理解。但机器人不同,它最终必须作用于物理世界,因此模型不仅要“看懂”和“听懂”,还要“做出来”。

这就引出了 VLA 模型。

VLA = Vision + Language + Action

也就是:

视觉输入 → 语言理解 → 动作输出

与普通视觉语言模型不同,VLA 模型不仅输入图像和文本,还需要输出机器人可以执行的连续控制动作,例如机械臂关节角、末端执行器位姿、夹爪开合状态等。

π0.5 仍然继承了 π0 的基本思想:利用预训练视觉语言模型提供语义理解能力,再通过动作专家模块输出连续动作。不同之处在于,π0.5 进一步引入了更复杂的数据配方和高低层联合推理机制,使模型不仅能做短动作,还能处理更长时序任务。


4. π0.5 的核心思想:异构数据联合训练

π0.5 最核心的创新点可以概括为一句话:

不只让机器人从自己的动作数据中学习,还让机器人从多种知识来源中学习。

论文认为,要让机器人在开放环境中泛化,仅靠单一机器人、单一场景、单一任务的数据是不够的。因为真实世界中的变化太多:

  • 房间布局不同;
  • 物体种类不同;
  • 任务顺序不同;
  • 用户表达不同;
  • 机器人形态不同;
  • 光照、视角、遮挡情况不同。

因此,π0.5 使用了多种数据来源进行联合训练。

数据来源 主要作用
移动操作机器人数据 学习真实家庭任务中的移动与操作能力
非移动机器人数据 提供更多操作技能和环境变化
跨机器人本体数据 增强不同机器人形态之间的知识迁移
语言指令数据 提升模型对用户意图的理解能力
语义子任务预测数据 帮助模型把复杂任务拆解成可执行步骤
网页多模态数据 补充物体类别、场景语义和常识知识
目标检测/图像问答数据 增强视觉语义理解能力

这说明具身智能模型正在从“单机采集数据训练”走向“大规模异构知识迁移”。

换句话说,未来的机器人并不是只靠自己一次次试错来学习,而是可以从不同机器人、不同任务、不同图文数据和不同环境经验中共同学习。


5. 模型执行流程:先理解任务,再执行动作

π0.5 的推理过程可以理解为两层:

第一层是高层决策:理解任务,生成子任务。
第二层是低层控制:根据子任务,输出连续动作。

例如用户输入:

clean the bedroom
整理卧室

模型可能先生成高层子任务:

pick up the pillow
拿起枕头

然后再生成低层机器人动作,例如移动底盘、调整机械臂、抓取枕头、移动到床头、放置枕头等。

这种设计的好处是:模型不是直接从一个宽泛指令跳到复杂动作,而是通过语义子任务进行中间过渡。这样既保留了大模型的语义理解能力,又能让机器人控制更加稳定。

可以把它理解成下面这个过程:

用户任务目标:

整理卧室

模型内部拆解:

  1. 找到地上的衣服;
  2. 把衣服放入洗衣篮;
  3. 拿起枕头;
  4. 把枕头放回床头;
  5. 整理被子;
  6. 判断任务是否完成。

机器人执行:

输出连续控制动作,完成抓取、移动、放置等操作。

这种“高层语义规划 + 低层连续控制”的设计,是当前具身智能模型非常重要的发展方向。


6. 实验任务:不再只是桌面抓取,而是真实家庭整理

很多机器人论文的实验集中在桌面抓取、按钮按压、抽屉开合等相对短程任务。π0.5 的实验更加贴近日常生活,主要包括:

  • 把餐具放入水槽;
  • 把物品放进抽屉;
  • 把衣服放进洗衣篮;
  • 整理床铺;
  • 清洁厨房;
  • 整理卧室;
  • 根据语言指令移动指定物体。

这些任务的难点在于,它们不是简单的单步动作,而是包含感知、导航、抓取、放置、语义判断和多阶段执行的长时序任务。

例如“把餐具放入水槽”看似简单,实际上机器人需要完成:

  1. 识别餐具;
  2. 判断餐具位置;
  3. 定位水槽;
  4. 规划抓取姿态;
  5. 控制夹爪夹取餐具;
  6. 移动机械臂或底盘;
  7. 避免碰撞;
  8. 将餐具放入水槽;
  9. 判断任务是否完成。

而“整理床铺”则更加复杂,因为被子、枕头这类柔性物体本身就比刚性物体更难操作。

因此,π0.5 的实验意义在于,它不只是验证机器人能不能完成一个动作,而是在验证机器人能不能理解真实场景中的复杂任务。


7. 实验结果:开放世界泛化能力显著提升

π0.5 的实验重点不是证明它在某个固定场景里表现多好,而是观察它在新环境、新物体、新任务组合中的泛化能力。

论文中的消融实验可以体现出不同数据来源对模型性能的影响。

模型版本 OOD语言跟随率 OOD成功率
π0.5 完整模型 94% 94%
去掉网页数据 80% 74%
去掉跨本体数据 67% 49%
去掉多环境数据 33% 31%

从结果可以看出:

7.1 网页多模态数据对新物体识别很重要

去掉网页数据后,模型在开放环境中的成功率明显下降。这说明机器人虽然需要真实动作数据,但仅靠动作数据并不足够。网页图文数据中包含大量物体类别、场景布局、物品用途和语义常识,这些知识可以帮助机器人更好地理解陌生环境。

7.2 跨机器人本体数据有助于泛化

去掉跨本体数据后,模型性能下降明显。这说明不同机器人之间的数据并不是完全割裂的。虽然不同机器人硬件结构不同,但它们在抓取、放置、移动、对齐等操作中仍然存在可迁移的共性。

7.3 多环境数据是开放世界能力的关键

去掉多环境数据后,OOD 成功率下降最明显。这说明具身智能模型如果只在少数环境中训练,很容易形成场景依赖。一旦进入新的房间、新的厨房、新的卧室,模型就可能失效。

因此,π0.5 的实验结果说明:具身智能的泛化能力并不是只靠模型参数规模获得的,而是高度依赖数据来源的多样性。


8. 这篇论文对具身智能研究的启发

8.1 具身智能的核心矛盾从“会不会做”转向“能不能泛化”

早期机器人研究更关注某个具体动作能否完成,例如抓取成功率、轨迹跟踪误差、定位精度等。但 π0.5 说明,下一阶段的核心问题是泛化。

也就是说:

  • 不是在一个环境里成功,而是在没见过的环境里也能成功;
  • 不是会抓一个物体,而是能理解不同物体该放到哪里;
  • 不是完成一个短动作,而是完成一个长任务链;
  • 不是机械执行命令,而是理解任务背后的语义目标。

这对服务机器人、家庭机器人、仓储机器人和工业柔性制造都非常重要。

8.2 数据配方可能比单一模型结构更重要

π0.5 并没有把创新点完全放在一个复杂网络结构上,而是强调联合训练的数据配方。

这给我们一个很重要的启发:未来具身智能系统的竞争,可能不只是模型架构竞争,而是数据体系竞争。

包括:

  • 谁有更多真实机器人数据?
  • 谁能获得更多跨平台机器人数据?
  • 谁能把网页知识迁移到机器人控制?
  • 谁能让模型同时学习感知、语言、语义和动作?
  • 谁能构建高质量的任务分解和反馈数据?

对于普通研究团队来说,这也意味着不能只关注网络结构改进,还要重视数据构建、任务设计和评价体系。

8.3 机器人基础模型正在接近“大模型 + 机器人控制”的融合

π0.5 不是传统机器人控制器,也不是单纯的语言模型,而是二者之间的融合体。

可以理解为:

  • 大模型负责理解世界;
  • 多模态数据负责补充常识;
  • 机器人数据负责连接动作;
  • 动作专家模块负责生成连续控制;
  • 高层子任务负责连接语义与执行。

这种范式意味着,机器人不再只是执行预设程序的机械装置,而是逐渐变成可以理解语言、感知环境、调用常识并执行动作的智能体。


9. 与传统机器人方法的区别

对比维度 传统机器人方法 π0.5 这类 VLA 方法
任务定义 人工规则或固定程序 自然语言指令
感知方式 目标检测、定位、建图等模块化处理 视觉-语言联合理解
动作生成 轨迹规划、控制器、规则策略 端到端动作生成
泛化能力 依赖场景调试 依赖大规模异构数据训练
适用任务 固定任务、固定环境 多任务、变化环境
主要瓶颈 标定、规则、部署维护 数据规模、安全性、可解释性

传统方法更适合稳定、确定、可控的工业场景;VLA 方法更适合开放、动态、多任务的真实环境。

未来两者很可能不是完全替代关系,而是融合关系:底层安全控制仍由传统控制系统保证,高层任务理解与策略生成由 VLA 模型负责。


10. 当前仍然存在的问题

虽然 π0.5 展现了很强的研究价值,但它距离真正大规模落地仍然有不少问题。

10.1 成功率还不足以支撑高可靠应用

家庭环境可以容忍一定失败,但工业、医疗、养老等场景对安全性和稳定性要求更高。机器人不能只是“多数时候成功”,而是需要在复杂情况下也保持可控。

10.2 长时序任务仍然容易累积误差

任务越长,中间任何一步失败都会影响最终结果。例如整理厨房时,如果机器人误判一个物体位置,可能导致后续抓取、放置和导航全部失败。

10.3 数据成本仍然很高

π0.5 的能力来自大量异构数据,包括机器人数据、网页数据、语义数据和跨本体数据。对于普通实验室或中小企业来说,构建类似数据体系并不容易。

10.4 安全性与可解释性仍需加强

机器人在真实环境中执行动作,涉及人与物理世界的直接交互。如果模型输出不可解释、不可预测的动作,就可能带来安全风险。

10.5 真实物理交互仍然非常困难

视觉语言模型可以在图像和文本上表现很好,但机器人必须面对真实物理世界中的摩擦、遮挡、碰撞、柔性物体、传感器误差和执行器误差。这些因素都会影响最终任务完成效果。


11. 对国内具身智能研究的借鉴意义

这篇论文对国内具身智能、机器人和智能制造研究有几个直接启发。

11.1 不能只关注单点算法指标

具身智能不是单纯提升检测精度或抓取成功率,而是要构建完整的感知、理解、决策、执行闭环。

对于机器人研究来说,检测、定位、导航、控制都很重要,但如果系统无法理解任务目标,就很难应对真实场景中的复杂需求。

11.2 应重视场景数据建设

真实家庭、仓库、工厂、医院等场景的数据差异很大。谁能构建高质量、多环境、多任务的数据集,谁就更可能训练出泛化能力强的具身智能模型。

尤其是在工业场景中,很多任务并不是标准数据集能够覆盖的,需要结合真实业务流程构建专用数据。

11.3 仿真数据和真实数据需要结合

单靠真实采集成本高,单靠仿真又存在 sim-to-real gap。未来比较可行的路线是:

  • 仿真数据负责扩展场景;
  • 真实数据负责校准物理交互;
  • 网页多模态数据负责补充语义常识;
  • 机器人日志数据负责积累长期经验。

11.4 VLA 模型可以与 AGV/AMR 场景结合

对于移动机器人来说,未来不只是导航和避障,还可能需要理解自然语言任务。

例如:

去仓库 A 区找到蓝色周转箱,把它送到 3 号工位。如果通道被挡住,绕路并通知管理员。

这类任务已经不只是传统路径规划问题,而是包含语言理解、目标识别、任务分解和环境交互的综合具身智能问题。

因此,VLA 模型未来很可能会与 AGV、AMR、机械臂、仓储机器人、物流机器人等方向深度结合。


12. 总结

π0.5 是具身智能研究中非常有代表性的一项工作。它的意义不在于提出了某个单一模块的小改进,而在于展示了一种新的机器人基础模型发展路线:

多模态理解 + 异构数据联合训练 + 高低层任务分解 + 连续动作生成 + 开放世界泛化

从研究趋势来看,具身智能正在从“让机器人完成一个指定动作”,走向“让机器人理解真实世界中的复杂任务”。π0.5 表明,未来机器人系统的关键能力不只是运动控制,而是能否在开放环境中利用视觉、语言、常识和动作经验进行综合决策。

对于从事机器人、计算机视觉、自动驾驶、AGV/AMR、智能制造和多模态大模型研究的同学来说,这篇论文值得重点关注。它提醒我们:具身智能的下一阶段,不只是模型更大,而是数据更广、任务更真实、场景更开放、系统更接近物理世界。


参考文献

[1] Physical Intelligence, Kevin Black, Noah Brown, et al. π0.5: a Vision-Language-Action Model with Open-World Generalization. arXiv, 2025.

[2] Physical Intelligence. π0: A Vision-Language-Action Flow Model for General Robot Control, 2024.

[3] Octo Model Team, et al. Octo: An Open-Source Generalist Robot Policy. Robotics: Science and Systems, 2024.

[4] Open X-Embodiment Collaboration, et al. Open X-Embodiment: Robotic Learning Datasets and RT-X Models, 2023.


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐