多模态上下文prompt + 混合质量数据学习 + 跨本体对齐机制

——新一代可引导通用机器人基础模型

目录

01  前作局限:π系列三代模型的共性瓶颈

02  π0.7:多模态上下文prompt,重新定义VLA学习范式

四层prompt结构:文本+视觉+元数据+控制模式

子目标图像:从语言语义到视觉空间的精准对齐

任务元数据:让模型学会从“好坏数据”中学习

先文本鲁棒、后视觉精调的训练策略

03  能力跃迁:与前作π₀.₆的核心对比

开箱即用性能:无需微调即可匹敌RL专家模型

跨本体零样本迁移:从“不可行”到“媲美专业遥操作手”

指令遵循:突破数据集偏见,理解复杂指代

compositional泛化:零样本完成全新长程任务

数据效率:从“精选高质量数据”到“全数据利用”

04  实验验证:多场景、多本体、多任务全面领先

精细长程任务

跨本体迁移实验

消融实验:关键组件缺一不可

05  审视:π₀.₇的突破、局限与行业价值

核心贡献

现存局限

06  从“执行模型”到“智能体”,π₀.₇定义下一代VLA标准


今日,Physical Intelligence 正式发布 π 系列最新机器人基础模型 π0.7,同步公开技术报告。

从π₀、π₀.₅到π₀.₆已经证明,统一视觉、语言与动作的大模型范式,能够让机器人在多任务、多环境下完成基础操作,成为具身智能最具落地潜力的技术路线。

但行业始终面临一个难以绕过的瓶颈:通用化与精细化、鲁棒性与泛化性始终难以兼顾。

π₀.₇没有选择堆叠更大参数量或引入全新网络结构,而是从prompt 工程、数据利用、上下文建模三个核心维度重新设计VLA框架。

它首次将“任务指令+子任务指令+子目标图像+任务元数据”多模态信息融入prompt,让模型能从混合质量、多源异构数据中学习,同时实现开箱即用的精细操作、跨本体零样本迁移与 compositional 泛化。

01  前作局限:π系列三代模型的共性瓶颈

在π₀.₇之前,π₀、π₀.₅、π₀.₆已经奠定了VLA在机器人操控领域的基础范式,但三者均存在明确的技术短板

  • prompt 信息单一,无法利用异构数据

前三代模型仅依赖顶层任务文本指令作为上下文,无法区分数据质量、执行速度、操作正误。这导致模型只能从高质量演示数据学习,无法利用次优数据、失败数据与自主探索数据,数据利用率极低。

▲π₀架构

  • 缺乏细粒度引导,长程与精细任务表现差

没有子任务分解与子目标视觉引导,模型在折叠衣物、操作咖啡机、组装纸箱等精细长程任务中,容易丢失步骤、动作粗糙,必须经过任务专属微调才能达到可用精度。

▲π₀长程任务

  • 跨本体泛化能力弱,零样本迁移几乎不可行

模型与机器人本体强绑定,针对双臂机器人训练的策略,无法直接迁移到单臂、长轴、高负载机械臂,跨形态迁移需要大量目标本体数据微调。

▲π₀.₆架构

  • 无法 compositional 泛化,技能无法自由组合

模型只能复现训练过的任务,无法将“打开容器”“放置物体”“关闭设备”等基础技能组合成全新任务,不具备真正的通用推理能力。

02  π0.7:多模态上下文prompt,重新定义VLA学习范式

π₀.₇的设计目标,正是针对性解决以上全部瓶颈,同时保持模型架构兼容、推理效率可控。

π₀.₇的所有能力升级,都源于一个极简的核心设计:用丰富多模态上下文替代单一文本指令,让模型理解“做什么、怎么做、做得好不好”。

模型整体仍基于VLA架构,以Gemma3 4B作为VLM主干,搭配860M参数flow matching动作专家,总参数量约5B,延续了π系列轻量化高效的风格。

但在上下文输入层面,π₀.₇做了颠覆性扩展。

四层prompt结构:文本+视觉+元数据+控制模式

π₀.₇构建了统一的多模态prompt体系,包含四类互补信息:

▲提示词概览

  • 任务指令+子任务指令:顶层目标+分步语义目标,实现长程任务拆解;
  • 多视角子目标图像:视觉化下一阶段目标状态,提供空间执行依据;
  • 任务元数据:执行速度、任务质量、是否出错,用于区分数据优劣;
  • 控制模式:关节空间/末端执行器控制,适配不同机器人本体。

训练时随机dropout不同组件,让模型在推理时可灵活组合输入,支持纯文本、文本+图像、全模态等多种prompt方式。

▲模型架构总览

子目标图像:从语言语义到视觉空间的精准对齐

仅靠语言指令无法传递空间细节,例如“打开冰箱门”无法告诉机器人抓取角度、姿态与轨迹。

π₀.₇引入由轻量级世界模型(BAGEL 14B)生成的多视角子目标图像将语义目标转化为视觉目标。

▲π0.7 模型与世界模型注意力模式

这一设计带来两个关键收益:

  • 动作预测简化为“从当前帧到子目标帧”的逆动力学问题,学习更稳定;
  • 跨本体迁移时,子目标图像提供统一空间目标,弱化本体形态差异。

任务元数据:让模型学会从“好坏数据”中学习

这是π₀.₇最具“工程价值”的创新——传统VLA必须过滤低质量数据,而π₀.₇通过元数据标注:

  • 执行速度(episode步数)
  • 整体质量评分(1–5)
  • 是否存在操作错误

模型可以直接学习失败案例、次优演示与自主探索数据,实现“从所有经验中学习”,大幅降低数据采集成本。

先文本鲁棒、后视觉精调的训练策略

与STRONG-VLA的解耦思想相似,π₀.₇在训练中也采用分步强化:

  • 先学习语言指令与元数据,建立任务语义与执行策略的关联;
  • 再引入子目标图像,优化空间操控精度。

这种分步策略避免了多模态输入的梯度冲突,训练更稳定。

▲π₀.₇通用机器人基础模型总览

03  能力跃迁:与前作π₀.₆的核心对比

π₀.₇并非简单的性能迭代,而是在能力维度上实现了代际跨越,以下为与π₀.₆的关键差异:

开箱即用性能:无需微调即可匹敌RL专家模型

π₀.₆需要针对每个精细任务做RL微调才能达到高成功率;

π₀.₇开箱即用,在制作意式咖啡、折叠衣物、组装纸箱、削蔬菜等任务上,成功率与吞吐量直接匹配π₀.₆* RL微调专家模型。

▲开箱即用的精细操作能力

在折叠复杂衣物与组装纸箱任务中,π₀.₇的吞吐量超过RL微调模型,这是通用VLA首次在精细任务上超越专属专家策略。

跨本体零样本迁移:从“不可行”到“媲美专业遥操作手”

π₀.₆在跨本体(如从轻型双臂→UR5e重型双臂)迁移时性能大幅下降;

π₀.₇实现零样本跨本体迁移,在从未见过的UR5e上折叠衣物,任务进度85.6%、成功率80%,与经验丰富的遥操作专家(90.9%进度、80.6%成功率)几乎持平。

▲跨本体迁移性能

核心原因是子目标图像+元数据让模型学习任务本质,而非特定本体的运动模式。

指令遵循:突破数据集偏见,理解复杂指代

π₀.₆容易被数据集分布误导,忽略与常见模式冲突的指令;

π₀.₇可以执行反常识/反偏见指令,例如“把餐具扔进垃圾桶、垃圾放进收纳盒”。

▲通过遵循指令打破数据集偏见

同时,π₀.₇能理解复杂空间指代,如“拿起最大盘子上的水果”“拿起喝汤用的餐具”,在未见环境中指令遵循成功率显著领先。

compositional泛化:零样本完成全新长程任务

π₀.₆只能执行训练任务;

π₀.₇可以通过语言分步教学,零样本完成全新任务,如使用空气炸锅、烤贝果,无需任何新演示数据。

▲全新环境下的泛化指令遵循

教学数据还能训练高层策略,实现完全自主执行。

▲语言教学示例

数据效率:从“精选高质量数据”到“全数据利用”

π₀.₆依赖高质量人工演示;

π₀.₇可以直接使用失败数据、自主探索数据、异构机器人数据,数据规模与多样性大幅提升,且性能随数据量持续上涨。

▲泛化性能随多样化上下文与数据的扩展曲线

04  实验验证:多场景、多本体、多任务全面领先

论文在LIBERO之外,构建了覆盖厨房、家居、操作的大规模测试集,使用四类机器人平台验证性能:

  • 轻型双臂机器人
  • 移动双臂机器人
  • 单臂UR5e
  • 重型双臂UR5e

▲实验所用机器人平台示意图

精细长程任务

在10余项高难度任务中,π₀.₇开箱即用成功率均超过π₀.₆ SFT与π₀.₅,在折叠衣物、换垃圾袋、切菜等任务上优势尤为明显。

▲语言教学长时序新任务完成度对比

跨本体迁移实验

在桌台布置、背包装袋、收纳整理、衣物折叠等任务中:

▲π₀.₇与人类遥操作专家性能对比

  • π₀.₅在本体差异较大时几乎失效;
  • π₀.₆保持中等性能;
  • π₀.₇在最大本体差异下仍保持高成功率。

消融实验:关键组件缺一不可

▲提示词结构与评估数据对性能的影响

  • 无元数据:无法利用低质量数据,精细任务性能暴跌;
  • 无子目标图像:跨本体迁移与复杂指令遵循能力明显下降;
  • 无分步指令:长程任务完成度大幅降低。

这证明多模态prompt并非简单叠加,而是形成互补增益的系统。

05  审视:π₀.₇的突破、局限与行业价值

核心贡献

首次在VLA中实现多模态可操控prompt,统一语义、视觉、质量、控制模式;

首次让通用VLA模型开箱即用匹敌RL微调专家,大幅降低落地成本;

实现真正跨本体零样本迁移,打通从低成本机器人到工业臂的技能迁移;

支持 compositional 泛化与语言教学,让机器人具备持续学习新任务的能力;

数据利用方式革新,可直接学习混合质量、多源、跨本体数据。

现存局限

子目标图像依赖外部世界模型,推理时延增加,端到端整合度不足;

对动态环境、突发干扰、非结构化杂乱场景的鲁棒性仍依赖数据覆盖;

跨本体迁移在极端形态差异(如人形→轮式机器人)下仍有限制;

未完全解决物理交互中的力控、柔顺控制,精细操作仍有上限。

06  从“执行模型”到“智能体”,π₀.₇定义下一代VLA标准

π₀.₇没有带来颠覆性的架构革命,却用一套简洁、可扩展、可落地的prompt体系,解决了通用VLA长期存在的核心矛盾:

  • 通用化 vs 精细化
  • 泛化性 vs 鲁棒性
  • 数据效率 vs 性能上限

π₀.₇的出现,标志着VLA模型进入可控通用时代:

它让VLA模型从“只能在限定条件下完成指定动作”的执行器,升级为“可理解任务策略、可迁移本体、可组合技能、可从任意经验学习”的智能体。

对于行业而言,π₀.₇提供了一套可复制的范式:

强通用VLA = 多模态上下文prompt + 混合质量数据学习 + 跨本体对齐机制。

Ref:

论文:π₀.₇: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

Pi官网:https://www.pi.website/

博客地址:https://www.pi.website/blog/pi07

论文地址:https://www.pi.website/download/pi07.pdf

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐