π₀.₇是一款可精准调控的通用机器人基础模型,核心通过多模态丰富提示多元数据训练,实现无需微调的开箱即用能力 与 组合泛化。

  1. 定标杆:大模型的通用能力来自大规模+多样化数据组合泛化是核心
  2. 指痛点:机器人领域一直做不到组合泛化,传统VLA模型有致命缺陷。
  3. 抛方案:π₀.₇用多元数据 + 精细多模态提示解决痛点,实现通用机器人。

π₀.₇的核心目标: 给数据加“说明书”,让模型能吃脏数据、差数据、失败数据,还能越学越强。

论文地址:π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

项目地址:https://www.pi.website/blog/pi07

下面是示例的Prompt信息

Task(任务): peel vegetables
Subtask(子任务指令): pick up the peeler
Speed(速度): 2000
Quality(质量): 5
Mistake(是否犯错): false
Control Mode(控制方式): joint

其中,上面标签的范围定义

  • 速度:时间步长离散值(如 8000、2000,按 500 步区间分箱)
  • 质量:1~5 星
  • 是否犯错:true / false
  • 控制方式:告诉机器人用什么控制方式,joint 关节控制、ee 末端执行器控制

传统VLA = 单一文本提示 + 高质量数据。 π₀.₇ = 多模态提示 + 任意混合数据

在这里插入图片描述

一、核心设计创新

  1. 多元提示架构
    摒弃单一文本指令,采用多维度上下文提示,包含:
    • 子任务指令:细化语义级分步操作,支持人工语音指导;
    • 子目标图像:由世界模型BAGEL生成多视角目标画面,明确执行细节;
    • 多元数据标注:标注机器人的执行速度、质量、错误状态,适配混合质量数据;
    • 控制模式:支持关节级/末端执行器两种动作控制。
  2. 模型架构
    以Gemma3 4B为视觉-语言主干,搭配860M参数流匹配动作专家,集成MEM记忆系统,支持多相机历史帧与子目标图像输入,采用知识绝缘训练方案保证训练稳定。
  3. 训练数据
    融合优质演示数据、自主执行数据(含失败案例)、人类第一视角视频、网络多模态数据,无需过滤低质量数据,靠元数据实现有效学习。

二、模型架构

如下图所示,是π₀.₇的模型架构,采用 “三级分层+多模态提示+模块化分工” 的范式,解决传统VLA模型指令歧义、数据利用受限、长周期任务鲁棒性差的问题:

  1. 分层解耦:将“任务规划、目标可视化、动作执行”拆分为独立模块,各司其职、可独立优化。
  2. 多模态提示:用「文本指令+子目标图像+元数据」的组合提示,消除歧义、引导模型从混合质量数据中学习。
  3. 记忆与世界模型:通过历史观测记忆解决长任务状态遗忘,通过生成式世界模型提供视觉目标参考。
  4. 流匹配执行:用Flow Matching动作专家建模多模态动作分布,输出平滑、鲁棒的连续动作序列。
    在这里插入图片描述

步骤1:任务输入与高层规划(High-Level Policy)

  • 输入来源
    • 用户直接语音指令(Human),或文本形式的高层任务指令(如"clean the kitchen")。
    • 当前观测(current observation)+ 任务记忆(task instruction + memory)+ 元数据(metadata,如质量星级、操作速度、是否错误)。
  • 模块功能
    由和主模型同构的SigLIP+Gemma3模型,将复杂长任务分解为可执行的子任务指令(如"pick up the knife"),实现长周期任务的分步规划。

步骤2:子目标生成(World Model)

  • 输入:当前观测(current observation)+ 子任务指令(subtask instruction)+ 元数据(metadata)。
  • 模块功能
    由14B参数的BAGEL世界模型,生成多视角子目标图像(subgoal images),明确“当前子任务要达成的视觉状态”,解决纯文本指令的歧义问题(比如“拿起刀”到底要拿成什么样)。

步骤3:多模态提示构建

主模型接收来自各模块的完整提示输入,包括:

  1. observation memory:机器人最近多帧历史观测(多相机视角),提供状态上下文。
  2. task instruction:原始高层任务指令(如"clean the kitchen")。
  3. subtask instruction:高层策略输出的当前子任务指令(如"pick up the knife")。
  4. subgoal images:世界模型生成的子目标图像,提供视觉目标参考。
  5. metadata:任务元数据(质量、速度、错误状态等),控制执行策略风格。

步骤4:动作生成与执行(π₀.₇ VLA模型)

  • 模块组成
    • 视觉语言主干:SigLIP(400M)+ Gemma3(4B),处理所有多模态提示,提取统一特征表示。
    • 动作专家:860M参数的Flow Matching模型,接收主干特征+噪声(用于建模多模态动作分布),输出连续动作序列(actions)。
  • 输出:机器人关节/末端执行器的连续动作指令,直接发送给机械臂执行。

步骤5:循环迭代

子任务执行完成后,更新观测记忆,高层策略输出下一个子任务,重复步骤1-4,直到完成整个长周期任务。

三、π₀.₇ vs π₀.₆ vs π₀.₅ 核心差异对比表

如下表所示,总结了π₀.₇/π₀.₆/π₀.₅三代VLA模型的迭代差异:

对比维度 π₀.₇ π₀.₆ π₀.₅
定位 可 steer、强泛化、通用机器人基础模型 通用VLA模型,支持记忆 分层VLA,支持开放世界泛化
总参数量 约5B(4B VLM + 860M动作专家) 约4.4B 约3.7B
主干模型 Gemma3 4B + MEM记忆编码器 Gemma2 2B + MEM Gemma2 2B
提示/上下文 任务指令+子任务+子目标图像+元数据+控制模式 任务指令 任务指令+高层子任务
子目标图像 支持(世界模型BAGEL生成) 不支持 不支持
多元数据信息标注 速度、质量、错误标签
训练数据 演示+自主数据(含失败)+人类视频+网页数据 演示+少量自主数据 以高质量演示为主
混合数据学习 可高效利用低质量/失败数据 有限,依赖高质量数据 仅用高质量数据
开箱即用性能 媲美/超越专项RL微调模型 接近但弱于RL专家 需微调才能达专家水平
跨形态迁移 零样本强,可跨UR5e等工业臂 中等,小形态差异可用 弱,形态差异大即失效
指令遵循 强,可处理复杂/反常识/指代指令 中等,常规指令可用 基础,复杂指令易失败
组合泛化 强,零样本新任务+语言教练 弱,难组合新技能 极弱,几乎无泛化
灵巧任务 叠衣、做咖啡、装箱、削菜等 部分灵巧任务 以简单操作为主
推理速度 最快38ms,全功能127ms 约60–150ms 约80–200ms
核心突破 泛化、可控、跨形态、数据效率 记忆、长周期任务 分层、开放世界

π₀.₇ 框架亮点总结

设计点 解决的问题 效果
分层规划+子目标生成 长周期任务规划难、纯文本指令歧义大 复杂任务可分步执行,指令理解准确率大幅提升
多模态提示输入 传统VLA仅靠文本指令,无法利用低质量/失败数据 支持混合质量数据训练,数据效率显著提升
记忆系统(MEM) 长任务状态遗忘 能记住历史观测,提升长周期任务鲁棒性
Flow Matching动作专家 传统回归模型输出单一动作模式,不够鲁棒 建模多模态动作分布,动作更自然、容错性更强
模块化设计 端到端模型难以优化、扩展 各模块可独立训练/替换,适配不同机器人与任务场景

π₀.₇ 关键能力表现

  1. 开箱即用的灵巧操作
    无需任务微调,即可完成制作意式咖啡、叠衣服、组装纸箱、削蔬果、换垃圾袋等高难度长周期任务,性能媲美甚至超越专项RL微调模型,在叠衣、装箱任务中吞吐量更高。
  2. 强指令遵循与泛化
    在4个全新厨房、2个全新卧室环境中,可执行3-6步复杂开放指令,能理解非常规指代指令,还可突破数据集偏见执行反向任务(如把餐具丢进垃圾桶)。
  3. 零样本跨形态迁移
    无需目标机器人任务数据,可将技能迁移至不同形态机器人(如从轻型双臂机器人,迁移至UR5e工业双臂),叠衣任务表现比肩资深远程操控专家
  4. 组合式任务泛化
    零样本完成未训练短周期任务(按法压壶、盛米饭);通过分步语言指导即可学会空气炸锅、烤贝果等全新长周期任务,还能基于指导数据训练自主高层策略。

四、π₀.₇设计背景和解决的问题(可选观看)

1. 基础模型的通用能力来源

Foundation models work on the principle that generalist capabilities emerge from training on large and diverse datasets.

  • 展开:
    所有大模型(LLM、多模态、机器人)的通用能力不是设计出来的,是“涌现”出来的
    关键条件只有两个:数据够大、数据够多样
    这是整篇π₀.₇的理论根基

2. LLM的组合泛化(黄金标准)

For example, large language models can not only recall facts… but compose that knowledge in new ways…

  • 展开:
    LLM 最强的不是“记住”,而是把没见过的知识组合起来解决新问题
    这种能力叫 组合泛化(compositional generalization),是“通用智能”的标志。

3. 机器人领域的最大困境

This kind of compositional generalization… has proven elusive in physical intelligence.

  • 展开:
    语言模型轻松做到的事,机器人完全做不到
    机器人只能学“见过的任务”,不会自己组合技能
    → 这是π₀.₇要攻克的核心科学问题

4. 传统机器人VLA模型的致命缺陷

While robotic foundation models… their ability to generalize… has been limited.
Prior VLAs… often struggle to perform all instructions without task-specific fine-tuning.

  • 展开:
    过去的视觉-语言-动作模型(VLA)有两个硬伤:
    1. 不会泛化到新任务
    2. 就算是训练过的任务,不微调也做不好
      根本算不上“通用机器人”。

5. π₀.₇的核心突破

We present π₀.₇… exhibits strong compositional generalization…

  • 展开:
    π₀.₇ 第一次在机器人上实现了接近LLM的组合泛化:
    • 能听懂各种语言指令
    • 灵巧操作媲美专项微调模型
    • 能把旧技能重新组合做新任务

6. 靠什么实现:超多元数据

This is enabled by leveraging large and diverse datasets… robots, autonomous data, failures, human videos, web data.

  • 展开:
    π₀.₇不只用高质量演示,还敢用:
    • 不同机器人的数据
    • 自主运行的数据(包括失败)
    • 人类第一视角视频
    • 互联网多模态数据
      这是前所未有的数据规模与多样性

7. 一个关键难题:乱数据会让模型变“平庸”

Using such data naively does not lead to success… model averages modes… suboptimal.

  • 展开:
    直接用杂乱数据会毁掉模型
    因为模型会把各种好坏策略“取平均”,最后什么都做不好。
    → 这是行业一直不敢用杂数据的原因。

8. π₀.₇的独家解法:精细上下文提示

We address this by detailed context annotations… what to do + how to do it.

  • 展开:
    给每一段数据都加详细“说明书”
    不只告诉模型“做什么”,还告诉它怎么做、做得好不好、快不快、有没有错
    让模型能区分好坏、区分策略,不会“平均化”。

9. 最终提示结构(论文核心创新)

Our prompt includes detailed language, strategy metadata, subgoal images.

  • 展开:
    π₀.₇的提示 =
    1. 精细语言指令(做什么)
    2. 策略元数据(速度、质量、错误)
    3. 子目标图像(视觉上要变成什么样)
      这套组合是机器人领域第一次出现

10.为什么用Flow Matching 而不是普通回归?

π₀.₇的动作专家 = 860M参数 Flow Matching 模型

  • 机器人动作是多模态的(同一种任务有多种正确做法)。
  • 回归只能输出平均值 → 动作僵硬、失败率高。
  • Flow Matching能建模多种合理动作分布 → 更灵活、更像人类。

11. 最终效果

Resolve ambiguity, learn from suboptimal data, generalization across instructions, embodiments, environments.

  • 展开:
    最终实现三大能力:
    1. 从劣质/失败数据中学习
    2. 消除任务歧义
    3. 跨指令、跨机器人、跨环境通用

五、多元数据提示 Prompt

传统机器人仅输入单句文字指令,π₀.₇ 采用多模态精细化提示,让机器人清晰理解执行逻辑、质量要求与控制方式,完成各类复杂任务。

5.1 为什么要"多元数据提示"?

对比项 传统 VLA (π₀.₅/RT-2/OpenVLA) π₀.₇
输入 “把杯子放到桌子上” 任务指令 + 子任务指令 + 子目标图像 + 剧集元数据 + 控制模式
问题 ① 无执行细节
② 无质量标准
③ 无速度要求
④ 无避错指引
⑤ 无控制方式
全维度明确执行要求
结果 仅适配高质量演示数据,无法利用次优/失败数据,泛化能力弱,动作单一 兼容混合质量数据,泛化能力强,零微调开箱即用

核心逻辑:扩充多模态提示 → 消歧义、可精控 → 善用混合/次优/失败数据 → 跨具身/跨任务强泛化 → 零微调开箱即用

5.2 π₀.₇ 的四大提示组件

┌─────────────────────────────────────────────────────────┐
│                    π₀.₇ 完整提示架构                      │
├─────────────┬───────────────────────────────────────────┤
│  ① 子任务   │  语义级任务分解                           │
│  指令       │  "fold shirt" → pick→fold left→fold right │
├─────────────┼───────────────────────────────────────────┤
│  ② 子目标   │  轻量世界模型BAGEL生成"步骤目标视觉效果"    │
│  图像       │  解决语言歧义(如"放好"的具体形态)        │
├─────────────┼───────────────────────────────────────────┤
│  ③ Episode  │  速度(时间步分箱,如8000steps)+ 质量(1-5星)      │
│  元数据     │  + 是否犯错(true/false)                    │
├─────────────┼───────────────────────────────────────────┤
│  ④ 控制模式 │  joint(关节控制) / ee(末端执行器控制)              │
└─────────────┴───────────────────────────────────────────┘
① 子任务指令
  • 作用:长周期任务语义级拆分,支持人工分步语言指导
  • 创新:基于语义逻辑拆分任务,而非简单时间分段,让复杂长任务可解
② 子目标图像 ⭐ 核心创新
  • 来源:基于BAGEL的轻量世界模型生成多视图子目标图像
  • 价值:用视觉画面消除语言模糊性,明确步骤执行后的场景状态
  • 意义:将生成式视觉目标作为核心提示,大幅提升机器人空间执行精度
③ Episode 元数据 ⭐ 关键创新
  • 标签:速度(执行时间步离散分箱)| 质量(1-5星,5为最高) | 是否犯错(true/false)
  • 价值:让模型精准区分数据质量,学习优质动作、规避错误操作、控制执行效率
  • 突破:传统模型无法使用失败/次优数据,π₀.₇ 依托元数据可高效学习此类数据
④ 控制模式
  • 选项:joint(关节控制) / ee(末端执行器控制)
  • 价值:灵活适配不同形态机器人的硬件执行方式,支撑跨具身迁移

5.3 完整提示示例

Task:        peel vegetables    # 总任务
Subtask:     pick up the peeler # 当前子任务
Speed:       8000               # 执行速度(时间步分箱)
Quality:     5                  # 质量等级(最高5星)
Mistake:     false              # 是否为错误示范
ControlMode: joint              # 控制方式

💡 这就是机器人的"超级指令"——相比传统单句指令,包含更全面的执行与控制信息

示例数据如下所示:
在这里插入图片描述

5.4 训练关键技巧:Prompt Dropout

做法:训练时随机丢弃部分提示组件(子目标图像/元数据/子任务指令)

效果

训练时          推理时
有时有子目标图像  ──→   有图 → 依托图像精准执行
有时无子目标图像  ──→   没图 → 仅靠语言正常执行
有时有元数据     ──→   有数据 → 精细化控制速度/质量
有时无元数据     ──→   没有 → 按默认模式执行

结果:模型适配多种输入形式,开箱即用,无需任务专属微调

5.5 核心优势总结

能力 传统 VLA π₀.₇
利用失败/次优数据 ❌ 无法适配 ✅ 依托元数据精准区分
长任务语义分解 ❌ 不支持 ✅ 子任务指令拆分
消除语言歧义 ❌ 无法解决 ✅ 子目标图像可视化明确
执行速度/质量控制 ❌ 无相关能力 ✅ 元数据标签可控
跨机器人硬件适配 ❌ 难以适配 ✅ 支持双控制模式
零样本泛化 ❌ 能力极弱 ✅ Prompt Dropout训练赋能

六、模型设计细节

6.1 世界模型(BAGEL 14B)训练

维度 配置
训练数据 机器人高质量分段数据 + 人类第一视角视频 + 开源图像/视频数据集
输入分辨率 ViT 编码 448×336 / VAE 编码 512×384
刷新频率 4 秒 生成一次子目标图像(匹配机器人执行节奏)
核心作用 生成视觉提示,消除语言歧义

6.2 推理速度与工程优化

硬件配置
π₀.₇ 策略模型     →  单卡 NVIDIA H100
BAGEL 世界模型    →  4 卡 H100 并行
优化手段
  • 8 位量化 → 压缩模型体积
  • SageAttention → 加速注意力计算
  • 张量并行 → 多卡并行推理
性能指标
场景 延迟 说明
π₀.₇ 最简推理 38 ms 基础策略生成
π₀.₇ 全功能 127 ms 含完整上下文处理
子目标图像生成 1.25 s 世界模型生成目标图
执行策略:异步流水线
时间轴 ──────────────────────────────────────→

机器人执行    [动作 A ..........] [动作 B ..........]
              ↑                  ↑
子目标生成    [生成图 A][生成图 B]
              ↑                  ↑
              4s 刷新            4s 刷新

关键:机器人边执行当前动作,边异步生成下一步子目标图,掩盖 1.25s 生成延迟

6.3 核心结论

痛点 解决方案 效果
策略推理慢 8 位量化 + SageAttention 38ms 实时响应
图像生成慢 4 卡并行 + 异步流水线 执行掩盖延迟
部署门槛高 单卡 H100 可跑 工程落地可行

七、模型效果

模型性能对比1:

  • 同一 π₀.₇模型在下图所有任务中,性能均可与 π₀.₆*RL 或 π₀.₆SFT 的任务专属后训练专项策略持平
  • 甚至在叠衣物、组装盒子等多样化任务中,吞吐量超过了强化学习(RL)专项模型。

在这里插入图片描述

模型性能对比2:全新环境下的通用指令测试

  • 纵轴:指令遵循成功率(%)
  • 场景 1:未见过的厨房(多样化指令)
  • 场景 2:未见过的卧室(多样化指令)

→ 核心结果:π₀.₇的成功率在两类场景中均显著高于前两代模型。
在这里插入图片描述
模型性能对比3:跨具身迁移性能

在简单的重排或位置调整类任务中,π₀.₇与前代模型都能开箱即用实现强跨具身迁移。

在这里插入图片描述

如下图所示,展示了 π₀.₇模型执行的两个典型长周期多步骤机器人具身操作任务

  • Take Out Trash(倒垃圾任务)
  • Toasting a Bagel(烤贝果任务)
    在这里插入图片描述

分享完成~

相关文章推荐:
《VLA 系列》分析 Ψ₀ | Psi0 | 通用人形机器人 | 移动 + 操作
《VLA 系列》复现 Ψ₀ | Psi0 | 通用人形机器人 | 移动操作模型
《VLA 系列》Humanoid Everyday | 人形机器人 | 开源数据集
《VLA 系列》π0.5 | 流匹配 | 分层推理 | VLA
《VLA 系列》复现 π0.5 | 数据采集 | 模型微调 | DROID
《VLA 系列》复现 π0.5、π0-FAST、π0 | 环境搭建 | 模型推理
《VLA 系列》π0 | 流匹配 | 开山之作 | VLA
【VLA 系列】 πRL | 在线强化学习 | 流匹配 | VLA
《VLA 系列》SimpleVLA-RL | 端到端 在线强化学习 | VLA
《VLA 系列》HumDex | 人形机器人 | 全身灵巧操作 | 遥操作系统 | 数据采集

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐