《VLA 系列》π₀.₇ Pi0.7 | 多元提示Prompt | 泛化提升 | 通用机器人

躬行见万象

1132人浏览 · 2026-04-18 16:39:31

躬行见万象 · 2026-04-18 16:39:31 发布

π₀.₇是一款可精准调控的通用机器人基础模型，核心通过多模态丰富提示与多元数据训练，实现无需微调的开箱即用能力与组合泛化。

定标杆：大模型的通用能力来自大规模+多样化数据，组合泛化是核心。
指痛点：机器人领域一直做不到组合泛化，传统VLA模型有致命缺陷。
抛方案：π₀.₇用多元数据 + 精细多模态提示解决痛点，实现通用机器人。

π₀.₇的核心目标： 给数据加“说明书”，让模型能吃脏数据、差数据、失败数据，还能越学越强。

论文地址：π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities

项目地址：https://www.pi.website/blog/pi07

下面是示例的Prompt信息

Task（任务）: peel vegetables
Subtask（子任务指令）: pick up the peeler
Speed（速度）: 2000
Quality（质量）: 5
Mistake（是否犯错）: false
Control Mode（控制方式）: joint

其中，上面标签的范围定义

速度：时间步长离散值（如 8000、2000，按 500 步区间分箱）
质量：1~5 星
是否犯错：true / false
控制方式：告诉机器人用什么控制方式，joint 关节控制、ee 末端执行器控制

传统VLA = 单一文本提示 + 高质量数据。 π₀.₇ = 多模态提示 + 任意混合数据

在这里插入图片描述

一、核心设计创新

多元提示架构
摒弃单一文本指令，采用多维度上下文提示，包含：
- 子任务指令：细化语义级分步操作，支持人工语音指导；
- 子目标图像：由世界模型BAGEL生成多视角目标画面，明确执行细节；
- 多元数据标注：标注机器人的执行速度、质量、错误状态，适配混合质量数据；
- 控制模式：支持关节级/末端执行器两种动作控制。
模型架构
以Gemma3 4B为视觉-语言主干，搭配860M参数流匹配动作专家，集成MEM记忆系统，支持多相机历史帧与子目标图像输入，采用知识绝缘训练方案保证训练稳定。
训练数据
融合优质演示数据、自主执行数据（含失败案例）、人类第一视角视频、网络多模态数据，无需过滤低质量数据，靠元数据实现有效学习。

二、模型架构

如下图所示，是π₀.₇的模型架构，采用 “三级分层+多模态提示+模块化分工” 的范式，解决传统VLA模型指令歧义、数据利用受限、长周期任务鲁棒性差的问题：

分层解耦：将“任务规划、目标可视化、动作执行”拆分为独立模块，各司其职、可独立优化。
多模态提示：用「文本指令+子目标图像+元数据」的组合提示，消除歧义、引导模型从混合质量数据中学习。
记忆与世界模型：通过历史观测记忆解决长任务状态遗忘，通过生成式世界模型提供视觉目标参考。
流匹配执行：用Flow Matching动作专家建模多模态动作分布，输出平滑、鲁棒的连续动作序列。

步骤1：任务输入与高层规划（High-Level Policy）

输入来源：
- 用户直接语音指令（Human），或文本形式的高层任务指令（如"clean the kitchen"）。
- 当前观测（current observation）+ 任务记忆（task instruction + memory）+ 元数据（metadata，如质量星级、操作速度、是否错误）。
模块功能：
由和主模型同构的SigLIP+Gemma3模型，将复杂长任务分解为可执行的子任务指令（如"pick up the knife"），实现长周期任务的分步规划。

步骤2：子目标生成（World Model）

输入：当前观测（current observation）+ 子任务指令（subtask instruction）+ 元数据（metadata）。
模块功能：
由14B参数的BAGEL世界模型，生成多视角子目标图像（subgoal images），明确“当前子任务要达成的视觉状态”，解决纯文本指令的歧义问题（比如“拿起刀”到底要拿成什么样）。

步骤3：多模态提示构建

主模型接收来自各模块的完整提示输入，包括：

observation memory：机器人最近多帧历史观测（多相机视角），提供状态上下文。
task instruction：原始高层任务指令（如"clean the kitchen"）。
subtask instruction：高层策略输出的当前子任务指令（如"pick up the knife"）。
subgoal images：世界模型生成的子目标图像，提供视觉目标参考。
metadata：任务元数据（质量、速度、错误状态等），控制执行策略风格。

步骤4：动作生成与执行（π₀.₇ VLA模型）

模块组成：
- 视觉语言主干：SigLIP（400M）+ Gemma3（4B），处理所有多模态提示，提取统一特征表示。
- 动作专家：860M参数的Flow Matching模型，接收主干特征+噪声（用于建模多模态动作分布），输出连续动作序列（actions）。
输出：机器人关节/末端执行器的连续动作指令，直接发送给机械臂执行。

步骤5：循环迭代

子任务执行完成后，更新观测记忆，高层策略输出下一个子任务，重复步骤1-4，直到完成整个长周期任务。

三、π₀.₇ vs π₀.₆ vs π₀.₅ 核心差异对比表

如下表所示，总结了π₀.₇/π₀.₆/π₀.₅三代VLA模型的迭代差异：

对比维度	π₀.₇	π₀.₆	π₀.₅
定位	可 steer、强泛化、通用机器人基础模型	通用VLA模型，支持记忆	分层VLA，支持开放世界泛化
总参数量	约5B（4B VLM + 860M动作专家）	约4.4B	约3.7B
主干模型	Gemma3 4B + MEM记忆编码器	Gemma2 2B + MEM	Gemma2 2B
提示/上下文	任务指令+子任务+子目标图像+元数据+控制模式	任务指令	任务指令+高层子任务
子目标图像	`支持（世界模型BAGEL生成）`	不支持	不支持
多元数据信息标注	`速度、质量、错误标签`	无	无
训练数据	演示+自主数据（含失败）+人类视频+网页数据	演示+少量自主数据	以高质量演示为主
混合数据学习	可高效利用低质量/失败数据	有限，依赖高质量数据	仅用高质量数据
开箱即用性能	`媲美/超越专项RL微调模型`	接近但弱于RL专家	需微调才能达专家水平
跨形态迁移	零样本强，可跨UR5e等工业臂	中等，小形态差异可用	弱，形态差异大即失效
指令遵循	强，可处理复杂/反常识/指代指令	中等，常规指令可用	基础，复杂指令易失败
组合泛化	强，零样本新任务+语言教练	弱，难组合新技能	极弱，几乎无泛化
灵巧任务	叠衣、做咖啡、装箱、削菜等	部分灵巧任务	以简单操作为主
推理速度	最快38ms，全功能127ms	约60–150ms	约80–200ms
核心突破	泛化、可控、跨形态、数据效率	记忆、长周期任务	分层、开放世界

π₀.₇ 框架亮点总结

设计点	解决的问题	效果
分层规划+子目标生成	长周期任务规划难、纯文本指令歧义大	复杂任务可分步执行，指令理解准确率大幅提升
多模态提示输入	传统VLA仅靠文本指令，无法利用低质量/失败数据	支持混合质量数据训练，数据效率显著提升
记忆系统（MEM）	长任务状态遗忘	能记住历史观测，提升长周期任务鲁棒性
Flow Matching动作专家	传统回归模型输出单一动作模式，不够鲁棒	建模多模态动作分布，动作更自然、容错性更强
模块化设计	端到端模型难以优化、扩展	各模块可独立训练/替换，适配不同机器人与任务场景

π₀.₇ 关键能力表现

开箱即用的灵巧操作
无需任务微调，即可完成制作意式咖啡、叠衣服、组装纸箱、削蔬果、换垃圾袋等高难度长周期任务，性能媲美甚至超越专项RL微调模型，在叠衣、装箱任务中吞吐量更高。
强指令遵循与泛化
在4个全新厨房、2个全新卧室环境中，可执行3-6步复杂开放指令，能理解非常规指代指令，还可突破数据集偏见执行反向任务（如把餐具丢进垃圾桶）。
零样本跨形态迁移
无需目标机器人任务数据，可将技能迁移至不同形态机器人（如从轻型双臂机器人，迁移至UR5e工业双臂），叠衣任务表现比肩资深远程操控专家。
组合式任务泛化
零样本完成未训练短周期任务（按法压壶、盛米饭）；通过分步语言指导即可学会空气炸锅、烤贝果等全新长周期任务，还能基于指导数据训练自主高层策略。

四、π₀.₇设计背景和解决的问题（可选观看）

1. 基础模型的通用能力来源

Foundation models work on the principle that generalist capabilities emerge from training on large and diverse datasets.

展开：
所有大模型（LLM、多模态、机器人）的通用能力不是设计出来的，是“涌现”出来的。
关键条件只有两个：数据够大、数据够多样。
这是整篇π₀.₇的理论根基。

2. LLM的组合泛化（黄金标准）

For example, large language models can not only recall facts… but compose that knowledge in new ways…

展开：
LLM 最强的不是“记住”，而是把没见过的知识组合起来解决新问题。
这种能力叫 组合泛化（compositional generalization），是“通用智能”的标志。

3. 机器人领域的最大困境

This kind of compositional generalization… has proven elusive in physical intelligence.

展开：
语言模型轻松做到的事，机器人完全做不到。
机器人只能学“见过的任务”，不会自己组合技能。
→ 这是π₀.₇要攻克的核心科学问题。

4. 传统机器人VLA模型的致命缺陷

While robotic foundation models… their ability to generalize… has been limited.
Prior VLAs… often struggle to perform all instructions without task-specific fine-tuning.

展开：
过去的视觉-语言-动作模型（VLA）有两个硬伤：
1. 不会泛化到新任务
2. 就算是训练过的任务，不微调也做不好
  根本算不上“通用机器人”。

5. π₀.₇的核心突破

We present π₀.₇… exhibits strong compositional generalization…

展开：
π₀.₇ 第一次在机器人上实现了接近LLM的组合泛化：
- 能听懂各种语言指令
- 灵巧操作媲美专项微调模型
- 能把旧技能重新组合做新任务

6. 靠什么实现：超多元数据

This is enabled by leveraging large and diverse datasets… robots, autonomous data, failures, human videos, web data.

展开：
π₀.₇不只用高质量演示，还敢用：
- 不同机器人的数据
- 自主运行的数据（包括失败）
- 人类第一视角视频
- 互联网多模态数据
  这是前所未有的数据规模与多样性。

7. 一个关键难题：乱数据会让模型变“平庸”

Using such data naively does not lead to success… model averages modes… suboptimal.

展开：
直接用杂乱数据会毁掉模型。
因为模型会把各种好坏策略“取平均”，最后什么都做不好。
→ 这是行业一直不敢用杂数据的原因。

8. π₀.₇的独家解法：精细上下文提示

We address this by detailed context annotations… what to do + how to do it.

展开：
给每一段数据都加详细“说明书”：
不只告诉模型“做什么”，还告诉它怎么做、做得好不好、快不快、有没有错。
让模型能区分好坏、区分策略，不会“平均化”。

9. 最终提示结构（论文核心创新）

Our prompt includes detailed language, strategy metadata, subgoal images.

展开：
π₀.₇的提示 =
1. 精细语言指令（做什么）
2. 策略元数据（速度、质量、错误）
3. 子目标图像（视觉上要变成什么样）
  这套组合是机器人领域第一次出现。

10.为什么用Flow Matching 而不是普通回归？

π₀.₇的动作专家 = 860M参数 Flow Matching 模型。

机器人动作是多模态的（同一种任务有多种正确做法）。
回归只能输出平均值 → 动作僵硬、失败率高。
Flow Matching能建模多种合理动作分布 → 更灵活、更像人类。

11. 最终效果

Resolve ambiguity, learn from suboptimal data, generalization across instructions, embodiments, environments.

展开：
最终实现三大能力：
1. 从劣质/失败数据中学习
2. 消除任务歧义
3. 跨指令、跨机器人、跨环境通用

五、多元数据提示 Prompt

传统机器人仅输入单句文字指令，π₀.₇ 采用多模态精细化提示，让机器人清晰理解执行逻辑、质量要求与控制方式，完成各类复杂任务。

5.1 为什么要"多元数据提示"？

对比项	传统 VLA (π₀.₅/RT-2/OpenVLA)	π₀.₇
输入	“把杯子放到桌子上”	任务指令 + 子任务指令 + 子目标图像 + 剧集元数据 + 控制模式
问题	① 无执行细节 ② 无质量标准 ③ 无速度要求 ④ 无避错指引 ⑤ 无控制方式	全维度明确执行要求
结果	仅适配高质量演示数据，无法利用次优/失败数据，泛化能力弱，动作单一	兼容混合质量数据，泛化能力强，零微调开箱即用

核心逻辑：扩充多模态提示 → 消歧义、可精控 → 善用混合/次优/失败数据 → 跨具身/跨任务强泛化 → 零微调开箱即用

5.2 π₀.₇ 的四大提示组件

┌─────────────────────────────────────────────────────────┐
│                    π₀.₇ 完整提示架构                      │
├─────────────┬───────────────────────────────────────────┤
│  ① 子任务   │  语义级任务分解                           │
│  指令       │  "fold shirt" → pick→fold left→fold right │
├─────────────┼───────────────────────────────────────────┤
│  ② 子目标   │  轻量世界模型BAGEL生成"步骤目标视觉效果"    │
│  图像       │  解决语言歧义（如"放好"的具体形态）        │
├─────────────┼───────────────────────────────────────────┤
│  ③ Episode  │  速度（时间步分箱，如8000steps）+ 质量(1-5星)      │
│  元数据     │  + 是否犯错(true/false)                    │
├─────────────┼───────────────────────────────────────────┤
│  ④ 控制模式 │  joint(关节控制) / ee(末端执行器控制)              │
└─────────────┴───────────────────────────────────────────┘

① 子任务指令

作用：长周期任务语义级拆分，支持人工分步语言指导
创新：基于语义逻辑拆分任务，而非简单时间分段，让复杂长任务可解

② 子目标图像 ⭐ 核心创新

来源：基于BAGEL的轻量世界模型生成多视图子目标图像
价值：用视觉画面消除语言模糊性，明确步骤执行后的场景状态
意义：将生成式视觉目标作为核心提示，大幅提升机器人空间执行精度

③ Episode 元数据 ⭐ 关键创新

标签：速度（执行时间步离散分箱）| 质量(1-5星，5为最高) | 是否犯错(true/false)
价值：让模型精准区分数据质量，学习优质动作、规避错误操作、控制执行效率
突破：传统模型无法使用失败/次优数据，π₀.₇ 依托元数据可高效学习此类数据

④ 控制模式

选项：joint(关节控制) / ee(末端执行器控制)
价值：灵活适配不同形态机器人的硬件执行方式，支撑跨具身迁移

5.3 完整提示示例

Task:        peel vegetables    # 总任务
Subtask:     pick up the peeler # 当前子任务
Speed:       8000               # 执行速度（时间步分箱）
Quality:     5                  # 质量等级（最高5星）
Mistake:     false              # 是否为错误示范
ControlMode: joint              # 控制方式

💡 这就是机器人的"超级指令"——相比传统单句指令，包含更全面的执行与控制信息

示例数据如下所示：
在这里插入图片描述

5.4 训练关键技巧：Prompt Dropout

做法：训练时随机丢弃部分提示组件（子目标图像/元数据/子任务指令）

效果：

训练时          推理时
有时有子目标图像  ──→   有图 → 依托图像精准执行
有时无子目标图像  ──→   没图 → 仅靠语言正常执行
有时有元数据     ──→   有数据 → 精细化控制速度/质量
有时无元数据     ──→   没有 → 按默认模式执行

结果：模型适配多种输入形式，开箱即用，无需任务专属微调

5.5 核心优势总结

能力	传统 VLA	π₀.₇
利用失败/次优数据	❌ 无法适配	✅ 依托元数据精准区分
长任务语义分解	❌ 不支持	✅ 子任务指令拆分
消除语言歧义	❌ 无法解决	✅ 子目标图像可视化明确
执行速度/质量控制	❌ 无相关能力	✅ 元数据标签可控
跨机器人硬件适配	❌ 难以适配	✅ 支持双控制模式
零样本泛化	❌ 能力极弱	✅ Prompt Dropout训练赋能

六、模型设计细节

6.1 世界模型（BAGEL 14B）训练

维度	配置
训练数据	机器人高质量分段数据 + 人类第一视角视频 + 开源图像/视频数据集
输入分辨率	ViT 编码 `448×336` / VAE 编码 `512×384`
刷新频率	每 4 秒生成一次子目标图像（匹配机器人执行节奏）
核心作用	生成视觉提示，消除语言歧义

6.2 推理速度与工程优化

硬件配置

π₀.₇ 策略模型     →  单卡 NVIDIA H100
BAGEL 世界模型    →  4 卡 H100 并行

优化手段

8 位量化 → 压缩模型体积
SageAttention → 加速注意力计算
张量并行 → 多卡并行推理

性能指标

场景	延迟	说明
π₀.₇ 最简推理	38 ms	基础策略生成
π₀.₇ 全功能	127 ms	含完整上下文处理
子目标图像生成	1.25 s	世界模型生成目标图

执行策略：异步流水线

时间轴 ──────────────────────────────────────→

机器人执行    [动作 A ..........] [动作 B ..........]
              ↑                  ↑
子目标生成    [生成图 A][生成图 B]
              ↑                  ↑
              4s 刷新            4s 刷新

关键：机器人边执行当前动作，边异步生成下一步子目标图，掩盖 1.25s 生成延迟

6.3 核心结论

痛点	解决方案	效果
策略推理慢	8 位量化 + SageAttention	38ms 实时响应
图像生成慢	4 卡并行 + 异步流水线	执行掩盖延迟
部署门槛高	单卡 H100 可跑	工程落地可行

七、模型效果

模型性能对比1：

同一 π₀.₇模型在下图所有任务中，性能均可与 π₀.₆*RL 或 π₀.₆SFT 的任务专属后训练专项策略持平
甚至在叠衣物、组装盒子等多样化任务中，吞吐量超过了强化学习（RL）专项模型。

在这里插入图片描述

模型性能对比2：全新环境下的通用指令测试

纵轴：指令遵循成功率（%）
场景 1：未见过的厨房（多样化指令）
场景 2：未见过的卧室（多样化指令）

→ 核心结果：π₀.₇的成功率在两类场景中均显著高于前两代模型。
在这里插入图片描述
模型性能对比3：跨具身迁移性能

在简单的重排或位置调整类任务中，π₀.₇与前代模型都能开箱即用实现强跨具身迁移。

在这里插入图片描述

如下图所示，展示了 π₀.₇模型执行的两个典型长周期多步骤机器人具身操作任务

Take Out Trash（倒垃圾任务）
Toasting a Bagel（烤贝果任务）

分享完成~

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

git-＞GitHub的基础操作

在当下软件开发、开源协作的生态中，Git 与 GitHub 早已成为开发者的必备工具。无论是个人独立开发项目、日常代码版本管理，还是团队多人协作开发、参与全球开源项目，GitHub 都是最核心的代码托管与协作平台。对于每一位程序员、开源爱好者和技术学习者而言，熟练掌握 GitHub 配套的终端命令，是摆脱图形化操作局限、提升开发效率的关键能力。