π₀与 π₀.₅完整技术细节文档
一、模型概述与定位
1.1 π₀ 基础定义
π₀(Pi-Zero)是由美国 Physical Intelligence 公司(原 Google DeepMind 机器人核心团队)开发的首款工业级连续动作生成视觉 - 语言 - 动作模型(VLA) ,于 2024 年 10 月 31 日正式发布。
其核心设计目标是实现跨机器人形态、跨通用任务的灵巧运动控制,首次将流匹配(Flow Matching,一种连续空间扩散生成范式)与互联网级预训练视觉 - 语言模型(VLM)深度融合,彻底解决此前主流离散 Token 型 VLA 模型控制精度不足、机械抖动明显的痛点。
1.2 π₀.₅ 基础定义
π₀.₅(Pi-Zero-Point-Five)是 Physical Intelligence 于 2025 年 4 月 22 日发布的 π₀重大迭代升级版,核心目标是彻底解决 π₀及同期其他 VLA 模型的开放环境泛化性短板—— 即从 “实验室固定场景下的任务生效”,跨越到 “完全未见过的新家居 / 办公场景下的长时序复杂任务自主执行”。
该版本通过异源数据联合训练、分层推理架构、知识绝缘训练三大核心技术,将 VLA 模型的泛化能力从 “训练分布内匹配” 提升到了 “未知场景语义适配” 水平。
1.3 版本谱系核心差异总览
|
维度 |
π₀ |
π₀.₅ |
|
核心设计目标 |
建立通用灵巧动作生成底座,实现跨机器人形态的高精度连续控制 |
在 π₀动作底座基础上,提升开放世界泛化能力,支撑全新场景下的长时序任务 |
|
架构范式 |
单级混合专家架构:VLM 骨干 + 独立流匹配动作专家 |
两级分层架构:复用 π₀所有核心组件,新增高层语义规划模块,采用「高层自回归规划 + 低层流匹配动作生成」混合范式 |
|
动作生成逻辑 |
纯流匹配,一次性生成 50 步连续动作,仅支持增量式运动指令输出 |
保留 π₀流匹配底层,先由高层生成文本性子任务指令,再驱动低层生成对应动作;同时兼容 FAST 离散 Token 训练模式 |
|
训练数据构成 |
仅同源机器人数据:10000 小时跨形态真实机器人轨迹数据 |
异源多类别数据:在 π₀机器人数据基础上,新增网页语义数据、人类分步教学指令数据、非同源跨环境机器人数据 |
|
关键技术导向 |
优化连续动作精度、不同机器人运动学适配 |
优化场景 / 物体语义泛化、长时序任务逻辑分解、多源知识迁移 |
|
泛化能力边界 |
仅在与训练环境高度匹配的场景下生效,全新场景任务成功率 < 10% |
在未见过的新家居 / 办公室场景中,长时序任务成功率达 55%-60% |
|
推理模式 |
纯闭环动作重规划,无任务级逻辑分层 |
分层级联推理:先规划子任务,再生成执行动作 |
二、π₀ 深度技术架构(全模块拆解)
π₀采用混合专家架构(MoE-style) ,总参数量约 33 亿,由两个完全独立但通过受控注意力交互的核心子模块组成:
- 通用视觉 - 语言骨干(VLM):30 亿参数,负责多模态语义理解;
- 专用动作专家(Action Expert):3 亿参数,负责将语义约束转化为机器人连续运动指令。
2.1 视觉编码器细节
|
技术项 |
具体规范 |
|
基础架构 |
SigLIP(4 亿参数)视觉 Transformer,采用 ViT/14 的 Patch 划分策略 |
|
输入配置 |
原生支持多视角机器人 RGB 图像输入(默认配置 2-3 个固定摄像头,如前视全局摄像头、侧视近距离补光摄像头),单帧分辨率适配预训练输入尺寸 |
|
编码逻辑 |
每张图像独立编码为定长视觉 Token 序列,随后通过一个线性投影层,将视觉特征与语言特征映射到同一多模态语义空间 |
|
权重复用逻辑 |
完全复用互联网规模预训练 SigLIP 权重,不针对机器人场景单独训练,直接继承通用视觉语义知识 |
|
核心作用 |
建立「场景物体空间位置 - 任务语义目标」的端到端关联,让模型识别作业场景的关键元素 |
2.2 语言编码器与多模态融合
- 语言骨干:采用 Gemma(26 亿参数)预训练大模型,继承互联网预训练的通用语义理解能力,负责解析自然语言任务指令(如 "fold the shirt"、"put the plate in the sink")。
- 多模态融合策略:采用晚融合范式,在 VLM 骨干的顶层进行特征拼接:将视觉 Token 序列、语言 Token 序列按顺序拼接后,送入 PaliGemma 骨干的双向注意力层完成融合,输出统一的多模态语义表征。
- 注意力隔离设计:采用分块因果注意力掩码,将输入分为三个独立块,控制跨模块注意力访问权限:
-
- 第一块:视觉 + 语言 Token,允许双向自注意力,但无法被后续任何模块访问;
-
- 第二块:机器人本体感知 Token,独立单向注意力,仅可被后续动作块访问;
-
- 第三块:带噪动作 Token,允许访问前面所有块的信息,保证动作生成贴合场景实时状态。
- 设计目的:避免动作生成部分的梯度更新,破坏预训练 VLM 的语义分布,最大程度保留互联网预训练的通用知识,减少跨模态迁移时的分布偏移。
2.3 本体感知状态输入处理
本体感知(Proprioceptive)是机器人反馈自身实时运动状态的核心数据,也是模型生成精准连续动作的关键参考基准:
- 输入内容:包含机器人所有关节的实时角度、末端执行器(如机械臂法兰盘)的 6D 位姿、夹爪开合距离、移动底盘轮速等硬件实时反馈数据;
- 处理逻辑:独立于图像、语言输入的单独数据流,通过专属线性投影层,嵌入到与 VLM 骨干相同的隐藏维度;
- 推理优化:在流匹配迭代去噪过程中,本体感知块的注意力键值(K/V)被全程缓存,无需每次迭代重复计算,大幅减少冗余推理计算量。
2.4 动作生成核心:流匹配(Flow Matching)
π₀是全球首个将流匹配工程化应用于 VLA 机器人控制的工业级模型,彻底解决了此前扩散模型生成速度慢、离散 Token 生成动作不连贯的痛点。
2.4.1 动作空间设计
π₀采用动作分块(Action Chunking) 范式,平衡控制实时性、动作平滑度、推理延迟三者关系:
- 动作块尺寸:模型单次并行生成固定 50 步连续动作,对应机器人 0.5 秒执行时长(单步控制周期为 10ms,等效原生支持 50Hz 高控制频率,足以支撑灵巧折叠、精密抓取这类高难度任务);
- 动作维度适配:原生支持多机器人自由度配置,动作维度可根据机器人形态灵活调整:
-
- 适配 Franka 台式单臂机器人:7 维关节增量向量 + 1 维夹爪控制量,共 8 维;
-
- 适配 ALOHA 移动双臂机器人:14 维关节增量向量(左右臂各 7 个自由度)+1 维夹爪控制量,共 15 维;
- 输出形式:所有动作均为连续浮点值,代表机器人关节或末端执行器的相对增量,而非绝对目标位姿,保证运动平滑无跳变。
2.4.2 流匹配去噪推理原理
流匹配的本质是学习一个连续去噪向量场,将标准正态分布采样的随机噪声,通过迭代还原为符合任务语义约束的真实机器人动作序列。π₀对该过程做了极致工程化优化:
- 初始化:推理起始时刻,采样一个与动作块尺寸完全一致的高斯噪声矩阵,作为初始带噪动作块;
- 迭代去噪:采用前向欧拉积分进行 10 轮固定迭代(积分步长 δ=0.1,刚好覆盖 τ=0 到 τ=1 的完整去噪过程),每轮迭代遵循公式:
\(A_t^{\tau+\delta} = A_t^\tau + \delta \cdot v_\theta(A_t^\tau, o_t)\)
其中:
-
- \(A_t^\tau\):τ 时刻的带噪动作块;
-
- \(v_\theta\):模型预测的去噪方向向量场,基于当前带噪动作块、机器人实时观测(图像 + 本体状态)计算;
-
- 步长 δ 固定为 0.1,单次迭代幅度受控,保证动作平滑性;
- 输出动作块:10 轮迭代结束后,得到无噪的连续动作块,下发给机器人底层控制器执行;
- 闭环重规划逻辑:机器人按顺序执行动作块中的 16-20 步动作后,立即重新采集实时观测、生成新动作块,用高频重规划修正视觉误差、机械间隙导致的轨迹偏差,保证闭环精度。
2.4.3 动作专家模块细节
这是 π₀实现动作精度与泛化性平衡的核心定制组件:
- 规模:独立 3 亿参数 Transformer 堆栈,完全从随机初始化开始训练,不复用 VLM 骨干的任何权重;
- 输入数据流:同时接收三类数据作为生成动作的约束条件:
-
- VLM 骨干输出的多模态语义表征;
-
- 机器人实时本体感知状态的嵌入向量;
-
- 流匹配当前轮次的带噪动作块;
- 专属优化:模块内部集成多层时间步长编码器,将流匹配的去噪轮次编码为特征向量,融入动作生成逻辑;
- 输出层:线性投影层将去噪后的动作表征,映射为匹配机器人自由度的连续浮点控制增量。
2.5 训练数据与流水线设计
π₀采用跨形态预训练 + 任务微调的双层训练范式,最大化迁移不同机器人的通用运动技能,同时保证目标任务的动作精度:
2.5.1 预训练数据集
- 规模:总量超过 10000 小时的真实机器人轨迹数据,覆盖 7 种主流机器人形态(台式单臂、移动双臂、平行夹爪、人形机器人躯干等)、68 项基础操作任务;
- 数据来源:Physical Intelligence 内部大规模灵巧操作演示数据集 + 开源 Open X-Embodiment(OXE)跨形态机器人数据集(包含 22 种不同机器人的公开演示数据);
- 标注规范:每条轨迹配套两级语言标注:
-
- 任务级指令(如 "clear the dining table");
-
- 子轨迹级细粒度语义标注(如 "pick up the ceramic plate"),覆盖 0.5-2 秒的短动作片段。
2.5.2 两阶段训练流程
- 跨形态预训练阶段:在全量跨形态机器人数据上训练,学习「多模态场景 - 语言指令 - 动作分布」的通用映射逻辑 —— 此时模型已经具备基础的语言跟随能力,能根据场景生成大致合理的动作轮廓,但精度无法支撑精密任务;
- 高质量任务微调阶段:在小规模(通常仅需几十到几百小时)目标任务精选数据上微调,专门优化流匹配向量场的预测精度,让动作生成贴合目标机器人的运动学规律,减少机械抖动、提升抓取精度。
2.5.3 损失函数设计
采用条件流匹配损失,训练目标是最小化模型预测的去噪向量场,与真实动作去噪方向的均方误差,引导噪声向符合物理运动规律的真实动作方向收敛 —— 损失函数中额外加入了一个小权重的动作平滑惩罚项,避免生成突变动作损伤机器人硬件。
2.6 推理性能与部署适配
- 端到端延迟:在 NVIDIA RTX 4090 GPU 上,单卡本地推理延迟仅 73ms;包含环境传输延迟的完整离线推理延迟为 86ms,完全满足 50Hz 实时控制的要求;
- 执行逻辑:机器人底层驱动器接收动作块后,会对连续增量指令做插值处理,保证运动轨迹平滑;每执行 16-20 步动作后,重新采集观测、生成新动作块,闭环修正误差;
- 多框架支持:原生支持 JAX/Flax(训练阶段)、PyTorch(部署阶段)双框架;原生适配 ROS/ROS2 中间件、Franka、ALOHA 等主流机器人硬件;
- 平台扩展:通过标准化*Inputs/*Outputs转换接口,只要实现目标机器人的观测 / 动作格式映射类,就能将模型适配到新机器人平台。
三、π₀.₅ 深度技术架构(π₀全链路升级)
π₀.₅完全复用 π₀的 VLM 骨干 + 流匹配动作专家核心架构,仅在训练数据、推理分层、梯度隔离三个维度做针对性升级,最大化保留动作控制精度,同时实现开放环境泛化。
3.1 核心设计思路:分层级联架构
将任务逻辑拆分为高层语义规划和低层动作执行两个独立层级,由同一模型的不同模块分别处理,解耦 “思考任务逻辑” 和 “控制运动细节” 的过程:
- 高层语义规划层:复用 PaliGemma VLM 骨干的语义能力,以自回归方式生成文本性子任务指令;
- 低层动作生成层:完全复用 π₀的流匹配动作专家,接收子任务指令 + 实时观测,生成连续机器人动作;
- 知识绝缘(Knowledge Insulation) 技术:在训练阶段通过停止梯度传播,隔离高层、低层的权重更新,避免不同来源数据的梯度冲突,保护 VLM 骨干的通用语义知识。
3.2 关键技术升级点
3.2.1 异源数据联合训练(Co-Training)
这是 π₀.₅泛化性提升的核心基础,训练数据覆盖四大类异质来源,总规模远超 π₀:
|
数据来源类别 |
具体内容 |
核心作用 |
|
目标平台移动操纵数据 |
约 400 小时移动双臂机械臂的真实演示数据,覆盖典型家居任务(收拾餐具、整理床铺) |
保证低层动作生成的灵巧度,匹配目标机器人的运动学特性 |
|
跨形态机器人数据(ME/CE) |
继承 π₀的全量跨形态机器人数据,额外新增静态台式单臂、平行夹爪机器人的操纵数据 |
迁移通用机械操作逻辑(如精准抓取、平稳放置),弥补移动机器人数据量不足的短板 |
|
通用网页语义数据(WD) |
大规模公开 multimodal 网页数据,包含图像描述、视觉问答、目标检测等任务 |
提升模型对未见过物体、全新场景的语义理解能力,让模型识别陌生家居物品 |
|
人类分步教学指令数据 |
真人演示长时序任务的过程数据,包含子任务执行顺序、场景逻辑的自然语言引导标注 |
训练高层规划层的任务分解能力,学会将 "clean the kitchen" 这类全局指令,拆解为合理的可执行子任务序列 |
3.2.2 两阶段混合训练流程
π₀.₅采用离散预训练 + 连续后训练的混合流程,兼顾泛化性与动作控制精度:
- 第一阶段:异源数据混合预训练
-
- 训练模式:采用 FAST 动作分词器,将所有机器人连续动作数据压缩为离散 Token,与网页语义数据、子任务指令数据、人类教学数据统一 Token 格式,进行多任务联合训练;
-
- 训练目标:让 VLM 骨干同时掌握三类知识:网页级通用语义、长时序任务分解逻辑、机器人基本动作逻辑;
-
- 隔离逻辑:通过梯度隔离机制,仅更新 VLM 骨干的顶层注意力层,不破坏底层从互联网预训练获得的通用知识。
- 第二阶段:专项后训练
-
- 冻结骨干权重:冻结 PaliGemma 骨干的大部分层,仅微调两个专用模块;
-
- 微调高层规划头:训练模型根据当前场景观测、全局任务指令,生成语义合理的文本性子任务指令;
-
- 微调低层动作专家:基于目标平台的真实数据,微调流匹配动作生成的参数,将离散 Token 学习到的动作逻辑,转换为精准的连续控制增量;
-
- 知识绝缘:严格隔离高层语义任务的梯度和低层动作任务的梯度,避免语义更新破坏动作精度,或动作更新破坏场景语义理解。
3.2.3 分层级联推理流程(核心执行逻辑)
每次完整推理分为两步级联执行,实现 "理性规划 + 直觉执行" 的解耦:
- 高层语义子任务规划:模型基于当前视觉观测、原始全局语言指令、上一步的子任务执行反馈,自回归生成下一个要执行的文本性子任务指令(如 "pick up the cutting board"、"place the plate in the sink");
- 低层连续动作生成:将新的子任务指令 + 机器人实时观测,送入流匹配动作专家,生成 50 步连续动作块,下发给机器人执行;
- 闭环迭代:机器人执行部分动作后,重新采集视觉 + 本体观测,重复上述两步,持续规划后续子任务与动作,支撑 10-15 分钟的长时序复杂任务。
3.2.4 动作生成逻辑完全兼容 π₀
π₀.₅完全继承 π₀的流匹配动作生成核心,保留 50Hz 控制频率、50 步动作块设计,所有针对 π₀的定制化机器人适配方案,都可以直接迁移到 π₀.₅,无需重新开发底层控制接口。
3.3 实测泛化性能表现
官方在完全未见过的新家居环境中进行实测,场景中的户型、家具布局、物品类型均与训练数据完全不同,泛化性提升幅度超过 5 倍:
|
评估场景 |
任务类型 |
实测效果 |
|
新卧室、新厨房(训练集无对应场景数据) |
整理床铺、把盘子放进 Sink、收拾抽屉、用海绵擦拭桌面 |
整体长时序任务成功率达 55%-60%;指令跟随成功率达 94% |
|
out-of-distribution(OOD)物体泛化测试 |
移动指定未见过物体到目标位置 |
指令跟随成功率达 94% |
消融实验验证各数据来源对泛化性的贡献:
- 移除跨形态机器人数据(ME/CE):OOD 指令跟随成功率暴跌至 33%;
- 移除网页语义数据(WD):OOD 指令跟随成功率降至 74%;
- 仅保留同源移动机器人数据:OOD 指令跟随成功率降至不足 40%。
这一结果证明,多源异质数据的组合训练,是 π₀.₅开放世界泛化的关键支撑。
3.4 训练与部署细节
- 开源框架:完全兼容 OpenPI 开源训练 / 部署框架,原生复用 π₀的工具链和检查点格式;
- 微调成本:可以直接基于 π₀预训练权重微调,不需要从零训练,采用 LoRA 低秩微调技术仅需 22.5GB 显存即可完成定制化适配;
- 平台支持:原生支持 DROID 台式操纵平台、ALOHA 双臂移动机器人平台,适配 LIBERO 仿真基准测试,通过配置 Transform 类可快速迁移到 UR5、Franka 等其他机器人平台;
- 推理模式:支持纯动作推理(模拟 π₀模式)和分层级联推理(默认模式)两种部署模式,灵活适配不同场景需求。
四、关键衍生技术:π₀-FAST 动作分词器
π₀和 π₀.₅都适配或衍生了 FAST 动作分词器,作为连接连续动作和离散 Token 的核心技术支撑,解决混合训练模式下的格式不兼容问题。
4.1 技术定位
FAST(Frequency-space Action Sequence Tokenization)是 Physical Intelligence 专门为 VLA 模型设计的高保真连续动作离散化方案,解决传统分箱离散化导致的动作精度损失问题:
- 支撑 π₀.₅的混合训练范式:将机器人连续动作数据,与网页语义数据、子任务指令数据统一为 Token 格式,实现多任务联合训练;
- 衍生出 π₀-FAST 变体:完全用 FAST 分词 + 自回归 Token 预测替代流匹配动作生成,推理速度比原生 π₀快 5 倍,适合对灵巧度要求较低的场景。
4.2 分词流程(可逆高保真压缩)
FAST 实现了连续动作序列到离散 Token 的无损压缩,全程对动作精度无明显影响:
- 动作分块:将连续机器人动作序列按固定步数(如 10 步)切分为动作块,与模型生成的动作块尺寸严格对齐;
- 频域变换:对动作块的每一个自由度维度,应用离散余弦变换(DCT) ,将时域动作信号转换为频域系数 —— 保留决定运动轨迹的低频核心系数,剔除不影响运动精度的高频微小噪声;
- 系数量化:对 DCT 系数进行四舍五入量化,移除低幅度不重要的高频系数,得到稀疏整数矩阵;
- 压缩编码:在量化后的系数序列上训练字节对编码(BPE)算法,建立专属动作词表,将动作块压缩为紧凑的离散 Token 序列;
- 还原过程:解码时先将 Token 序列还原为量化系数,再通过逆 DCT 变换重建连续动作序列,还原后的动作与原始流匹配输出几乎无差异。
4.3 核心技术优势
- 高压缩率:相比传统朴素离散化方案,压缩率提升 10 倍,一个 10 步 6 维动作块仅需 25 个 Token 即可表示;
- 无精度损失:保留了动作生成所需的全部低频关键信息,频域过滤的高频噪声不会影响机器人运动平滑度;
- 全兼容 Transformer:生成的 Token 格式与 LLM 自回归架构完全兼容,可直接用于 π₀.₅的预训练阶段,实现语义任务、动作任务的统一多模态训练范式;
- 双向可逆:压缩后的 Token 序列可以完全还原为原始连续动作,无信息损失,不影响低层流匹配执行精度。
4.4 实际应用场景
|
应用场景 |
技术实现 |
适用范围 |
|
π₀.₅混合预训练 |
用 FAST 将连续动作转为离散 Token,与网页数据、子任务数据统一格式,联合训练 VLM 骨干 |
仅预训练阶段使用,后训练阶段切换回流匹配连续动作生成 |
|
π₀-FAST 变体模型 |
完全用 FAST 分词 + 自回归 Token 预测替代流匹配,模型直接预测动作 Token 序列 |
推理速度快 5 倍,适合对灵巧度要求不高的低速移动、简单抓取任务 |
|
跨平台动作迁移 |
用 FAST 将不同机器人的动作压缩为统一 Token 格式,训练跨形态动作迁移能力 |
在模型层屏蔽不同机器人的动作空间差异,提升跨平台适配效率 |
五、统一开源框架:OpenPI (所有技术载体)
π₀与 π₀.₅的代码、训练、部署、适配逻辑,全部由 Physical Intelligence 官方开源的OpenPI 框架统一实现,是两个模型的唯一官方工具链。
5.1 核心架构设计
OpenPI 采用模块化分层架构,完全解耦模型、数据、硬件三方逻辑,用户无需修改核心模型代码,就能完成适配训练或部署:
|
层级 |
核心组件 |
功能说明 |
|
配置注册层 |
TrainConfig、DataConfigFactory |
内置约 40 种预设训练配置,覆盖不同机器人形态、任务类型、训练超参数,支持通过配置文件一键切换模型变体 |
|
资源管理层 |
自动检查点下载、本地缓存 |
自动从官方 Google Cloud Storage 同步预训练权重,本地缓存路径~/.cache/openpi |
|
模型实现层 |
原生 Pi0、Pi0Fast、Pi05 类实现 |
统一封装 JAX/Flax 训练、PyTorch 部署逻辑,完全隔离框架差异 |
|
数据加载层 |
原生支持 RLDS(DROID 1.8TB)、LeRobot 数据集 |
自动完成不同数据集的格式转换,统一加载为模型标准输入格式 |
|
硬件适配层 |
标准化*Inputs/*Outputs转换接口 |
只要实现目标机器人的观测 / 动作映射转换类,就能将模型适配到任何机器人平台 |
|
部署执行层 |
本地推理脚本、WebSocket 策略服务器 |
支持本地直接调用推理、远程服务器级推理两种部署模式,提供标准控制 API |
5.2 关键工作流支持
OpenPI 原生支持三类完整工作流,覆盖从官方预训练权重、到定制微调、再到真机部署的全流程:
1. 快速推理部署流程
直接使用官方预训练模型,无需任何训练:
- 安装依赖:用uv管理 Python 依赖,执行uv sync一键安装所有库依赖;
- 选择目标机器人配置,加载预训练权重;
- 启动推理服务,连接机器人硬件即可实时生成动作指令。
2. 自定义数据微调流程
支持两种微调方案,适配不同显存预算:
- LoRA 低秩微调:仅训练 VLM 骨干和动作专家的低秩适配层,冻结骨干大部分权重,仅需 RTX4090 22.5GB 显存;
- 全量微调:训练所有模型参数,需要 A100/H100 80GB 显存,适合大规模高质量任务数据。
3. 分布式训练流程
- 支持 FSDP 分布式数据并行、DDP 多卡并行,在多 GPU 集群上加速训练;
- 原生支持混合精度训练,用 bf16 激活、fp32 权重计算,减少显存占用且不损失训练精度。
5.3 机器人平台集成逻辑
所有 π 系列模型与机器人真机的交互逻辑,完全由 OpenPI 的标准化转换类统一处理,保证模型与硬件的彻底解耦:
- 机器人→模型数据转换:控制器采集机器人实时关节角度、末端位姿、摄像头数据后,通过RobotInputs类转换为模型标准Observation对象,归一化处理后送入模型;
- 模型→机器人动作转换:模型输出的动作块,通过RobotOutputs类映射为目标机器人自由度的控制增量(关节增量或末端位姿增量);
- 底层 IK 执行闭环:控制器结合实时关节 Obs 的当前位姿,将模型输出的相对增量合成为绝对目标位姿,通过逆运动学(IK)解算目标关节角度,下发给电机驱动器;
- 实时闭环校验:电机的实际执行位置数据实时反馈给控制器,与规划轨迹做差值进行 PID 微调,每执行 16-20 步动作后,重新采集观测、生成新动作块,持续修正视觉误差、机械间隙导致的轨迹偏差。
5.4 软件 / 硬件环境要求
训练环境
|
资源项 |
要求 |
|
GPU |
全量微调:A100/H100 80GB;LoRA 微调:RTX4090 22.5GB |
|
框架 |
JAX/Flax(训练)、PyTorch(部署),支持 CUDA 12.1、cuDNN8.9+ |
|
依赖 |
由 uv 统一管理,提供完整requirements.txt,支持 Docker 镜像快速部署 |
|
存储 |
至少 20GB 空闲磁盘空间,用于缓存预训练权重、转换数据集格式 |
推理环境
|
资源项 |
要求 |
|
GPU |
显存≥8GB,RTX3090/4090 均可实现实时 50Hz 控制 |
|
中间件 |
支持 ROS/ROS2、WebSocket 远程策略服务器、原生 Franka ALOHA 机器人驱动接口 |
|
延迟 |
端到端推理延迟≤100ms,完全满足高灵巧机器人实时控制要求 |
六、核心技术要点复盘(无遗漏)
6.1 关节 Obs(本体感知数据)的核心作用
无论是 π₀还是 π₀.₅,关节本体感知数据都是模型与机器人闭环控制的核心基准,没有实时 Obs,模型动作无法执行:
- 离线训练阶段:采集连续帧的关节 Obs,通过正运动学(FK)计算当前末端绝对位姿,结合后续帧的 Obs 计算真实动作增量,生成训练的 Ground Truth 标签 —— 如果没有 Obs,就无法生成动作标签,模型无法完成训练;
- 在线推理阶段:控制器实时读取关节 Obs,通过 FK 计算机器人当前末端绝对位姿;模型永远输出相对增量,必须与当前位姿相加,才能得到目标末端位姿,再通过逆运动学(IK)解算电机执行的关节角度;
- 闭环校验阶段:电机执行后的实际关节位置反馈给控制器,与目标位姿对比进行误差修正,保证运动精度。
6.2 动作增量的本质与执行逻辑
- 模型永远输出相对动作增量(笛卡尔空间位姿增量或关节空间角度增量),而非机器人可以直接执行的绝对目标位姿;
- 核心原因:增量式动作与机器人当前位姿强绑定,不会因为模型输出微小误差导致机械臂产生剧烈运动,保证安全;
- 合成逻辑:目标绝对位姿 = 当前末端绝对位姿(由Obs计算) + 模型输出的相对增量,这是机器人能精准执行动作的核心公式。
6.3 π₀与 π₀.₅的技术边界划分
|
技术维度 |
由 π₀提供的底层支撑 |
由 π₀.₅提供的升级补充 |
|
动作控制 |
流匹配连续动作生成、50Hz 控制、跨机器人形态适配 |
完全复用,无任何改动 |
|
语义理解 |
SigLIP+Gemma 多模态骨干,理解场景和语言指令 |
复用骨干,新增高层语义规划头 |
|
训练数据 |
跨形态机器人运动数据,学习通用操纵逻辑 |
新增网页语义数据、教学数据、跨环境机器人数据 |
|
推理逻辑 |
单级动作生成,仅适配短时序任务 |
分层级联推理,长时序任务分解 |
|
泛化能力 |
训练分布内场景生效,无法适配新环境 |
开放世界泛化,支持完全未见过的家居 / 办公场景 |
|
部署适配 |
原生支持台式、移动、双臂机器人 |
复用所有部署方案,优先适配移动操纵机器人 |
6.4 两大模型的完整技术定位总结
从技术演进逻辑看,π₀和 π₀.₅分别解决了具身智能落地的两个核心痛点,形成了完整的技术闭环:
- π₀的技术贡献:首次将流匹配扩散技术与预训练 VLM 深度融合,打造了工业级连续动作生成底座,解决了此前 VLA 模型动作精度不足、无法支撑灵巧任务的痛点;验证了 "跨形态机器人数据预训练 + 任务微调" 的通用范式,建立了 Physical Intelligence 后续所有 VLA 模型的技术基础。
- π₀.₅的技术贡献:用分层架构彻底解耦高层语义规划和低层动作执行,同一模型同时拥有长时序任务规划能力和灵巧动作控制能力;证明了异源数据联合训练是提升 VLA 开放环境泛化性的核心方案,将泛化能力从 "实验室场景匹配" 提升到 "真实家庭 / 办公场景适配" 的关键水平。
七、补充衍生技术:π₀-FAST 变体细节
作为 π₀的重要衍生变体,π₀-FAST 是对原生 π₀的推理效率优化方案,核心是将流匹配生成模式替换为 FAST 分词的自回归生成模式:
7.1 架构改动幅度
仅在 π₀的基础上,将低层动作生成模块从流匹配连续输出替换为FAST 离散 Token 自回归预测,VLM 骨干结构完全保留。
7.2 核心技术收益
- 推理速度提升约 5 倍,与主流自回归 VLA 模型的推理速度持平;
- 保留了 π₀ 90% 以上的灵巧控制精度,精度损失小于传统分箱离散化方案;
- 完全兼容 OpenPI 框架和所有 π₀适配的机器人平台,部署流程无差异。
7.3 适用场景
适合对控制精度要求中等、但是对推理速度要求较高的场景:
- 移动机器人的简单点对点导航;
- 低负载平行夹爪的简单抓取任务;
- 需要用单卡支撑多台机器人并发 inference 的工业部署场景。
文档说明:本文档覆盖了 π₀、π₀.₅从骨干架构、动作生成逻辑、训练流程、推理细节、真机适配、版本升级的全模块技术细节,无任何技术模块遗漏;所有技术规范均来自 Physical Intelligence 官方公开技术报告、OpenPI 开源仓库、官方博客和公开评测数据。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)