具身智能论文精读（七）：Pi0.5

爱学习的张大

369人浏览 · 2026-05-02 09:19:43

爱学习的张大 · 2026-05-02 09:19:43 发布

摘要

若要让机器人真正具备实用价值，就必须走出实验室，在真实物理世界中完成各类实际应用任务。尽管视觉 - 语言 - 动作（VLA）模型在机器人端到端控制上已取得亮眼效果，但这类模型在真实野外场景中的泛化能力上限，仍是一个尚未解决的开放性问题。本文提出 π0.5 模型，在 π0 基础上引入异构任务联合训练，实现大范围泛化能力。π0.5 融合多机器人数据、高层语义预测数据、互联网开源数据及其他多源数据，赋能机器人在真实场景下具备强泛化灵巧操作能力。本系统采用联合训练与多模态混合样本相结合的方案，融合图像观测、语言指令、目标检测、语义子任务预测与底层动作多类信息。实验表明，这种知识迁移方式是实现高效泛化的关键；同时本文首次验证：基于端到端学习的机器人系统，能够在全新未知家庭环境中，完成厨房整理、卧室清扫等长时序、高灵巧性操作任务。

1.引言

开放世界泛化是物理智能领域最大的开放性难题之一：机械臂、人形机器人、自动驾驶车辆等具身系统，只有走出实验室、能够应对真实世界中纷繁多样的场景与突发状况，才能真正具备实用价值。基于学习的方法为实现大范围泛化提供了可行路径，尤其是近年来，从自然语言处理到计算机视觉等领域，可规模化学习框架已取得长足进展。然而，机器人在真实世界可能遭遇的场景复杂度，仅靠扩大模型与数据规模远远不够；还需要设计合理的训练范式，赋予模型足够广博的知识，使其能够在多层抽象层级上实现泛化。举例而言，若指令一台移动机器人去清理从未见过的陌生厨房：部分基础行为只要训练数据中包含足够丰富的场景与物体，就能直接泛化（如抓取刀具、餐盘）；另一类行为需要对已有技能进行适配与改造，以全新方式或执行顺序完成任务；还有部分行为需要依托先验知识理解场景语义（比如判断该拉开哪个抽屉、台面上哪个物品最可能是置物晾干架）。那么，应当如何为机器人学习系统设计结构化训练范式，才能支撑这种灵活的多层次泛化能力？

人类能够依托毕生积累的经验，为每一类现实挑战归纳出恰当的解决思路。这些经验并非全都来自亲身经历，也不只是机械重复的练习。例如，我们会借鉴他人传授、书本习得的知识，融合在不同场景下完成其他任务所获得的零散认知，再结合目标领域的直接经验，综合形成解决方案。同理可推，具备泛化能力的机器人学习系统，也必须能够从多类信息来源中迁移经验与知识。其中一部分来源是与当前任务直接相关的机器人亲身交互数据；一部分需要从其他机器人形态、环境或任务领域进行跨域迁移；还有一部分属于完全不同的数据类型，例如语言指令、基于网络数据的感知任务、高层语义指令预测等。各类数据源的异构特性构成了实现该目标的一大障碍。所幸近年来视觉 - 语言 - 动作（VLA）模型的进展提供了可行工具：将不同模态信息统一映射至同一序列建模框架，VLA 模型便可同时适配机器人轨迹数据、纯语言数据、计算机视觉任务数据，以及上述多类数据的联合训练。

本文基于这一研究思路，为视觉 - 语言 - 动作（VLA）模型设计了一套联合训练框架，能够充分利用异构、多元化知识源，实现模型大范围开放泛化。

本文在 π0 VLA 模型基础上，引入多类不同数据源，构建 π0.5 模型。该模型可控制移动机械臂在训练过程从未见过的陌生家庭环境中完成各类居家任务。π0.5 的知识来源十分丰富：除在真实多样的家庭场景中直接采集、规模约 400 小时的中等体量移动机械臂数据集外，还纳入：非固定式机器人的行为数据、实验室环境下采集的相关任务数据、根据机器人观测画面预测高层语义子任务的训练样本、人类管理员给到机器人的自然语言指令，以及由网络数据构建的多模态任务样本（如图像描述、视觉问答、目标定位等，详见图 1）。供给 π0.5 的训练样本中，** 绝大多数（第一训练阶段占比 97.6%）** 并非来自移动机械臂执行居家任务的轨迹数据，而是源自其他机器人数据与互联网多模态数据。即便如此，π0.5 仍可在全新未知家庭场景中稳定控制移动机械臂，完成挂毛巾、整理床铺等精细灵巧任务；还能执行时长 10 至 15 分钟的长时序操作，仅依靠一条高层文本指令，就能完成整间厨房或卧室的全套清扫整理工作。

π0.5 采用简洁的分层架构设计：首先在由多类异构任务构成的混合数据集上完成预训练，随后针对移动机械臂操控做专项微调；微调同时包含底层动作样本与高层语义动作，后者对应预测子任务标签，例如 “拿起砧板”“整理枕头” 等。模型实际推理运行时，每一步都会先预测语义子任务，依据任务结构与场景语义，推断下一步应当执行的行为；再基于该子任务，输出机器人底层动作分块。这套简洁的分层架构，既具备长时序多阶段任务的逻辑推理能力，又能在高低两个层级上分别吸纳不同来源的知识：底层动作推理可以直接复用其他机器人采集的动作数据，包括部署在其他环境中的普通固定式机器人轨迹；高层语义推理则可受益于网络语义样本、高层标注预测任务，以及人类监督者给出的自然语言分步指令 —— 在复杂任务中，人类可像指导真人一样，逐个子任务引导机器人完成全屋清扫等长流程作业。整体架构设计如图 1 所示。

本文的核心贡献在于：提出一套可训练强泛化视觉 - 语言 - 动作（VLA）模型 π0.5 的完整系统，并通过概念验证证明：在适配的多样化数据上训练该模型，能够涌现出开放世界泛化能力。本文对 π0.5 的泛化性能以及各类联合训练组分的作用，开展了详尽的实证评测。据我们所知，本研究首次实现了基于端到端学习的机器人系统，可在从未见过的全新家庭环境中，完成厨房清扫、卧室整理等长时序、高灵巧性操作任务。实验与对比进一步证实：π0.5 的优异能力，源于从多渠道完成知识迁移，包括其他机器人数据、高层语义预测、人类监督者语言指令、互联网多模态数据等多种来源。

2.相关工作

通用机器人操作策略

近期研究表明，将机器人操作策略的训练数据分布，从局限的单任务数据集拓展至覆盖多场景、多任务的多样化数据集后，所得策略不仅能开箱即用地完成更多任务，对全新场景与未知任务的泛化能力也会显著提升。训练这类通用机器人策略，需要全新建模方案来适配动辄包含上百种任务与场景的大规模、高异构数据集。视觉 - 语言 - 动作模型（VLA） 为此提供了理想解法：将预训练视觉语言模型微调适配机器人控制任务，VLA 便可复用全网规模预训练习得的语义知识，并迁移应用于机器人操控问题。若再结合流匹配、扩散模型、高级动作分词等高表现力动作解码机制，VLA 能够在真实世界中完成各类复杂灵巧操作。尽管现有 VLA 已具备出色的语言指令跟随能力，但评测场景大多与训练场景高度相近。部分研究证明：只需在更多环境中采集机器人数据，就能让抓取物体、拉开抽屉等简单技能实现泛化；但对于厨房整理这类复杂长时序任务，依靠单纯无脑扩增机器人采集数据来覆盖所有现实场景，并不具备可行性。本文实验将 π0.5 放在训练中从未见过的全新厨房、卧室等陌生场景下评测，证明该 VLA 模型的泛化，不只依赖目标移动机械臂平台的亲身交互数据，还能充分利用其他信息源：包括非移动机器人数据、高层语义子任务预测、互联网多模态数据等。

非机器人数据联合训练

已有不少工作尝试利用多元化非机器人数据提升机器人策略泛化能力：或是用计算机视觉数据集初始化视觉编码器，或是引入现成任务规划器辅助决策。VLA 策略通常基于预训练视觉语言模型初始化，这类模型已学习过海量互联网图文数据。值得注意的是，VLA 架构具备高度灵活性，可在视觉、语言、动作多模态词元的输入输出序列间建立映射。因此 VLA 突破了仅做权重初始化的传统迁移思路，可在单一统一架构下开展联合训练：不仅学习机器人动作模仿数据，还能兼容任意包含上述一种或多种模态的数据集。已有研究证实，用 VLM 训练所用混合数据对 VLA 做联合训练，能够提升模型对新物体、未知场景背景的泛化能力。本文在此基础上进一步拓展，不再局限于普通 VLM 数据联合训练，而是为 VLA 设计一套更贴合机器人任务的多监督源联合训练体系，纳入跨机器人数据、高层语义子任务预测、自然语言指令等多种监督信号。多任务训练与联合训练虽非全新概念，但本文证明：独有数据源组合方式，能让移动机器人在全新未知环境中稳定执行复杂长时序行为。考虑到任务本身的复杂度，本文实现的泛化水平，已大幅超越以往相关研究成果。

基于语言的机器人推理与规划

已有大量研究表明，为端到端策略引入高层推理机制，能够显著提升长时序任务的执行性能；若高层子任务推理能够借助大预训练大语言模型（LLM）与视觉语言模型（VLM），效果尤为突出。本文方法同样采用两阶段推理流程：先推断高层语义子任务（例如 “拿起餐盘”），再依据该子任务预测底层动作。多数现有方法为此采用两套独立模型：由 VLM 负责语义步骤规划，再用另一独立底层策略执行动作。而本文全程使用同一个模型完成高层语义推理与底层动作推理，设计思路更接近于思维链（CoT） 或测试时计算范式。但与具身思维链方法不同的是，本方法的高层推理执行频率更低，远慢于底层动作推理的刷新频率。

具备开放世界泛化的机器人学习系统

绝大多数机器人学习系统的评测环境都与训练场景高度接近，也有部分工作探索了更广的开放世界泛化能力。当机器人任务限定在抓取物体等基础原语操作时，依托任务专属先验（如抓取预测、基于模型的规划与控制）的方法，即便在全新家庭环境中也能实现良好泛化。但这类方法难以泛化到通用机器人所需执行的全品类复杂任务。近期，跨多领域采集的大规模数据集，已能让简单的端到端学习任务泛化至全新环境。不过现有演示任务仍相对简单，单次任务时长通常不足一分钟，且整体成功率偏低。本文则证明：π0.5 可在从未见过的陌生家庭中完成长时序、多阶段复杂任务，例如把所有餐具收纳至水槽、将陌生卧室地面衣物全部捡拾整理等，实现真正的跨环境开放泛化。

翻译：π0.5 模型采用两阶段训练流程。

预训练阶段：融合所有异构数据源，训练出基于离散词元表示的初始视觉 - 语言 - 动作（VLA）模型。该阶段的训练数据涵盖多类机器人平台轨迹、高层语义动作预测任务及互联网多模态数据；机器人动作数据采用 FAST 动作分词器，将连续动作编码为离散词元。
后训练阶段：针对移动机械臂操控任务，对模型进行专项适配，使其能够完成底层动作与高层语义双推理。该阶段重点利用任务强相关数据，包括人类监督者提供的语言指令；并采用流匹配（Flow Matching）建模动作分布，支持高效实时推理，同时能够表征细粒度的连续动作序列。在模型推理时，会先预测高层语义子任务，再基于该子任务输出底层动作序列。

1. 左侧：预训练阶段（Pre-training）

预训练的核心目标是学习通用世界知识与多模态语义理解，构建一个具备强泛化能力的基座 VLM。

骨干模型：采用 SigLIP (400M) 视觉编码器 + Gemma (2.6B) 语言模型作为基础 VLM。

多源输入数据：

多模态网络与机器人数据：各类机器人操作轨迹、通用图像文本数据；

任务特定提示（Task-specific prompts）：包含家务指令（如 “clean the kitchen”）、动作指令（如 “pick up the pillow”）、图像字幕、目标定位等；

多模态监督信号：语言子任务（如 “put the plate in the sink”）、离散动作 token（FAST tokenizer 编码）、开放词汇字幕、目标边界框。

核心机制：通过自回归 next-token 预测，将视觉、语言、动作数据统一到同一序列建模框架中，让模型同时习得语义知识与动作模式。

2. 右侧：后训练与推理阶段（Post-training & Inference）

该阶段针对移动机械臂操作做专项优化，同时引入分层推理机制，实现长时序复杂任务的执行。

阶段 1：高层子任务预测基于输入的高层指令（如 “clean the bedroom”）和图像观测，模型先预测语义子任务（如 “pick up the pillow”），完成任务级规划。

阶段 2：底层连续动作预测子任务指令传入action expert（300M 参数），结合流匹配（Flow Matching）机制，输出细粒度的连续动作序列。

流匹配的优势：支持高效实时推理，能生成平滑、连续的动作轨迹，适配机器人控制的动态性；

噪声注入：训练阶段通过添加噪声增强模型鲁棒性，提升真实场景下的泛化能力。

3. 预备知识

视觉 - 语言 - 动作模型（VLAs）通常在多样化机器人演示数据集 $\mathcal{D}$ 上通过模仿学习训练，目标是在给定观测 $\mathbf{o}_t$ 和自然语言任务指令 $\ell$ 的条件下，最大化动作 $a_t$ （或更一般地，动作块 $a_{t:t+H}$ 的对数似然： $\max_\theta \mathbb{E}_{(\mathbf{a}_{t:t+H},\mathbf{o}_t,\ell)\sim\mathcal{D}} \log \left(\pi_\theta\left(\mathbf{a}_{t:t+H} \mid \mathbf{o}_t, \ell\right)\right).$ 其中观测通常包含一帧或多帧图像 $\mathbf{I}_t^1,\dots,\mathbf{I}_t^n$ 以及本体感知状态 $\mathbf{q}_t$ （记录机器人关节位置）。

VLA 架构遵循现代语言模型与视觉语言模型的设计范式：

采用模态专属分词器，将输入 / 输出映射为离散（“硬”）或连续（“软”）词元表示；
以大规模自回归 Transformer 为骨干网络，学习从输入词元到输出词元的映射。这类模型的权重通常由预训练视觉语言模型初始化。通过将策略的输入输出编码为词元表示，上述模仿学习问题可转化为对 “观测 - 指令 - 动作” 词元序列的 next-token 预测问题，从而复用现代机器学习的可扩展工具进行优化。

在实践中，图像与文本输入的分词器选择与主流视觉语言模型保持一致；而动作表示方面，现有工作提出了基于压缩的分词方法（如 FAST），本研究在预训练阶段即采用这类方法。

近期不少 VLA 模型还提出用扩散模型或流匹配建模动作分布，为连续值动作块提供更强的表示能力。在本模型的后训练阶段，我们借鉴 $\pi_0$ 模型的设计，采用流匹配建模动作分布：动作对应的词元会接收流匹配上一步的部分去噪动作作为输入，输出流匹配向量场；这些词元由一套独立的模型权重负责，我们称之为 “动作专家”（Action Expert），其架构类似混合专家（MoE）结构。该动作专家可专门适配基于流匹配的动作生成，且规模远小于 LLM 骨干网络。

4. π0.5 模型与训练流程

图 3 展示了 π0.5 模型与训练流程的整体概览。模型权重由在互联网数据上训练的标准视觉语言模型（VLM）初始化，随后分为两个阶段进行训练：

预训练阶段：目标是让模型适配多样化的机器人任务；
后训练阶段：针对移动机械臂操控任务做专项优化，并为模型配备支持高效实时推理的机制。

预训练阶段中，所有任务（包括带机器人动作的任务）均以离散词元形式表示，这种方式实现了训练过程的简洁、可扩展与高效。后训练阶段，我们借鉴 π0 模型的设计，为模型新增一个 ** 动作专家（Action Expert）** 模块：既支持以更细粒度表示动作，也能为实时控制提供计算效率更高的推理方式。模型推理时，会先输出机器人需要执行的高层语义子任务，再基于该子任务，通过动作专家预测底层动作序列。下文将先介绍模型架构，再详细说明两个训练阶段及其对应的训练任务。

A. π0.5 架构

π0.5 架构能够灵活表示动作块分布与词元化文本输出。文本输出既用于问答等联合训练任务，也用于分层推理过程中输出高层子任务预测。模型捕捉的联合分布可表示为：

$\pi_\theta(\mathbf{a}_{t:t+H}, \hat{\ell} | \mathbf{o}_t, \ell)$

其中：

$\mathbf{o}_t = [\mathbf{I}_t^1, \dots, \mathbf{I}_t^n, \mathbf{q}_t]$ 为观测，包含多相机图像与机器人配置（关节角度、夹爪位姿、躯干升降位姿、基座速度）；
$\ell$ 为全局任务指令（如 “收拾餐具”）；
$\hat{\ell}$ 为模型输出的词元化文本，既可以是预测的高层子任务（如 “拿起盘子”），也可以是网络数据中视觉语言提示的回答；
$\mathbf{a}_{t:t+H}$ 为预测的动作块。

我们将该分布分解为：

$\pi_\theta(\mathbf{a}_{t:t+H}, \hat{\ell} | \mathbf{o}_t, \ell) = \pi_\theta(\mathbf{a}_{t:t+H} | \mathbf{o}_t, \hat{\ell}) \cdot \pi_\theta(\hat{\ell} | \mathbf{o}_t, \ell)$

其中动作分布仅依赖 $\hat{\ell}$ ，不再直接依赖 $\ell$ 。因此，高层推理对应 $\pi_\theta(\hat{\ell} | \mathbf{o}_t, \ell)$ ，底层推理对应 $\pi_\theta(\mathbf{a}_{t:t+H} | \mathbf{o}_t, \hat{\ell})$ ，两类分布由同一个模型表示。

该模型对应一个 Transformer，接收 N 个多模态输入词元 $x_{1:N}$ （此处 “词元” 泛指离散或连续输入），输出多模态词元序列 $y_{1:N}$ ，可写作：

$y_{1:N} = f\left(x_{1:N}, A(x_{1:N}), \rho(x_{1:N})\right)$

每个输入词元 $x_i$ 可以是：

文本词元 $x_i^w \in \mathbb{N}$ ；
图像块 $x_i^I \in \mathbb{R}^{p \times p \times 3}$ ；
流匹配中机器人动作的中间去噪值 $x_i^a \in \mathbb{R}^d$ 。

观测 $\mathbf{o}_t$ 与指令 $\ell$ 构成 $x_{1:N}$ 的前缀部分。根据词元类型 \ $\rho(x_i)$ 的不同，每个词元可由不同编码器处理，甚至使用 Transformer 内不同的专家权重。例如，图像块通过视觉编码器输入，文本词元通过嵌入矩阵处理。与 π0 模型一致，我们将动作词元 $x_i^a$ 线性投影到 Transformer 嵌入空间，并使用独立的专家权重处理动作词元。注意力矩阵 $A(x_{1:N}) \in [0,1]^{N \times N}$ 表示词元间的注意力连接关系。与标准大语言模型的因果注意力不同，图像块、文本提示与连续动作词元采用双向注意力。

由于模型需要同时输出文本（回答场景问题或输出后续任务）与动作（在物理世界中执行），函数 f 的输出被拆分为文本词元对数概率与动作输出词元两部分，即 $(y_{1:M}^\ell, y_{1:H}^a)$ 。前 M 个输出为文本词元对数概率，用于采样得到 $\hat{\ell}$ ；后 H 个词元由独立的动作专家生成（与 π0 模型一致），再通过线性映射得到连续动作序列 $\mathbf{a}_{t:t+H}$ （见后续章节）。注意 $M+H \leq N$ ，即并非所有输出词元都参与损失计算。机器人本体感知状态会被离散化为文本词元输入模型。架构的更多细节见附录 E。

B. 融合离散与连续动作表示

与 π0 模型类似，我们在最终模型中采用 ** 流匹配（Flow Matching）** 预测连续动作。给定加噪动作序列：

$\mathbf{a}_{t:t+H}^{\tau,\omega} = \tau\mathbf{a}_{t:t+H} + (1-\tau)\omega,\quad \omega \sim \mathcal{N}(0,\mathbf{I})$

其中 $\tau \in [0,1]$ 为流匹配的时间索引，模型的训练目标是预测流向量场 $\omega - \mathbf{a}_t$ 。

然而，文献表明：当动作以离散词元表示时，VLA 模型的训练速度会大幅提升，尤其是使用 FAST 这类高效压缩动作块的分词方案时。但离散表示在实时推理中存在缺陷：需要成本高昂的自回归解码，无法满足机器人控制的实时性要求。

因此，理想的模型设计应在训练阶段使用离散动作表示，同时在推理阶段通过流匹配生成连续动作序列。

为此，我们的模型同时通过两种方式预测动作：

词元自回归采样：使用 FAST 分词器将动作编码为离散词元，以自回归方式生成；
流场迭代积分：通过流匹配模型迭代生成连续动作序列。我们通过注意力矩阵约束，让两种动作表示之间不产生注意力交互，实现解耦。

模型优化的目标是最小化联合损失：

$\mathbb{E}_{\mathcal{D},\tau,\omega}\left[ H\left(x_{1:M}, f_\theta^\ell(\mathbf{o}_t, \ell)\right) + \alpha\left\|\omega - \mathbf{a}_{t:t+H} - f_\theta^a\left(\mathbf{a}_{t:t+H}^{\tau,\omega}, \mathbf{o}_t, \ell\right)\right\|^2 \right]$

其中：

$H(x_{1:M}, y_{1:M}^\ell)$ 是文本词元（含 FAST 编码的动作词元）与预测对数概率之间的交叉熵损失；
$y_{1:H}^a = f_\theta^a(\mathbf{a}_{t:t+H}^{\tau,\omega}, \mathbf{o}_t, \ell)$ 是轻量级动作专家的输出；
$\alpha \in \mathbb{R}$ 为两种损失的权衡系数。

这套方案支持两阶段训练流程：

预训练阶段：令 $\alpha=0$ ，将动作映射为文本词元，以标准 VLM Transformer 的方式训练模型，实现稳定预训练并保留强语言理解能力；
后训练阶段：新增动作专家权重，以非自回归方式预测连续动作词元，为实时推理提供支持。

推理时，模型先通过标准自回归解码得到文本子任务词元 $\hat{\ell}$ ，再以该词元为条件，执行 10 步去噪过程，生成连续动作序列 $\mathbf{a}_{t:t+H}$ 。

C. 预训练阶段

在第一阶段训练中，π0.5 使用大量机器人与非机器人数据进行训练（概览如下，示例如图 4）。模型以标准自回归 Transformer 形式训练，对文本、目标位置、FAST 编码动作词元执行 next-token 预测。

多样化移动机械臂数据（MM）采集约 400 小时数据，内容为移动机械臂在约 100 个不同家庭环境中执行家务任务（部分场景见图 7，机器人配置见 IV-E 节）。该部分数据与本文评测任务直接相关 —— 评测任务同样是在全新、未见过的家庭中执行类似的清洁与整理任务。
多样化多环境非移动机器人数据（ME）同时采集单臂 / 双臂非移动机器人数据，部署于多种家庭环境。这类机械臂固定在桌面或安装平台上，因更轻便、易运输，得以在更广泛的家庭场景中收集更丰富的数据。但 ME 数据来自与移动机器人不同的具身构型。
跨具身实验室数据（CE）在实验室桌面环境下，采集多类任务数据（如清理桌面、叠衬衫），覆盖多种机器人类型。部分任务与评测高度相关（如将餐具放入容器），部分则无关（如研磨咖啡豆）。该数据包含单臂 / 双臂机械臂、静态 / 移动基座，同时纳入开源 OXE 数据集（π0 模型所用数据集的扩展版本）。
高层子任务预测（HL）将 “打扫卧室” 这类高层任务指令拆解为 “整理毯子”“捡起枕头” 等短子任务，类似大语言模型的思维链（CoT）提示，可帮助策略理解当前场景、更好地决定下一步动作。对 MM、ME、CE 中涉及多子任务的机器人数据，人工标注所有数据的子任务语义描述，训练 π0.5 基于当前观测与高层指令，联合预测子任务标签（文本形式）及动作（以子任务标签为条件）。这一训练方式让模型天然具备双重能力：既可以作为高层策略输出子任务，也能作为底层策略执行对应动作。同时标注观测中的目标边界框，训练模型在预测子任务前先预测边界框。
多模态网络数据（WD）最后，预训练还纳入多样化网络多模态数据，涵盖图像描述（CapsFusion、COCO）、视觉问答（Cambrian-7M、PixMo、VQAv2）以及目标定位任务。在目标定位任务上，研究团队在标准数据集基础上，额外扩充了带边界框标注的室内场景与家居物体网络数据。

对所有机器人动作数据，模型都需要预测目标关节位姿与末端执行器位姿。为区分两种控制模式，会在文本提示中加入特殊标识：<control mode> joint/end effector <control mode>。所有动作数据按各自数据集每一维动作的1%、99% 分位数归一化到 $[-1,1]$ 区间。统一将动作维度设为固定值，以兼容所有数据集中最大的动作空间；对自身配置与动作维度更低的机器人，采用补零方式填充动作向量。

D. 后训练阶段

模型先以离散词元完成 28 万梯度步 预训练后，进入第二阶段：后训练。该阶段两大目标：

让模型专精适配家庭场景下的移动机械臂操控任务；
新增动作专家模块，通过流匹配生成连续动作块。

后训练同时优化两项目标：

继续做下一词元预测，保留文本理解与生成能力；
为随机初始化的动作专家训练流匹配损失。

优化公式 (1) 目标函数，损失权重系数设 $\boldsymbol{\alpha=10.0}$，再训练 8 万梯度步。

后训练所用动作数据集构成：

仅保留 MM、ME 机器人数据，并筛选出任务成功、且回合长度不超过固定阈值的轨迹；
保留网络数据 WD，维持模型语义与视觉理解能力；
保留多环境数据集对应的 HL 高层子任务数据。

此外，为提升模型高层子任务预测能力，额外采集语言指令演示数据 VI：由专家以语言分步指令的方式，逐个子任务指挥机器人完成移动操控；通过结合已学习底层策略、实时语言遥操作机器人，为模型提供优质高层子任务示范样本。

E. 机器人系统细节

移动操控实验所用机器人平台如图 5 所示，共采用两类移动机械臂。两款平台配置共性：

双臂均为 6 自由度机械臂，配平行夹爪；
腕部搭载单目 RGB 相机；
全向轮式移动基座；
躯干升降机构。

基座状态与动作空间包含：二维线速度 + 一维角速度；躯干升降机构为一维（上下）或二维（上下 + 前后）。

除两台腕部相机外，双臂中间还配有前视、后视相机。推理时：

四台相机全部用于高层子任务推理；
腕部相机 + 前视相机用于底层动作推理。

根据平台不同，整体状态与动作空间总维度为 18 维或 19 维。

控制系统极简设计：π0.5 模型以 50Hz 频率 直接输出：机械臂、夹爪、躯干的目标位姿，以及基座目标速度（配合动作分块）。底层仅用简易 PD 控制器 跟踪目标值，无额外轨迹规划、无碰撞检测模块。整套操作与导航控制为完全端到端架构。

5.实验评估

π0.5 模型的设计目标是在全新环境中具备强泛化能力。现有多数视觉 - 语言 - 动作（VLA）模型都在与训练场景相近的环境中做评测，而本文所有实验均严格在训练过程从未见过的全新环境中开展。

为便于定量对比，本文搭建仿真居家环境，提供可控制、可复现的实验设定；同时在三套未参与训练的真实家庭场景中完成最贴近实际的最终评测（见图 6）。

本文实验主要围绕以下五个研究问题展开：

π0.5 能否在完全陌生的家庭环境中，有效泛化完成复杂多阶段任务？
π0.5 的泛化性能，如何随训练集中不同环境数量的增加而变化？
π0.5 训练混合集中各项联合训练数据源，分别对最终性能有多大贡献？
π0.5 与 π0 原版 VLA 模型相比性能表现如何？
π0.5 的高层推理模块有多重要？相较于无分层的底层直接推理、以及先知级高层基线，性能差异如何？

A. π0.5 能否泛化到真实家庭环境？

为回答第一个研究问题，我们使用两种机器人平台，在三套未纳入训练集的真实家庭中对 π0.5 开展评测。在每个家庭里，均让机器人执行卧室清扫与厨房整理任务。每项任务的评测标准详见附录 B，评分大致按任务完成步骤的占比计算（例如将一半餐具收纳至水槽，约对应 50% 得分）。图 7 实验结果表明：π0.5 能够在每套家庭环境中稳定完成各类任务。值得补充的是，模型可胜任的任务种类远多于本次定量评测所选用的任务。其中大量任务属于多阶段长流程任务（如搬运多件物品），单次时长约 2～5 分钟。实验中仅给模型一条简洁的高层全局指令（如 “把餐具放进水槽”），模型即可通过高层推理自主拆解并规划后续子步骤（如 “拿起杯子”）。无论是面对陌生环境的适应难度，还是任务时长与复杂度，π0.5 所展现的真实开放世界泛化能力，都显著超越了以往各类视觉 - 语言 - 动作（VLA）模型的已有成果。

B. 场景数量对泛化性能的影响实验结果

第一组实验结果如图 8 所示。任务平均整体性能总体随训练场景数量增加而稳步提升。

为量化最终 104 个场景模型的泛化缺口有多大，本文设置一组对照组（绿色）：直接在测试家庭环境的数据上训练。该对照组性能与 104 场景的最终模型接近，说明本文的联合训练方案确实具备强开放泛化能力，泛化水平几乎逼近直接在测试环境训练的模型。

为验证这种泛化必须依赖完整的联合训练配方，额外设置两个基线：预训练阶段不使用任何其他联合训练任务，只单纯在测试环境数据上训练（浅绿）、或只在 104 个训练场景的移动机械臂数据上训练（浅黄）。这两条基线性能都显著更低。说明即便策略见过同类型家庭机器人数据，缺少多源联合训练，也无法达到良好泛化。尤其当模型完全不用测试环境数据时，完整预训练配方的价值尤为突出，图 8 中绿色柱与浅黄色柱的巨大差距即可印证。

第二组语言指令跟随实验结果如图 9。指标包含：

指令跟随率：机器人按语言指令选中目标物体的比例；
任务成功率：成功将物体放到指定位置（抽屉 / 水槽）的比例。

分别统计 ** 训练见过的物体类别（新实例，分布内）与从未见过的物体类别（分布外 OOD）** 的表现，实验细节与分析见附录 C。

图 9 表明：随着训练场景数量增多，指令跟随率与任务成功率均持续上升。符合预期：分布内物体性能提升更快，分布外物体提升相对平缓。每新增一个家庭场景，都会引入新家居物品，使模型整体鲁棒性变强，逐步泛化到训练中从未出现过的任务类别。

C. 联合训练各组分的重要性消融实验

为回答研究问题（3），本文在仿真家庭任务与 V-B 节语言跟随评测上，把完整 π0.5 与去掉不同训练组分的变体做消融对比。

完整训练数据源包括：

MM：多环境移动机械臂数据
ME：多环境静态机械臂数据
CE：实验室跨具身数据
HL：高层子任务语义预测数据
WD：图像描述 / 视觉问答 / 目标定位网络多模态数据后训练还额外用到 VI 语言指令演示数据（V-E 节分析）。

消融设置共 4 组：

无 WD：去掉所有网络多模态数据
无 ME：去掉多环境非移动机器人数据
无 CE：去掉实验室跨具身数据
无 ME & CE：同时去掉其他机器人数据源，仅保留目标移动机械臂数据 + 网络数据

仿真家庭完整任务结果见图 10（各任务细分见附录 D）。结论：

去掉 ME 或 CE 任一跨具身数据源，性能明显下降；说明 π0.5 显著受益于跨环境、跨任务的跨具身知识迁移；
同时去掉 ME+CE，性能降幅更大；
去掉 WD 网络数据在本项任务中统计差异不显著，但后文会证明：网络数据对语言跟随和高层子任务推理影响极大。

语言跟随实验结果见图 11，趋势与图 10 一致：去掉 ME、CE 其一或全部，性能显著下滑。不同之处：去掉 WD 会导致分布外（OOD）物体性能大幅变差。推测原因：网络数据蕴含海量物体常识与语义知识，能帮助模型理解并遵循涉及未知物体类别的语言指令。

D. π0.5 与其他 VLA 模型对比

对比对象：

原版 π0
改进版 π0-FAST+Flow：采用论文式 (1) 扩散 + FAST 动作联合预测框架，但仅用机器人动作数据，不加入 HL 高层子任务、WD 网络数据。

这两组是很强的对比基线：π0 本身已在复杂灵巧移动操控任务上表现优异；π0-FAST+Flow 尽可能补齐技术配置，缩小与 π0.5 的差距。而 π0.5 在此基础上叠加了多任务联合训练。

为保证公平对比：所有模型使用相同跨具身机器人训练集、训练步数相当。差异仅三点：

π0.5 额外使用 HL 高层子任务数据与 WD 网络数据；
π0.5 采用混合两阶段训练：预训练离散词元、后训练才启用流匹配动作专家；而原版 π0 全程使用动作专家；
π0-FAST+Flow 虽也采用混合训练范式，但只有机器人动作数据，无法做高层语义推理。

实验结果见图 12：π0.5 显著优于 π0 与 π0-FAST+Flow。即便把 π0 训练步数拉长至 30 万步，该优势依然成立。这也印证了 Pertsch 等人结论：基于 FAST 离散词元的预训练，在计算效率与最终效果上优于纯扩散训练。

E. 高层推理模块有多重要？

最后本文评估高层推理机制的必要性，并对比多种替代的高层推理方案。

π0.5 的高层推理流程：接收高层任务指令（如 “打扫卧室”），输出当前要执行的子任务（如 “捡起枕头”），再将该子任务作为上下文，推理底层动作，逻辑与大模型思维链推理类似。

π0.5 采用统一架构：同一个模型同时完成高层子任务推理与底层动作生成。本文同时构建多组基线对比：

去掉高层推理流程，直接把任务提示输入底层策略（标准 VLA 常用做法）；
用外部独立模型做高层规划，消融不同数据集对高层策略的影响。

本文共设置 7 种对比方案，全部复用 π0.5 底层推理，仅更换高层策略：

π0.5 完整模型：同一模型负责高层 + 底层推理
no WD：移除网络多模态数据的 π0.5 消融版
no VI：移除语言指令演示数据 VI 的消融版
隐式 HL：推理时不做显式高层子任务拆解，但训练时仍包含 HL 子任务数据，让模型隐式学到子任务逻辑
no HL：推理无高层推理、训练也完全不用 HL 高层子任务数据
GPT-4 做高层策略：评估用机器人数据专门训练高层策略是否必要；给 GPT-4 任务描述与可用子任务标签列表，限定输出空间以适配家居任务场景
人类专家 HL：由人类充当先知上界基线，提供理论最优高层子任务规划

实验结果如图 13：

完整 π0.5 性能最优，甚至超过人类先知基线；
第二名是隐式 HL：推理不显性输出子任务，但训练混入完整 HL 联合数据，依然能获得很强性能；这说明：联合训练配方本身就很关键—— 即便不显性做高层推理，仅在训练中加入子任务预测任务，就能带来显著泛化增益；
no HL（训练完全不用高层数据）性能大幅下滑；
no VI 性能明显变弱：尽管语言指令数据集 VI 仅占高层移动操控样本的约 11%，但对最终效果至关重要；
no WD 同样显著变差：网络数据的很大一部分价值体现在提升高层语义规划能力；
零样本 GPT-4 表现最差：证明 VLM 必须用机器人领域数据做适配，直接零样本调用通用大模型无法胜任真实机器人高层规划。