【VLA系列】PI 0.5

zys9506

301人浏览 · 2026-05-20 17:43:59

zys9506 · 2026-05-20 17:43:59 发布

1、概述

PI 0.5是 Physical Intelligence 公司推出的视觉 - 语言 - 动作（VLA）具身智能模型，旨在让机器人在陌生环境中完成复杂长时任务（如全屋整理、清洁厨房）。

开放世界泛化：未见过的家庭环境也能执行 10–15 分钟多步骤任务。
多源异构训练：融合移动 / 非移动机器人数据、跨实体数据及网页多模态信息，泛化能力强。
双阶段 + 分层架构：预训练学通用语义，后训练聚焦移动操作；高层语义规划 + 低层动作生成，流匹配技术保障动作连续性。
知识绝缘 VLA 范式：动作专家模块模块化嫁接，不侵蚀预训练语义知识，兼顾泛化与控制精度。

2、算法简介

PI0.5 的核心创新在于其 “双阶段训练 + 三层级推理” 的一体化架构。它将海量常识与机器人控制分离训练、统一推理，完美解决了开放世界泛化与底层动作精度的矛盾。

2.1 双阶段训练

训练流程分为 “ 预训练（通用化）+ 后训练（专业化）” 两个阶段，数据与目标完全不同。

阶段一：预训练 (Pre-training) —— 构建 “世界常识”

核心目标：学习海量通用知识，建立视觉、语言、物体交互的基础能力，成为 “通才”。

数据来源（异构混合）
- 跨本体机器人数据 (Cross-Embodiment, ~40%)：7 种不同机器人的海量动作数据（非目标机型），学习通用物理规则。
- 互联网多模态数据 (Web Data, ~30%)：图像描述、VQA、物体定位，学习物体常识与语义。
- 高层语义标注数据 (~15%)：任务分解为子任务的标注数据，学习任务规划逻辑。
- 目标机器人数据 (~2.4%)：少量目标机型数据，建立初步关联。
核心技术：万物 Token 化
- 所有模态（图像、文本、动作、坐标）均通过 FAST Tokenizer 离散化为统一 Token。
- 动作被编码为离散序列，像训练 LLM 一样无缝融合所有数据。

输出：一个强大的 VLM 骨干（基于 PaliGemma），擅长理解场景、规划步骤、生成语义指令，但不直接输出精确连续动作。

阶段二：后训练 (Post-training) —— 专精 “机器人控制”

核心目标：冻结预训练的语义知识，注入专用模块，将高层指令转化为丝滑、精准的物理动作。

数据来源
- 仅保留目标移动操作机器人的高质量数据（约 400 小时家庭场景）。
- 剔除跨本体数据以减少噪声，专注于特定机型的控制精度。
核心创新：动作专家 (Action Expert)
- 新增一个3 亿参数的轻量级专用 Transformer 模块。
- 技术切换：从预测离散 Token转为预测连续动作流。
- 核心算法：Flow Matching（流匹配），通过去噪生成高频（50Hz）连续动作。
知识绝缘设计
- 动作专家作为 “插件”，不修改预训练 VLM 的权重。
- 确保强大的语义规划能力不被底层动作微调所 “遗忘” 或干扰。
输出：一个完整的 VLA 模型，同时拥有强语义规划与高精动作控制能力。

2.2 三层级推理

推理时，模型在单帧内严格执行 “感知 → 规划 → 执行” 的三层思维链，实现长时程任务闭环。

2.2.1 感知层 (Perception) —— 看懂世界

输入：当前视觉图像 + 机器人本体状态。
功能：
- 目标检测（Bounding Box）：识别并定位场景中的关键物体（如 “杯子”、“垃圾桶”）。
- 特征提取：将视觉信息编码为高维特征，供上层规划使用。
知识来源：预训练阶段学习的互联网物体常识。

2.2.2 规划层 (Planning / High-Level) —— 思考策略

输入：高层全局指令（如 “Clean the kitchen”）+ 感知层特征 + 历史状态。
功能：语义子任务拆解
- 将复杂、长时程的全局任务，分解为一系列可执行的原子化子任务。
- 示例：清理厨房 → 打开洗碗机 → 放入盘子 → 关闭洗碗机 → 启动。
执行者：预训练 VLM 主干网络。
核心价值：负责长时序逻辑与开放世界泛化，决定 “做什么”。

2.2.3 执行层 (Execution / Low-Level) —— 精准动作

输入：规划层输出的子任务文本（如 “pick up the plate”）+ 感知层特征。
功能：连续动作生成
- 动作专家 (Action Expert) 模块接管。
- 通过 Flow Matching 算法，生成机器人关节角度或末端执行器的连续、平滑、高频轨迹。
- 冗余输出：同时预测关节角度（直接执行）与末端位姿（跨机型泛化）。
执行者：动作专家模块。
核心价值：负责底层控制精度与物理稳定性，决定 “怎么做”。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

盘点2026年高品质微型无人机推荐榜单

在选择时，性价比是首要考虑的因素。如今许多品牌都在争相推出高性价比无人机、但消费者应关注一些核心参数。例如、轻量化无人机等重量通常在249克以下，这样在大多数地方不用登记，使用更方便。像博坦的ATOM2S，提供AI智能航拍特性，加上4800万像素摄像头、让拍摄质量有很大保证。这款无论是日常记录还是旅行Vlog都能轻松应对。同时、大疆的MINI3等MINI4K也不容小觑，这些产品在便携性和稳定性上表