1、概述

        PI 0.5是 Physical Intelligence 公司推出的视觉 - 语言 - 动作(VLA)具身智能模型,旨在让机器人在陌生环境中完成复杂长时任务(如全屋整理、清洁厨房)。

  • 开放世界泛化:未见过的家庭环境也能执行 10–15 分钟多步骤任务。

  • 多源异构训练:融合移动 / 非移动机器人数据、跨实体数据及网页多模态信息,泛化能力强。

  • 双阶段 + 分层架构:预训练学通用语义,后训练聚焦移动操作;高层语义规划 + 低层动作生成,流匹配技术保障动作连续性。

  • 知识绝缘 VLA 范式:动作专家模块模块化嫁接,不侵蚀预训练语义知识,兼顾泛化与控制精度。

2、算法简介

        PI0.5 的核心创新在于其 “双阶段训练 + 三层级推理” 的一体化架构。它将海量常识与机器人控制分离训练、统一推理,完美解决了开放世界泛化与底层动作精度的矛盾。

2.1 双阶段训练

        训练流程分为 “ 预训练(通用化)+ 后训练(专业化)” 两个阶段,数据与目标完全不同。

阶段一:预训练 (Pre-training) —— 构建 “世界常识”

核心目标:学习海量通用知识,建立视觉、语言、物体交互的基础能力,成为 “通才”。

  • 数据来源(异构混合)

    • 跨本体机器人数据 (Cross-Embodiment, ~40%):7 种不同机器人的海量动作数据(非目标机型),学习通用物理规则。

    • 互联网多模态数据 (Web Data, ~30%):图像描述、VQA、物体定位,学习物体常识与语义。

    • 高层语义标注数据 (~15%):任务分解为子任务的标注数据,学习任务规划逻辑。

    • 目标机器人数据 (~2.4%):少量目标机型数据,建立初步关联。

  • 核心技术:万物 Token 化

    • 所有模态(图像、文本、动作、坐标)均通过 FAST Tokenizer 离散化为统一 Token。

    • 动作被编码为离散序列,像训练 LLM 一样无缝融合所有数据。

输出:一个强大的 VLM 骨干(基于 PaliGemma),擅长理解场景、规划步骤、生成语义指令,但不直接输出精确连续动作。

阶段二:后训练 (Post-training) —— 专精 “机器人控制”

核心目标:冻结预训练的语义知识,注入专用模块,将高层指令转化为丝滑、精准的物理动作。

  • 数据来源

    • 仅保留目标移动操作机器人的高质量数据(约 400 小时家庭场景)。

    • 剔除跨本体数据以减少噪声,专注于特定机型的控制精度。

  • 核心创新:动作专家 (Action Expert)

    • 新增一个3 亿参数的轻量级专用 Transformer 模块。

    • 技术切换:从预测离散 Token转为预测连续动作流。

    • 核心算法:Flow Matching(流匹配),通过去噪生成高频(50Hz)连续动作。

  • 知识绝缘设计

    • 动作专家作为 “插件”,不修改预训练 VLM 的权重。

    • 确保强大的语义规划能力不被底层动作微调所 “遗忘” 或干扰。

  • 输出:一个完整的 VLA 模型,同时拥有强语义规划与高精动作控制能力。

2.2 三层级推理

推理时,模型在单帧内严格执行 “感知 → 规划 → 执行” 的三层思维链,实现长时程任务闭环。

2.2.1 感知层 (Perception) —— 看懂世界
  • 输入:当前视觉图像 + 机器人本体状态。

  • 功能

    • 目标检测(Bounding Box):识别并定位场景中的关键物体(如 “杯子”、“垃圾桶”)。

    • 特征提取:将视觉信息编码为高维特征,供上层规划使用。

  • 知识来源:预训练阶段学习的互联网物体常识。

2.2.2 规划层 (Planning / High-Level) —— 思考策略
  • 输入:高层全局指令(如 “Clean the kitchen”)+ 感知层特征 + 历史状态。

  • 功能语义子任务拆解

    • 将复杂、长时程的全局任务,分解为一系列可执行的原子化子任务。

    • 示例:清理厨房打开洗碗机放入盘子关闭洗碗机启动

  • 执行者:预训练 VLM 主干网络。

  • 核心价值:负责长时序逻辑与开放世界泛化,决定 “做什么”。

2.2.3 执行层 (Execution / Low-Level) —— 精准动作
  • 输入:规划层输出的子任务文本(如 “pick up the plate”)+ 感知层特征。

  • 功能连续动作生成

    • 动作专家 (Action Expert) 模块接管。

    • 通过 Flow Matching 算法,生成机器人关节角度或末端执行器的连续、平滑、高频轨迹。

    • 冗余输出:同时预测关节角度(直接执行)与末端位姿(跨机型泛化)。

  • 执行者:动作专家模块。

  • 核心价值:负责底层控制精度与物理稳定性,决定 “怎么做”。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐