π0.6详解

2401_82437081

697人浏览 · 2026-04-23 08:31:12

2401_82437081 · 2026-04-23 08:31:12 发布

如有错漏，欢迎各位指出

一、解决的问题与解决方案

解决的问题：在一个通用且扩展的机器人系统中成功实现RL（强化学习）

重大挑战

1.为大型模型设计可扩展且稳定的强化学习方法

2.处理来自不同策略的异构数据

3.在现实世界中建立带有奖励反馈的强化学习训练——奖励信号可能存在歧义或随机性

解决方案：

1.二值化优势值条件化

通过优势值评估筛选出低质量的动作轨迹达到降噪，提高学习效果的目的；使得模型从传统RL中的模仿转为评估数据本身

2.设计出Recap方案与价值函数评估

Recap：旨在通过结合演示、自主经验和专家干预的通用方案，使 VLA 模型在训练流程的所有阶段融入奖励反馈

价值函数:评估任务进展，估算数据集中每个动作的优势值，基于这一优势值，以一个改进指标为条件得到优化后的策略

小总结：把传统的RL的模仿变成了基于优势值引导的有监督提取

二、π0.6模型结构

Recap
- 二值化优势值：
  
  优势值A(s,a)=Q(s,a)−V(s)，
  
  Q(s,a) ：在状态 s下采取动作a预计能拿多少分
  
  V(s)：在状态 s下，按平均水平能拿多少分。
  
  意义：优势值告诉你，当前的这个动作比“平均表现”好还是差
  
  二值化：
- 模型条件化概率：
- π：策略模型
  
  at：模型生成的动作
  
  ot：机器人当前的观察
  
  l：任务的语言指令
  
  训练时：模型学习在A^=1时模仿高质量动作，在A^=0时识别低质量动作 推理时：手动设置A^=1，强制模型检索并执行能够通往成功的动作逻辑
- 工作流程：
- ①预训练：在大规模互联网视频和多机器人数据集上进行跨硬件预训练，获得基础物理常识。
  ②自主经验收集 (Rollouts)：
  1. 自主运行：机器人在实验室独立尝试任务（如组装纸箱）。
  2. 人工干预：当机器人表现不佳时，操作员介入微调，这部分数据被自动标为A^=1
  ③价值函数微调 (Value Function Update)：
  
  利用收集到的“成功/失败”标签，微调价值函数，训练其预测V(s)，其目的是让裁判能准确识别出当前画面离成功还有多远
  
  ④策略迭代
  
  利用更新后的裁判给所有历史数据重新打分，更新A^，再对 VLA 主干进行微调
- 分布式价值函数
  
  训练价值函数的核心公式，也是损失函数：
- τ∈D：数据集D中抽取出来一系列轨迹
- 经验回报（Empirical Return）
  
  。它表示从时间点t开始，一直到任务结束，机器人实际获得的所有奖励的总和。
- B=201bins，这部分是将得分离散化，映射到201bins中
- 这一部分是损失函数
- 模型预测分布：给定观察ot和指令ℓ，它预测得分落在各个桶里的概率
  
  优势值计算：
- v(b):第b个分桶对应的实际数值 • 含义：这是一个加权平均（期望值）。将每个分桶的概率乘以该桶的数值，然后求和。这样就把概率分布重新转换成了一个连续的价值标量。
  在预训练阶段，数据集D对应人类演示数据，价值函数捕捉任务的预期回报与我们所依赖的元数据；而在后续迭代中，该函数会向“演示数据回报与已学习策略回报的加权组合”倾斜。
- 训练遵循KI方案:预训练阶段基于多源数据执行下一个token预测，同时结合带有停止梯度的流匹配动作专家模块。该VLA以二值化优势指标为条件，而这一指标由一个独立的价值函数得到——该价值函数基于预训练但规模更小的VLM模型初始化。
- 价值函数的可视化:图中展示了该价值函数在两个场景下的输出：左侧是一个成功完成的折叠任务，右侧是预训练数据集中一个未成功的操作任务。红色区域代表价值下降，绿色区域代表价值上升；顶部的图像对应任务片段的相应帧。该可视化结果表明，价值函数（VF）能够正确识别任务片段中的错误，同时也能反映任务的进展速度。
- 基于优势条件的策略提取
  
  策略提取:利用价值函数训练改进策略的方法
  
  需要符合的标准：
  1. 多源离线数据利用：需能有效利用多样化的离线数据，包括初始演示数据、专家干预数据，以及最新策略与旧策略的自主任务片段。这与离线强化学习方法面临的挑战密切相关。
  2. 适配大型VLA模型：需具备可扩展性，易于应用于大型VLA模型（包括采用流匹配或扩散机制生成动作的模型）。
  3. 兼容优劣数据：需能有效利用优质（近最优）与劣质（非最优）数据——这对于借助自主经验优化策略至关重要。
  作者使用了优势条件反射变体：策略基于所有数据进行监督学习训练，但额外引入一个输入——该输入基于优势值，用于指示动作的最优程度
  
  核心公式：条件化策略：
- 基准策略，即模型在所有数据上训练出来的平均水平：
- 条件化策略。即在已知“是否为改进动作I”的情况下的动作分布：
- 剩下的比例项是似然比，衡量了“好动作”相对于“平均动作”的增强程度
  β为锐化因子，当β=1可得特殊情况：
- 此时策略就是一个简单的条件分布
  
  改进指标 I：
- 假设符合狄拉克分布,原因：
  
  将连续值转化为“离散标签”便于模型处理，狄拉克函数仅在x=0处有值且值为1
  
  简化概率推理（避免复杂的积分计算），训练目标变成了简单的监督学习
  
  相当于一个过滤器，提高对噪声数据的鲁棒性,让模型更关注导致成功的核心物理规律，而不是奖励值的微小波动。
  
  损失函数：
- 二值化标签：
  
  标准的行为克隆损失：
- 条件化行为克隆损失：
- 这样设计的原因：
  
  联合训练：模型同时学习“无条件动作生成”和“有条件（基于好坏）动作生成”
  
  推理阶段：在实际部署机器人时，我们令It=1,由于模型在训练时学过了当I=1
  
  时对应的动作”，它现在就能精准地只输出那些被认为是有改进的、高质量的动作。
输入的数据：

多元机器人数据: 包含各种真实机器人操作的视频和传感器数据。子任务指令: 将复杂任务分解为细颗粒度的指令，这有助于模型理解动作的阶段性逻辑。多模态互联网数据：模型在互联网大规模图像和文本上进行预训练（例如目标检测、语义分割），为机器人提供了“常识”（例如：什么是纸箱，什么是折叠）
π*0.6
- 模型优化
  
  在π0.5基础上增加了更大的主干网络（Gemma 3 4B模型，动作专家的规模扩大至860M参数。）和更多样化的条件反射（输入数据种类的增多）的π0.6，使用RL进行训练后的π*0.6模型
- 预训练、数据采集与经验学习
  
  预训练时在同一数据集上训练价值函数，使其预测完成各项任务所需的步数，实验里阈值设为价值函数对任务l预测值的**30%分位数，**在VLA训练阶段，我们实时运行价值函数，为每个样本估计优势值
  
  针对目标任务启动策略优化循环，微调π*0.6模型，得到初始策略
  
  用初始策略进行数据采集过程同时由远程操控的专家实时监控并介入，提供修正动作
  
  微调价值函数，再使用更新后的指标It，按照预训练阶段的流程微调策略。价值函数与策略的微调均基于预训练模型的权重 checkpoint，以避免多轮迭代过程中出现的模型漂移问题
  
  实际操作中发现，仅需一轮迭代，通常就能使策略性能得到显著提升。
- 动作似然的下界
- 左边是分类对数似然。它强迫模型预测正确的离散 Token；右边括号内部是离散动作损失+连续流匹配损失
  1. 优势引导：通过在两个损失项中都加入It ，模型学会了区分“高分动作”和“低分动作”。在推理时，我们强制设It=1 ，模型就会自动选择右边两项联合得分最高的路径。
  2. 两阶段控制：第一项（离散）负责“定性”，确定动作的大方向；第二项（连续）负责“定量”，确保动作的物理轨迹足够平滑和精准。
  3. 语义对齐：由于整个公式都以子任务 l^ 为条件，这保证了机器人做出的物理动作（连续轨迹）绝对符合它脑子里想的语言逻辑（子任务）。
- 模型输出层级
- 该公式利用链式法则将复杂的动作生成拆解为三步：
  1. 先想清楚现在要干哪个子任务（高层语义规划）。
  2. 在子任务指导下，生成粗略的离散动作。
  3. 最后生成精细的连续动作轨迹。
- 奖励函数
- 如图为奖励函数，Cfail一个较大的常数，选择该常数是为了确保失败片段的价值较低；-1意味着时间成本惩罚。它强迫机器人尽可能快地完成任务
- 意义：
  
  鼓励高效率：每步-1，促使机器人选择路径最短、速度最快的动作
- 稀疏奖励的稠密化处理：通过每步 -1 的设计，将“成功”这个信号转化为了“效率”的竞争，使得价值函数更容易收敛
  
  区分“慢速成功”与“快速失败”：让失败代价＞走弯路
  
  奖励函数生成的数值会被用来计算优势值，进行下一步价值函数训练

三**、实验评估与核心表现**

实验所用静态双臂操作平台，平台配备两台6自由度机械臂，末端均安装平行夹爪。机械臂以50Hz的频率接收关节位置指令并完成运动控制。系统的观测信息包含关节与夹爪的位置数据，以及三台相机采集的图像：一台基座相机安装在双臂之间，两台腕部相机分别搭载于每台机械臂的末端。该实验平台可灵活部署

实验评估的具体任务

如图有折叠T恤与短裤，折叠（多种类衣物），衣物折叠（针对性故障消除），双份浓缩咖啡调制，折纸箱这五种任务

对比方法与消融实验：

baseline model ：

π0.5：无RL与RECAP版；π0.6：不含优势指标 I t；π*0.6（1）：经过RL但无监督微调版；

π*0.6（2）：离线强化学习+监督微调；

策略提取方法:

AWR方法

将强化学习（RL）问题转化为加权监督学习
监督学习项：
这部分与标准的交叉熵损失完全一致。模型尝试预测在状态s下产生动作a的概率
V（s）能够准确预估当前策略在状态s下的平均期望回报

选择AWR当对照组的原因：

AWR 代表了增强型模仿学习的路径，考察模型如何从已有的成功/失败经验中，通过权重分配来筛选出最优策略。而π0.5使用的是IL模仿学习的方法
PPO
整体架构：双重任务协同（CoVLA）

上半部分：针对自回归策略。它处理的是离散的 Token

下半部分：针对流匹配策略。它处理的是连续的动作轨迹

优势加权项：π 是当前正在学习的策略，πref 是参考策略，尝试增大那些“比参考策略 πref 表现更好
信任区域惩罚项：惩罚偏离πref 太远的策略
选择PPO为对照组的原因：
PPO 代表了传统强化学习的路径，考察模型通过不断试错学习新技能的能力，在实验展示纯在线强化学习在处理复杂多模态动作空间时的表现

评估指标：吞吐量与成功率。吞吐量用于衡量每小时内成功完成的任务次数，综合反映了任务执行速度与成功率，是具有实际应用价值的核心指标。成功率指成功完成的任务片段占总片段数的比例，由人工标注判定：标注人员根据多项质量指标对任务片段进行评分，最终汇总生成任务成功与否的标签。实验结果： **RECAP方法对策略性能的提升幅度最高：**如下图，在所有任务中π*0.6吞吐量与成功率均远高于其他基线模型。多类衣物折叠任务与浓缩咖啡调制任务的吞吐量提升超过一倍，任务失败率降低约50%。在相对简单的T恤与短裤折叠任务中，监督微调阶段结束后策略成功率已接近上限，但最终模型仍能显著提升任务吞吐量。除多类衣物折叠任务外，其余所有任务成功率已达到90%以上

多轮迭代训练中RECAP方法对模型性能提升趋势最好：

实验选取T恤短裤折叠任务与纸箱组装任务作为研究对象。在T恤折叠任务中，我们仅使用自主执行采集的数据（无人工修正）完成两轮迭代的策略优化，以此评估方法仅依靠强化学习实现策略改进的能力。每轮迭代在四台机器人上采集300条轨迹数据。纸箱组装任务的每轮迭代则同时使用自主执行数据与专家远程操控修正数据，包含600条自主轨迹与360条专家修正轨迹。RECAP方法的两轮迭代分别标记为i=1,i=2.

实验结果显示，两项任务的模型性能均随迭代过程逐步提升：T恤折叠任务的吞吐量最终提升50%；对于长程的纸箱组装任务，需更多数据支撑才能实现显著性能提升，第二轮迭代后吞吐量提升至初始水平的两倍。标记为“本文方法”的曲线始终为最优性能

实验结果:T恤折叠任务在第一轮迭代后成功率即提升至90%以上，第二轮迭代主要贡献在于提升任务执行速度；纸箱组装任务的成功率则在两轮迭代中均实现了明显增长。尽管任务仍存在少量失败案例（尤其是纸箱堆叠环节），但最终策略在600秒时间限制内，纸箱折叠与标签粘贴环节的成功率均达到约90%。

RECAP方法的优势条件策略提取方法与其他方法相比性能表现最好：

实验任务选取T恤短裤折叠任务。为保证对比的公平性，所有对比方法均使用训练最终模型的同一批数据。

实验结果：AWR与PPO方法虽能取得一定性能，但与本文方法差距显著，甚至难以超越“离线强化学习+监督微调”的基线模型π*0.6（2），AWR方法能够取得尚可的成功率，但策略执行速度较慢，导致吞吐量指标偏低；PPO方法必须采用极小的信任域约束参数η=0.01，才能在离线强化学习场景下稳定训练过程，结果是模型性能不佳

RECAP方法能否利用少量数据显著改变策略行为，并消除特定故障模式：

本实验则聚焦于策略的特定故障模式，验证RECAP方法能否通过强化学习消除策略的某一特定错误行为。实验采用具有严格成功标准的衣物折叠任务：要求机器人将T恤折叠为衣领居中且朝上的状态。任务的初始状态设置为：T恤平铺于桌面，该初始状态下π*0.6（2）极易错误折叠

实验结果;在该任务上执行两轮RECAP迭代训练（每轮采集600条轨迹）后，策略成功率达到97%，且任务执行速度较快。由此可见，即使在无人工修正数据、无额外演示数据的纯强化学习设置下，RECAP方法仍能有效消除策略的特定故障模式。

四、局限性

系统自主性不足：当前系统依赖人工完成奖励反馈标注、干预指导及任务片段重置等工作
探索策略较为简单：现有系统的探索方式以贪心策略为主，主要依靠策略自身的随机性与人工干预来探索新的解决方案。这种方式在模仿学习训练的初始策略已具备合理行为的场景下是可行的，但仍有较大的性能提升空间。
训练模式为离线迭代：RECAP采用“批量采集数据—模型重新训练—重复迭代”的离线更新模式，而非数据采集与策略、价值函数实时更新同步进行的全在线强化学习循环。选择离线模式主要是出于实现便捷性的考量，而将方法拓展至全并行的在线强化学习框架，是未来极具潜力的研究方向。

注：该模型代码未开源，无法复现，无法验证

个人思考与感悟

传统RL的缺陷是模型极易将先前犯的错误当成真理并一直应用，通过二值化优势值条件化，模型自主评估动作的优劣与数据的质量，，从一味模仿到自主评估，更接近“智能”

注：本文公式大多由Gemini讲解，因为本人太菜了😭，如有错漏欢迎指出

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从 Prompt 到工程体系：如何真正把 AI 用进软件开发

真正成熟的 AI 编程，一句 Prompt 生成项目而是：如何把团队多年工程经验系统化、结构化、流程化。然后：交给 AI 稳定执行。未来：真正厉害的工程师：不是最会写 Prompt 的人。而是：最会设计 AI 工程体系的人。