摘要

视觉-语言-动作(VLA)模型已成为机器人操作的一个强大范式。尽管大规模预训练和监督微调(SFT)取得了实质性进展,但这些模型仍面临两个根本性挑战:(1)SFT 扩展所需的大规模人工操作机器人轨迹的稀缺和高成本;(2)对涉及分布漂移的任务泛化能力有限。

最近在大型推理模型(LRM)方面的突破表明,强化学习(RL)可以显著增强逐步推理能力。这自然引发了一个问题:RL 能否类似地增强 VLA 的长时程逐步动作规划能力?

本文提出 SimpleVLA-RL,一个为 VLA 模型定制的高效 RL 框架。基于 veRL 框架,引入了 VLA 特定的轨迹采样、可扩展并行化、多环境渲染和优化的损失计算。应用到 OpenVLA-OFT 上时,SimpleVLA-RL 在 LIBERO 上达到 SoTA 性能,甚至在 RoboTwin 1.0 & 2.0 上超越 π0。此外,论文还发现了一个称为 “pushcut” 的新现象,即 RL 训练过程中策略发现了超越先前训练数据的新模式。


在这里插入图片描述

1. 研究背景与动机

1.1 VLA 模型的现状与挑战

当前 VLA 模型通常采用两阶段训练策略

阶段 内容 问题
预训练 多模态数据(人类视频、图文对、机器人数据集) 数据相对丰富
SFT 高质量机器人轨迹 数据稀缺且昂贵

两个关键挑战

挑战 说明
数据稀缺 机器人轨迹采集需要精心设计的场景、多样化的物体和熟练的操作者
泛化能力差 SFT 依赖有限的场景和任务特定数据,遇到未见任务/环境/物体时性能下降

1.2 LRM 的启示

DeepSeek-R1 等大型推理模型证明:仅依靠结果奖励的 RL 就能驱动显著进步,增强模型的逐步推理能力。

核心研究问题

RL 能否类似地增强 VLA 模型生成准确动作的能力,同时帮助克服 SFT 的上述两个挑战?

1.3 VLA RL 的独特挑战

挑战 说明
传统 RL 依赖手工过程奖励 严重限制可扩展性
VLA rollout 需要多轮环境交互 比 LLM 更慢、成本更高
动作解码策略多样 扩散、tokenization、回归,只有 token 方法天然兼容 PPO

2. 预备知识

2.1 LLM 的 RL 形式化

要素 定义
状态 sts_tst 输入提示 + 已生成 token
动作 ata_tat 从词汇表选择下一个 token
环境 序列完成后提供奖励信号
Rollout 自回归生成直到终止,无中间环境反馈

2.2 VLA 的 RL 形式化

要素 定义
状态 sts_tst 视觉输入 + 本体感知 + 语言指令
动作 ata_tat 末端执行器控制命令(6-DoF 位姿 + 夹爪)
环境 物理世界或仿真,提供状态转移和奖励
Rollout 迭代交互:动作执行 → 环境更新 → 新观测

奖励函数
R(ai,t∣si,t)={1任务成功0否则R(a_{i,t} \mid s_{i,t}) = \begin{cases} 1 & \text{任务成功} \\ 0 & \text{否则} \end{cases}R(ai,tsi,t)={10任务成功否则

其中 α\alphaα 平衡结果奖励和过程奖励(本文采用纯结果奖励,α=1\alpha=1α=1)。

2.3 GRPO(Group Relative Policy Optimization)

GRPO 是 DeepSeek 提出的 RL 算法,消除价值函数,通过组内相对归一化计算优势:

符号 含义
GGG 每组轨迹数量
RiR_iRi iii 条轨迹的总奖励
A^i\hat{A}_iA^i 归一化优势 = (Ri−mean)/std(R_i - \text{mean}) / \text{std}(Rimean)/std
ri,t(θ)r_{i,t}(\theta)ri,t(θ) 重要性采样比率 = πθ/πθold\pi_\theta / \pi_{\theta_{\text{old}}}πθ/πθold
ϵ\epsilonϵ PPO 裁剪参数
β\betaβ KL 正则化系数

3. SimpleVLA-RL 方法

在这里插入图片描述

3.1 交互式 VLA Rollout

LLM vs VLA Rollout 对比

维度 LLM VLA
生成方式 自回归生成 token 动作执行 → 环境更新 → 新观测
多样性来源 温度采样 温度采样 + 环境随机性
反馈 无中间反馈 每步执行后有新状态

VLA 动作解码策略兼容性

策略 与 PPO/GRPO 兼容性
Token 生成(如 OpenVLA) ✅ 天然兼容
扩散去噪(如 RDT) ⚠️ 需要适配
确定性 MLP 回归 ❌ 不兼容

本文选择:采用 token 生成方法,输出动作 token 概率分布,使用随机采样生成多样化轨迹。

3.2 结果奖励建模

核心设计:使用简单的二元结果奖励(成功=1,失败=0)

特点 说明
可扩展 无需手工设计过程奖励
通用 适用于各种环境
简单 避免任务特定奖励的非迁移性

奖励分配:轨迹级奖励均匀传播到每个动作 token。

3.3 探索增强策略

问题:VLA 模型倾向于收敛到狭窄的解决方案模式,限制 RL 效率。

三种增强策略

策略 说明 效果
动态采样 排除全成功或全失败的组,只保留混合结果组 确保非零梯度
提高裁剪上限 将 GRPO 裁剪范围从 [0.8, 1.2] 扩大到 [0.8, 1.28] 允许低概率 token 增加概率
提高采样温度 温度从 1.0 提高到 1.6 生成更多样化轨迹

3.4 训练目标

最终损失函数
J(θ)=Es0∼D,{ai}i=1G∼πθold[1G∑i=1G1∣ai∣∑t=1∣ai∣min⁡(ri,t(θ)A^i,clip(ri,t(θ),1−ϵlow,1+ϵhigh)A^i)]\mathcal{J}(\theta) = \mathbb{E}_{s_0 \sim \mathcal{D}, \{a_i\}_{i=1}^G \sim \pi_{\theta_{\text{old}}}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|a_i|} \sum_{t=1}^{|a_i|} \min \left( r_{i,t}(\theta) \hat{A}_i, \text{clip}(r_{i,t}(\theta), 1-\epsilon_{\text{low}}, 1+\epsilon_{\text{high}}) \hat{A}_i \right) \right]J(θ)=Es0D,{ai}i=1Gπθold G1i=1Gai1t=1aimin(ri,t(θ)A^i,clip(ri,t(θ),1ϵlow,1+ϵhigh)A^i)

关键修改

  • 移除 KL 散度正则化(参考 DAPO)
  • 动态采样约束:0<∣{成功轨迹}∣<G0 < |\{\text{成功轨迹}\}| < G0<{成功轨迹}<G

4. 实验

4.1 实验设置

基准测试

基准 特点 任务数
LIBERO 终身学习,语言引导操作 5 个任务套件
RoboTwin1.0 双臂操作,场景/物体多样性有限 17 任务
RoboTwin2.0 双臂操作,731 物体实例,域随机化 50 任务

RoboTwin2.0 任务分类(按步数/规划长度):

级别 步数范围 任务数
Short 112-130 4
Medium 151-223 4
Long 283-313 2
Extra-Long 466-637 2

主干网络:OpenVLA-OFT(LLaMA2-7B + 动作 tokenization + 并行解码)

训练配置

参数
GPU 8 × A800 80GB
学习率 5e-6
批大小 64
采样数 G 8
裁剪范围 [0.2, 0.28]
温度 T 1.6

4.2 主要结果

LIBERO 结果

模型 Spatial Object Goal Long 平均
OpenVLA 84.7 88.4 79.2 53.7 76.5
π0 96.8 98.8 95.8 85.2 94.2
UniVLA 96.5 96.8 95.6 92.0 95.2
OpenVLA-OFT + Ours 91.6 95.3 90.6 86.5 91.0

RoboTwin1.0 结果(平均成功率):

模型 平均
DP 5.9
DP3 58.1
OpenVLA-OFT 39.8
+ Ours 70.4 (+30.6)

RoboTwin2.0 结果(按任务长度):

模型 Short Medium Long+Extra 平均
RDT 24.5 47.8 27.8 33.3
π0 45.5 58.8 43.3 49.2
OpenVLA-OFT 21.3 47.1 46.5 38.3
+ Ours 64.9 72.5 68.8 68.8 (+30.5)

5. 分析

5.1 克服数据稀缺

设置:仅用每条任务 1 条演示进行 SFT(One-Trajectory SFT)

LIBERO-Long 结果

模型 成功率
One-Trajectory SFT 17.3%
+ RL 91.7%
Full-Trajectory SFT 86.5%
+ RL 98.5%

关键发现

  • One-Trajectory SFT + RL 甚至超过 Full-Trajectory SFT
  • 性能差距仅 2.2%(96.9% vs 99.1%)
  • RL 可显著缓解 VLA 训练的数据稀缺瓶颈

5.2 泛化能力分析

设置:9 个 seen 任务训练,1 个 unseen 任务评估

主要发现

维度 SFT RL
训练任务性能 >90% >90%
未见任务性能 严重过拟合,常降至 0% 持续提升,+5-15%
灾难性遗忘 严重 几乎无

结论:RL 使 VLA 模型能够保留已有能力,同时学习可泛化的技能。

5.3 真实世界实验(Sim2Real)

任务:Stack Bowls, Place Empty Cup, Pick Bottle, Click Bell

模型 平均成功率
RDT 23.5%
OpenVLA-OFT (SFT) 17.5%
+ RL 38.5% (+21.0)

结论:大规模仿真 RL 训练显著提升真实世界性能,展示了低成本扩展真实世界策略的可行路径。


6. 讨论

6.1 “Pushcut”:RL 中的新模式涌现

观察现象:在 RoboTwin2.0 的 “move can pot” 任务中:

数据来源 策略
演示数据 grasp → move → place(抓取-移动-放置)
RL 训练后 push 直接推送到目标位置

类似现象:“place a2b right” 任务中,RL 模型学会直接推动而非抓取放置。

意义

  • 类似 DeepSeek-R1 中的 “Aha Moment”
  • 结果奖励设计避免了过程约束,赋予智能体更大的探索空间
  • 成功行为通过正向奖励被强化,低效行为被淘汰

6.2 SimpleVLA-RL 的失败模式

关键发现:模型先验是决定 RL 有效性的关键因素

初始能力(SFT 轨迹数) SFT 成功率 +RL 后 提升
0 0% 0% 0
100 7.3% 25.4% +18.1
1000 28.2% 50.4% +22.2

结论

  • RL 完全失败:当基础模型无任务能力时(0% 成功率)
  • 强初始能力 → 更大 RL 收益
  • 存在性能阈值:初始能力太低时,RL 改进微乎其微

7. 核心创新总结

创新点 说明
首个 VLA 在线 RL 系统框架 基于 veRL 扩展,支持 VLA 特定交互采样
探索增强三件套 动态采样 + 裁剪上限提高 + 高温度采样
结果奖励设计 简单二元奖励,避免过程奖励复杂性
数据效率突破 每条任务仅 1 条演示 + RL → 91.7% 成功率
泛化能力提升 RL 显著优于 SFT,避免灾难性遗忘
Sim2Real 成功 仿真 RL → 真实世界性能大幅提升
Pushcut 现象发现 RL 发现超越演示数据的新策略

8. 局限性与未来方向

局限性 未来方向
需要基础模型有非零初始能力 结合更好的预训练或探索策略
仅支持 token 化动作的 VLA 扩展到扩散/回归动作空间
仿真-真实仍有差距 更逼真的仿真或域适应
计算成本较高 更高效的 RL 算法或蒸馏

9. 结论

本文提出的 SimpleVLA-RL 是一个为 VLA 模型定制的高效在线 RL 框架。通过将 GRPO 算法适配到 VLA 的交互式 rollout 场景,并引入探索增强策略,在多个基准测试上达到 SoTA 性能。

三大核心贡献

  1. 数据效率:每条任务仅需 1 条演示,RL 可将 LIBERO-Long 成功率从 17.3% 提升到 91.7%
  2. 泛化能力:RL 训练避免 SFT 的过拟合问题,在未见任务上持续提升
  3. Sim2Real:仿真 RL 训练显著提升真实世界性能(+21%)

Pushcut 现象展示了 RL 发现超越演示数据的新策略的潜力,为 VLA 的自主进化提供了新思路。


10. 资源

  • 📄 论文标题:SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
  • 👨‍🔬 作者:Haozhan Li, Yuxin Zuo, Jiale Yu 等(清华 + 上海 AI Lab + 上交 + 北大 + 港大)
  • 🔗 代码开源:PRIME-RL/SimpleVLA-RL
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐