【论文阅读】Learning while Deploying: Fleet-Scale Offline-to-Online Reinforcement Learning for Generalist

萌新一个啥都不会

418人浏览 · 2026-05-25 14:19:04

萌新一个啥都不会 · 2026-05-25 14:19:04 发布

快速了解部分

基础信息：

题目: Learning while Deploying: Fleet-Scale Offline-to-Online Reinforcement Learning for Generalist Robot Policies
时间: 2026.05
机构: Shanghai Innovation Institute, AGIBOT Finch, Columbia University
3个英文关键词: Generalist Robot, Offline-to-Online RL, VLA

1句话通俗总结

通过让机器人大军在实际干活时边干边学（Online RL），用分布式的强化学习算法，把预训练好的通用机器人模型（VLA）从“理论派”变成“实战派”，解决了离线数据无法覆盖真实世界复杂情况的痛点。

研究痛点

纯离线预训练（Offline Pretraining）搞不定真实世界的“长尾分布”和“突发状况”，模型部署后遇到没见过的场景就会抓瞎，现有方法无法高效利用部署后的实时交互数据进行自我进化。

核心方法

搞了一套“离线预训练+在线微调”的闭环流水线（LWD），核心是用分布式的值函数学习（DIVL）处理车队杂乱数据，再用QAM算法把改进信号注入到VLA模型里。

深入了解部分

作者核心主张

部署不应该只是模型的“终点考试”，而应该是模型“持续进修”的源头；利用车队（Fleet）的规模效应，能把稀疏的现实世界经验变成模型能力的飞轮。

创新本质

相比SOTA，真正新在应用场景与训练策略的结合：首次在真实世界的多任务通用机器人（Generalist VLA）上实现了大规模的离线到在线强化学习闭环，且算法层面适配了VLA的流匹配（Flow Matching）架构。

方法直觉解释

输入：预训练好的VLA模型 + 车队实时跑出来的杂乱数据（含成功、失败、人类干预）。
处理：先用DIVL算法把这些乱七八糟的数据变成“价值地图”（分布式的值函数），再用QAM算法像“导航纠偏”一样，通过伴随匹配（Adjoint Matching）告诉VLA模型下一步怎么生成动作更好。
输出：一个越用越聪明、能处理长周期复杂任务（如泡茶、理货）的通用机器人策略。

关键实现细节

DIVL (Distributional Implicit Value Learning)：不用单一数值代表状态价值，而是用分布（Categorical Distribution）来保留数据中的多模态信息（比如某些动作在特定情况下能成功），并根据不确定性自适应调整乐观程度（Adaptive $τ\tau$ ）。
QAM (Q-learning with Adjoint Matching)：不直接反向传播Q值梯度（那样太贵且不稳定），而是将其转化为对流模型（Flow Policy）的局部回归目标，实现了对VLA生成过程的精准微调。

技术传承

继承了 IQL (Implicit Q-Learning) 的隐式策略改进思想和 Flow Matching 的生成式建模架构；改进了IQL的标量值估计为分布式的（Distributional），并将QAM算法从模拟环境迁移到了真实世界的VLA模型训练中。

实验验证（只列最关键的2-3个）

exp1: 多任务真实机器人性能对比

设置: 16台双臂机器人，8个真实世界任务（包括4个长周期任务如功夫茶、果汁制作）。
数据: 真实物理环境，对比SFT, RECAP, HG-DAgger等基线。
结论: LWD (Online) 平均得分达到0.95，尤其在长周期任务上大幅领先（0.91 vs SFT的0.68），且循环时间缩短了23.75秒。

exp2: 消融实验（Ablation Study）

设置: 对比DIVL与标量Expectile回归，对比自适应 $τ\tau$ 策略与固定 $τ\tau$ 。
数据: 离线与在线阶段的消融。
结论: 分布式值学习（DIVL）在长周期任务上带来了显著提升（+16.7%），证明了处理异构数据分布的重要性。

强相关文献（3篇）

π₀: A vision-language-action flow model for general robot control (2024)
Implicit Q-Learning (2021)
Q-learning with Adjoint Matching (2026)

局限与适用边界

作者承认的limitation：当前在线学习调度策略较简单（Real-time schedule），未针对超大规模部署优化；复杂长周期任务依赖单一高层指令，缺乏细粒度的视觉语言推理分解；安全性机制未显式建模。
你判断的适用场景：适合拥有机器人车队（Fleet）的规模化部署场景（如仓储物流、零售理货、家庭服务），用于解决长周期、稀疏奖励的通用任务；不适用于单机、无云端协同、或对安全性要求极高且无法容忍试错的场景。