DexVLA: Vision-Language Model with Plug-InDiffusion Expert for General Robot Control 论文翻译
论文地址:https://arxiv.org/abs/2502.05855

摘要
让机器人在多样环境中执行各类任务,是机器人学习领域的核心挑战。尽管视觉 - 语言 - 动作(VLA)模型在通用机器人技能学习中展现出潜力,但要充分发挥其能力,仍需解决动作表示与高效训练方面的局限。当前 VLA 模型往往聚焦于视觉 - 语言模型(VLM)组件的规模扩展,而动作空间表示仍是关键瓶颈。本文提出DexVLA框架,旨在提升 VLA 模型在跨多机器人本体、复杂长时域任务中的效率与泛化能力。
DexVLA 的核心创新为十亿参数级扩散动作专家(适配跨本体学习),以及全新的本体课程学习策略。训练分为三步:1)基于跨本体数据预训练扩散专家;2)将 VLA 模型与特定本体对齐;3)后训练以快速适配新任务。
本文在单臂、双臂、灵巧手等多类机器人本体上开展全面实验,结果表明:DexVLA 无需任务专属适配即可应对高难度任务,能在小样本数据下为新本体学习灵巧操作技能,仅通过自然语言指令就能完成叠衣服等复杂长时域任务。在所有测试场景中,该方法性能均优于 OpenVLA、π₀等当前最优模型。
关键词:视觉 - 语言 - 动作模型;机器人操作
1 引言
让机器人在多变环境中完成多样化任务,是机器人学的核心难题。实现通用性—— 即在多样环境中解决各类任务,同时适配语言指令、环境约束与突发干扰 —— 难度更高。模仿学习,尤其是视觉 - 语言 - 动作(VLA)模型,在通用技能学习中展现出良好前景。
但实现全能机器人基础模型仍面临两大核心瓶颈:
- 数据稀缺:当前最优模型(如 OpenVLA、Octo)依赖 Open-X Embodiment 等大规模数据集(4000 小时),π₀/π₀.₅更是使用 10000 小时数据。人工采集演示数据成本极高、耗时费力。
- 结构失衡:现有 VLA 模型过度侧重 VLM 组件规模(OpenVLA 采用 7B 参数 VLM,π₀采用 3B 参数 VLM)。即便通过互联网数据预训练提升了视觉与语言理解能力,VLM 仍与机器人具身化的感知 - 运动上下文脱节。
本文提出可插拔扩散专家的视觉 - 语言 - 动作模型(DexVLA),面向跨多机器人本体的复杂长时域任务,提升 VLA 的数据效率与泛化能力。核心创新有两点:
- 十亿参数扩散专家:针对传统动作专家在跨本体数据处理上的不足,设计基于扩散模型的动作专家。采用多头结构适配不同机器人形态,参数规模扩至十亿级,大幅提升复杂运动技能与控制策略的学习能力。
- 具身课程学习:三阶段训练策略,由简到难逐步学习,模拟人类技能习得过程。
此外,本文不依赖 SayCan 等高层策略模块,而是通过子步骤推理标注数据训练模型。让 VLA 直接自主分解长时域任务、生成精准动作,实现端到端控制。
实验验证:DexVLA 在单臂、双臂、灵巧手、移动双臂机器人上均表现优异,无需任务专属适配即可完成高难度任务;仅用不到 100 条演示数据就能为新本体学习灵巧技能;叠衣服等长时域任务性能远超 π₀。模型仅用 100 小时演示数据预训练,单张英伟达 A6000 显卡即可实现 60Hz 推理,训练成本低、推理速度快。
2 相关工作
2.1 面向机器人控制的视觉 - 语言 - 动作模型
近期研究的重点,是在规模不断扩大的机器人学习数据集上训练通用机器人策略。视觉 - 语言 - 动作(VLA)模型是训练这类通用策略的一种很有前景的方法。VLA 模型将在海量互联网级图像与文本数据上预训练好的视觉 - 语言模型,用于机器人控制任务。这种方案具备多项优势:依托数十亿参数的大型视觉 - 语言模型主干,模型拥有足够容量拟合大规模机器人数据集;同时,复用互联网数据预训练得到的权重,能增强模型理解多样化语言指令、泛化到新物体与新环境的能力。
然而,当前的 VLA 模型并没有专门借助底层视觉 - 语言模型的参数来学习机器人灵巧操作技能。尽管有部分工作(如 π₀ 和 TinyVLA)引入了外部动作专家来辅助动作学习,但它们的训练流程仍然依赖整个模型。另一个挑战在于,即使是 π₀ 这类先进方法,虽然能够完成高灵巧度、长时域任务,却仍需要高层策略(如 SayCan)的辅助,将任务分解为子目标,让 VLA 依次完成子任务。
本文的目标是把这种高层规划能力直接集成到模型内部:通过子步骤级标注数据训练网络的各个组件,让模型无需外部高层策略,就能自主完成叠衣服这类复杂任务,让整个框架更端到端,展现出显著的应用潜力。
2.2 扩散模型
扩散模型已成为视觉生成领域的主流方法。扩散策略(Diffusion Policy)成功将扩散模型应用于机器人学习,证明其具备建模多模态动作分布的能力。后续研究进一步将扩散策略拓展到三维环境、扩展模型能力、提升效率,并引入架构创新。
目前已有不少工作探索扩散式 VLA 模型的应用。尽管现有模型在多样化任务上取得了出色的性能与泛化能力,但它们大多依赖预训练视觉 - 语言模型的能力。本文提出一种范式转变:将重心转向扩散模块。实验证明,经过全新设计的基于扩散的动作专家,搭配新颖的训练策略,能够让 VLA 模型更高效、更有效地从数据中学习。

3 方法
3.1 模型架构
我们的 DexVLA 模型主要基于 Transformer 语言模型主干构建。我们使用 Qwen2VL 作为基础视觉 - 语言模型(VLM)。遵循视觉 - 语言模型的通用框架,我们采用图像编码器将机器人的图像观测投影到与语言词元相同的嵌入空间。对于多相机视角,这些视觉词元会被直接拼接。
VLM 组件产生两种输出:推理词元与动作词元。动作词元会经过一个由两层带层归一化(LayerNorm)的线性层组成的投影模块。该模块类似于 LLaVA 等视觉 - 语言模型中设计的连接器,用于将 VLM 的嵌入空间转换,使其与动作专家的输入要求对齐。推理词元则通过 FiLM 层注入策略模型,对策略内部的投影层参数进行缩放与偏移。由此,模型能够自主生成推理,并在扩散专家内部利用该推理引导动作生成。模型总览如图 2 所示。
构建扩散专家
由于动作专家主导机器人动作的学习过程,为实现更好的视觉 - 运动策略学习,设计优秀的神经网络架构至关重要。我们采用了缩放扩散策略(ScaleDP),它是 Transformer 架构下扩散策略的一种变体,其中最大版本的 ScaleDP 可达 10 亿参数。
但原生的 ScaleDP 并非为跨机器人本体预训练而设计。我们为其增加了多头输出结构,使其能够在多种机器人配置上进行预训练。每个输出头负责一种机器人配置,这种设计与 Octo 类似。
训练目标
给定一批输入序列,整体训练损失定义为扩散损失(Ldiff)与下一词预测损失(Lntp)的加权组合:L=Ldiff+αLntp在所有实验中我们设置 α=1,因为我们观察到 Lntp 在训练早期就已收敛。这种设置使模型能够主要学习基于推理与指令的机器人动作预测。
3.2 具身课程学习
课程学习是一种由简单到复杂逐步学习任务的训练策略,与人类技能习得过程相似。我们的三阶段训练策略实现了具身化课程学习:策略网络首先从跨本体数据中学习可泛化的运动技能(阶段 1),然后适应其特定的物理形态(阶段 2),最后精调得到任务专属行为(阶段 3)。这与人类技能习得过程一致:基础能力(如抓取)先于专业技能(如叠衣服)。
设计良好的训练策略对优化深度神经网络至关重要。符合网络固有训练动态的方法能更高效、更有效地利用数据。DexVLA 通过将 VLM 与扩散专家结合,面向通用机器人控制。借助其融合两个独立组件的模块化架构,我们提出三阶段训练策略,系统性解决以下问题:
- 学习灵巧操作技能以完成复杂任务;
- 跨本体学习,使模型适配多样化机器人平台。

阶段 1:跨本体预训练
视觉 - 语言 - 动作模型可看作由两个独立组件组成。架构顶层是视觉 - 语言模型(VLM),它处理视觉输入与语言指令,将其映射到共享嵌入空间。该共享空间由互联网规模数据预训练,具备广泛能力,包括语言理解、多模态理解及各类视觉 - 文本任务。
尽管经过大规模训练,VLM 仍缺乏在真实环境中与各类物体进行物理交互的能力。
为有效预训练动作专家,我们在暂时将其与 VLM 组件解耦的同时,利用所有可用数据。这使我们能够独立于语言 grounding,专注构建鲁棒的动作生成能力。我们使用 ResNet-50 作为图像编码器,与扩散策略(DP)保持一致;使用 DistilBERT 作为语言嵌入模型。得到的语言嵌入通过 FiLM 层融入模型,与此前工作一致。
阶段 2:特定本体对齐
阶段 1 从跨本体数据中学习基础运动技能,但这种跨本体学习可能降低目标本体上的性能,使其不适合实际部署。阶段 2 通过使用本体专属数据训练模型来解决该问题,将来自 VLM 的抽象视觉 - 语言表示与扩散专家对齐。
因此,我们过滤数据集,只保留本体专属数据,确保每个样本只涉及一种机器人本体。借鉴 LLaVA 等视觉 - 语言模型所用技术,本阶段专注将目标本体的动作空间与其对应相机视角和配套语言指令对齐。
具体来说,我们在该本体专属数据上联合训练 VLM、投影层与扩散专家,同时冻结 VLM 的视觉编码器。这种联合训练使扩散专家能有效将 VLM 的高层视觉 - 语言理解落地到目标机器人的特定运动控制空间。
阶段 2 训练完成后,我们观察到模型已能熟练在目标本体上执行多种任务,例如叠衣服,证明了本体专属训练的有效性。

阶段 3:任务专属适配
该阶段精调模型,使其熟练流畅地执行下游任务,类似于大语言模型的后训练阶段 —— 在领域专属数据上微调。对于简单、泛化要求较低的任务(如叠衣服、清理桌面、训练过的物体的料箱拾取),无需任务专属训练,模型已表现良好。但对于复杂、高灵巧要求的任务,模型需要学习细粒度、依赖上下文的动作。
因此,有效后训练依赖高质量的专家演示数据集,这些演示具备一致流畅的任务执行策略,聚焦于能提升任务成功率的行为。
值得注意的是,我们在阶段 2 与阶段 3 均使用带子步骤标注的语言数据。但我们不直接将这些子步骤推理作为指令输入,而是将其作为中间语言输出,迫使模型学习并生成这些子步骤语言描述。该方法被证明非常有效,使模型能执行洗衣折叠等复杂长时域任务。
而其他 VLA 模型(如 π₀)虽也能完成此类任务,但需依赖 SayCan 等高层策略模型识别任务状态并提供下一步指令。与之不同,我们的框架将 VLM 主干作为隐式高层策略,使模型能在内部理解任务状态,并将该理解注入策略以引导动作生成,不再需要外部高层策略模块。
子步骤推理
训练 DexVLA 的一个核心洞见是:必须将长时域任务(如桌面清理)分解为子任务。这类任务通常持续超过 2 分钟,扩散专家很难从单一语言指令中有效学习。因此,我们在这些长时域任务中标注子步骤指令,提供更结构化的学习信号。
基于子步骤的预训练对获得优异性能至关重要。我们在附录中证明了子步骤推理的重要性。实验观察表明:未经过该预训练的 VLA 在超长任务中经常跳过关键步骤。子步骤标注通常在演示中每 5 秒提供一次。子步骤推理示例如图 3 所示。

4 真实世界实验
4.1 无需任务专属适配的模型评估
本节评估 ** 未经过任务专属适配(即未经过阶段 3 训练)** 的模型性能。被评估的任务如图 5 所示,所有任务均使用同一组模型参数。详细任务描述见附录。
这些任务在轨迹长度与复杂度上差异显著,部分任务需要高度灵巧性与精细操作(如叠衬衫)。我们将本方法与以下模型进行对比:
- OpenVLA:在 Open X-Embodiment(OXE)数据集上预训练的 70 亿参数 VLA 模型
- Octo:采用扩散策略生成动作的 9300 万参数紧凑模型
- Diffusion Policy:经典强基线方法
我们使用这些模型开源的预训练权重。为保证公平对比,所有基线方法均在与我们阶段 2 训练相同的数据集、相同轮数下进行微调。值得注意的是,Octo 与 OpenVLA 此前均未在这种复杂度的任务上取得成功。
与 π₀的评估方式一致,我们采用每个任务、每种方法运行 10 次回合后的归一化平均分数作为评估指标。各任务详细评分规则见附录。
如图 6 所示,DexVLA 在所有无需任务专属适配的任务上显著优于所有基线。值得注意的是,包括 OpenVLA、Octo、Diffusion Policy 在内的基线方法均无法完成叠衬衫任务的任何步骤,凸显该任务的复杂性。与之相对,DexVLA 在无任何任务专属适配的情况下,叠衬衫任务得分高达0.92。
在料箱拾取与桌面清理任务中也出现类似现象:尽管基线方法在这些高难度任务上偶尔取得有限成功,但总体分数依然很低。而 DexVLA 在这些任务上均取得大幅领先的性能。
4.2 在新本体上学习灵巧操作技能
本节评估模型在全新机器人本体上学习灵巧技能的能力,如图 7 所示。这些新本体未出现在阶段 1 与阶段 2 的训练数据中。
我们旨在证明所提框架能够无需重新预训练,快速在任意新本体上习得新技能。详细任务描述见附录。
这些任务涉及两种训练数据中不存在的新型机器人系统:
- 集成灵巧手的 Franka 机械臂:共 12 个自由度,比普通夹爪更复杂
- 双臂 UR5e 系统:仿人运动学设计,运动特性与传统双臂平台(如 AgileX 双臂机器人)存在本质差异
我们采用与上一节相同的基线进行对比。本节旨在验证预训练模型对新本体与新任务的适配能力。为此,我们直接将阶段 2 预训练的模型在新任务上进行微调。对于 OpenVLA 与 Octo,我们使用其在 OXE 数据集上预训练的公开权重。而专为小样本灵巧任务设计的 Diffusion Policy 则直接在这两个新任务上从零开始训练。
所有方法均在单独任务上训练,为保证公平,所有基线均训练相同轮数。
图 8 对比了各方法在两个新任务上的性能。每种方法、每个任务均报告 10 次试验的平均分(详细评分标准见附录)。DexVLA 在两个任务上的平均分达到0.90,而 OpenVLA 与 Octo 表现不佳。DexVLA 显著超越 Diffusion Policy,取得巨大性能优势。
这些结果证明 DexVLA 能够高效适配新本体,仅用 100 条演示数据即可掌握复杂技能。这一结果尤为重要,因为我们的方法同时超越了经过大规模预训练的 VLA 模型(OpenVLA)与专为新任务学习设计的方法(Diffusion Policy)。

4.3 直接指令驱动的复杂长时域任务
本组实验通过任务专属后训练与模型自生成推理能力,解决一系列具有挑战性的多阶段任务。其中部分任务的预训练数据存在,但需要微调才能掌握;部分任务在预训练中无数据。
本节评估的任务如图 3 所示,详细任务描述见附录。这些任务均为长时域挑战。例如,洗衣折叠单次回合需超过 2 分钟,衣物柔软可变形,会呈现大量从未见过的形态与状态,对识别与任务完成构成巨大挑战。在分拣任务中,模型需在杂乱场景中拾取 5–8 个随机摆放的物体,并将其放置到预设目标位置。
本文正文报告洗衣折叠与困难桌面清理两项任务,其余三项任务在附录中讨论。
所有模型的评估均基于 10 次试验的平均分,详细评分标准见附录。由于能处理该规模任务的先前模型有限,因此对比存在一定难度。我们仅将本方法与 OpenVLA、Octo、π₀进行对比。注意 π₀经过海量数据预训练,且与测试机器人使用相同本体。为保证公平,所有模型均采用直接指令提示方式。
结果如图 11 所示,DexVLA持续优于所有基线方法。在最复杂的洗衣折叠任务上,本方法得分 0.4,展现出处理极高复杂度场景的潜力。相比之下,π₀在直接任务指令提示下仅得 0.2。在桌面清理任务上,DexVLA 比 π₀高出 0.08 分。
这些结果表明,DexVLA 为不依赖外部高层规划器执行复杂长时域任务提供了极具前景的解决方案。
4.4 消融实验
4.4.1 三阶段训练策略消融
为验证该多阶段训练流程的必要性,本节开展消融实验。具体而言,我们在多种训练条件下评估 DexVLA:仅训练阶段 1、仅训练阶段 2、同时训练阶段 1+2、完整三阶段训练。阶段 1 使用跨本体数据预训练,阶段 2 使用本体专属数据微调,阶段 3 让模型掌握更复杂的任务。
实验结果总结于表 2。我们观察到:仅训练阶段 1 或阶段 2,折叠类任务成功率均为 0%。值得注意的是,缺少阶段 1 训练会导致模型完全无法学习任何有意义的动作。我们认为原因在于扩散专家参数量极大,优化难度高。因此,阶段 1 不仅为扩散专家提供基础动作技能,还起到 “参数预热” 作用,使其更好地理解复杂视觉信号与语言指令。
此外,为探究阶段 3 训练对更复杂任务性能的贡献,我们未经过任务专属适配直接在洗衣折叠任务上评估 DexVLA,发现性能从 0.4 大幅跌落至 0。这些结果强调:阶段 3 训练对模型成功处理长时域与高难度任务至关重要。
4.4.2 扩散专家规模消融
本文的核心贡献之一是提出一种新型 VLA 模型架构,其包含扩散专家—— 一个参数量显著更大的基于扩散 Transformer 的动作专家。然而,10 亿参数的扩散专家架构相比更小的模型是否具备优势?
5 结论(完整详细翻译)
本文提出DexVLA,这是一种新型架构:利用视觉 - 语言模型学习语义信息,同时采用十亿参数扩散专家学习鲁棒且可泛化的视觉 - 运动策略。我们引入具身课程学习策略,使网络通过三个训练阶段,逐步从与本体无关的运动技能学习,进阶到复杂、本体专属的灵巧技能。
此外,我们融入子步骤推理,使模型能够在不依赖高层策略模型的情况下执行超长时域任务。
我们从多个角度对方法进行评估,包括:
- 无需任务专属适配即可执行复杂任务的能力
- 在小样本数据下在新本体上微调的能力
- 不借助高层策略模型执行极度复杂长时域任务的能力
实验结果表明,DexVLA 在各项能力上均显著优于现有最优模型,为构建通用机器人控制基础模型提供了高效、可扩展的新路径。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)