VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

论文信息: arXiv:2509.09372 | 作者:Yihao Wang, Pengxiang Ding 等(北京邮电大学、西湖大学、浙江大学、OpenHelix Team 等)| 1,400+ GitHub Stars


概述与核心出发点

VLA-Adapter 提出并回答了一个根本性问题:现有 VLA 系统真的需要 7B 级别的大模型骨干和昂贵的机器人数据预训练吗? 还是说,只要掌握正确的 VL → A(视觉-语言到动作)桥接范式,更小的骨干同样能达到 SOTA 性能?[^1]

论文给出的答案是后者。VLA-Adapter 使用仅 0.5B 参数的 Qwen2.5-0.5B 骨干,无任何机器人数据预训练,通过一个精心设计的轻量级 Policy 网络和 Bridge Attention 机制,在 LIBERO 四套基准上取得 97.3% 平均成功率,以 219.2 Hz 的推理吞吐量(约为 OpenVLA-OFT 的 3 倍)达到当时报告的最快推理速度,可在单张消费级 GPU 上仅用 8 小时完成训练。[2][3]


出发点:Tiny-Scale VLA 面临什么挑战?

"直接缩减骨干"行不通

研究者首先进行了一个对照实验:对 OpenVLA-OFT 的桥接方式(最终层特征 + 简单 MLP 映射到动作)进行骨干替换:

  • OpenVLA-7B + OFT:高性能
  • Prismatic-VLMs(LLaMA2-7B)+ OFT:无机器人预训练,性能大幅下降
  • Prismatic-VLMs(Qwen2.5-0.5B)+ OFT:性能进一步下降

结果表明,当 VLM 未经机器人数据预训练时,仅依赖最后一层特征进行动作映射是不够的——此时最后一层特征尚未适配动作域,简单的 MLP 无法有效跨越模态鸿沟。因此,需要一种新的桥接范式,充分利用 VLM 各层的多模态表示。[^4]

已有工作的局限

现有 VLA 的桥接方式存在明显差异(如 π₀ 的 cross-attention、OpenVLA-OFT 的 ActionQuery 等),但没有系统性分析哪种条件(condition)对动作生成最为关键。VLA-Adapter 首次将这一问题作为独立的研究课题展开。[5][4]


核心设计

在这里插入图片描述

1. 两类条件(Conditions)的系统性分析

VLA-Adapter 将 VLM 传递给 Policy 的信息统称为"条件",区分为两大类:

Raw Features(原始特征,(\mathcal{C}_t^{\mathcal{R}})):VLM 中各层的隐状态,包含视觉和语言表示。这是对 VLM 中间层信息的直接提取。

ActionQuery Features(动作查询特征,(\mathcal{C}_t^{\mathcal{AQ}})):64 个额外可学习 token,随输入序列一起通过 VLM 的完整前向计算,从多模态上下文中聚合信息。类似于 OpenVLA-OFT 中的 latent token 设计,但在 VLA-Adapter 中被系统性地研究和利用。[6][7]

通过大量消融实验,作者得出 6 个 Key Findings:[^4]

问题 关键发现
VLM 哪一层的 Raw features 更有效? 中间层 > 深层(深层语义过饱和,中间层保留更丰富的多模态细节)[^4]
ActionQuery 还是 Raw features 更好? ActionQuery 普遍优于 Raw features,全层使用时高出约 2.0%[^4]
ActionQuery 数量如何选? 太少削弱聚合,太多引入冗余;64 个最优[^7]
多层还是单层更好? 全层特征优于单层;且省去选层的设计负担[^4]
两类特征的注入方式有何不同? ActionQuery 可全量注入;Raw features 需要可控注入(learnable ratio)[^7]

2. Policy 网络整体架构

Policy 网络层数与 VLM 相同(对应 Qwen2.5-0.5B 为 24 层),参数量仅约 97M(Pro 版本为 207M)。[^8]

输入为全零初始化的 H 步动作块 (\mathbf{A}^0_t),经过 LayerNorm 后作为初始动作潜变量 (\widetilde{\mathbf{A}}^0_t)。经过 M 个 Bridge Attention 层的迭代精炼,最终由 LN + MLP 层输出动作块 (\mathbf{A}{M-1}_t)。[6]

Policy 只在各层接受来自 VLM 对应层的条件注入,VLM 骨干只需运行一次,不参与 Policy 的逐步迭代,保证了极低的推理延迟

3. Bridge Attention:核心注意力模块

每个 Policy 层由一个 Bridge Attention 模块和一个 FFN 组成。Bridge Attention 内部包含两个 Cross-Attention 和一个 Self-Attention:[9][6]

第一路 Cross-Attention(注入 Raw features):

[
\text{CA}_1!\left(\widetilde{\mathbf{A}}^\tau_t,; \sigma_1(\mathcal{C}_t^{\mathcal{R}})\right)
]

其中 (\sigma_1) 为 MLP 映射,动作潜变量 (\widetilde{\mathbf{A}}^\tau_t) 作为 Query,对应层 Raw features 作为 K,V。为避免语义过饱和的原始特征干扰动作生成,引入可学习参数 (g) 对注入强度进行调制:

[
\hat{\mathbf{A}}^\tau_{\text{raw}} = \tanh(g) \cdot \text{CA}_1(\cdot) + \widetilde{\mathbf{A}}^\tau_t
]

这一设计允许网络在训练中自动学习每一层 Raw features 的适当注入比例。[9][6]

第二路 Cross-Attention(注入 ActionQuery features + 本体感知状态):

ActionQuery features (\mathcal{C}_t^{\mathcal{AQ}}) 与本体感知状态 (\sigma_0(\mathcal{P}_t)) 拼接后,通过 MLP (\sigma_2) 得到 K₂, V₂;更新后的动作潜变量作为 Q₂ 进行第二路注意力。ActionQuery features 无需调制,可全量注入(对应 Key Finding 6)。[^6]

Self-Attention(动作内部一致性):

最终的 Self-Attention 允许动作序列内的各时间步相互交互,保证生成动作块的时序一致性。[^9]

整体 Bridge Attention 的输出:

[
\widehat{\mathbf{A}}^\tau_t = \text{SA}!\left(\hat{\mathbf{A}}^\tau_{\text{raw}} + \text{CA}_2(\cdot)\right)
]

经过残差 FFN 得到 (\widetilde{\mathbf{A}}{\tau+1}_t),进入下一层。[6]

4. 训练策略:双路并行更新

VLM 骨干(Qwen2.5-0.5B + Prismatic): 通过 LoRA 进行微调(rank=64),视觉编码器(DINOv2 + SigLIP 双编码器)保持冻结。

Policy 网络(97M 参数): 完全从零开始训练。ActionQuery tokens 也从零初始化后联合更新。

训练目标: 直接使用 L1 损失(L1-based policy),监督预测动作块与 ground-truth 动作的误差。与 DiT-based 扩散策略相比,L1 方式在 VLA-Adapter 框架下的推理速度和成功率更优。[^4]

训练支持从 10GB(RTX 2080Ti/3060)到 80GB(H100/A100)各级显卡,最低只需 9.6 GB VRAM(batch_size=1, lora_rank=64)。[^8]


冻结骨干时的强鲁棒性

VLA-Adapter 的一个重要发现是:即使完全冻结 VLM 骨干(只训练 ActionQuery tokens 和 Policy 网络),仍能保持强劲性能。在 LIBERO-Long 上:

  • OpenVLA-OFT(冻结骨干):成功率 0.0%(彻底失效)
  • SmolVLA(冻结骨干):成功率 77.0%
  • VLA-Adapter(冻结骨干):成功率 86.4%[^4]

这一结果揭示了 VLA-Adapter 桥接范式的本质优势:通过多层 Raw features 和 ActionQuery 的联合注入,Policy 网络可以充分利用 VLM 的冻结表示,无需通过 LoRA 修改 VLM 权重来适配动作域。这使得 VLA-Adapter 在计算资源更有限的场景(无法微调骨干)下依然实用。[^3]


实验结果

LIBERO 基准(全方位 SOTA)

在 LIBERO 四套任务上,VLA-Adapter 以 0.5B 参数规模取得了跨越性能:[^8]

规模 方法 Spatial Object Goal Long Avg.
7B OpenVLA 84.7% 88.4% 79.2% 53.7% 76.5%
7B OpenVLA-OFT 97.6% 98.4% 97.9% 94.5% 97.1%
7B UniVLA 96.5% 96.8% 95.6% 92.0% 95.2%
3B π₀ 96.8% 98.8% 95.8% 85.2% 94.2%
2.2B SmolVLA 93.0% 94.0% 91.0% 77.0% 88.8%
2B GR00T N1 94.4% 97.6% 93.0% 90.6% 93.9%
0.5B VLA-OS 87.0% 96.5% 92.7% 66.0% 85.6%
0.5B VLA-Adapter 97.8% 99.2% 97.2% 95.0% 97.3%
0.5B VLA-Adapter-Pro 99.6% 99.6% 98.2% 96.4% 98.5%

VLA-Adapter 超过了同规模 VLA-OS 29.0%(LIBERO-Long),并与 14× 更大的 OpenVLA-OFT 基本持平,在 LIBERO-Long 上还略有超出。[2][4]

CALVIN ABC→D 基准

规模 方法 1 2 3 4 5 Avg. len
7B OpenVLA-OFT 96.3% 89.1% 82.4% 75.8% 66.5% 4.10
7B OpenHelix 97.1% 91.4% 82.8% 72.6% 64.1% 4.08
1.5B VPP 95.7% 91.2% 86.3% 81.0% 75.0% 4.33
0.57B Seer-Large 96.3% 91.6% 86.1% 80.3% 74.0% 4.28
0.5B VLA-Adapter 99.1% 94.6% 88.8% 82.8% 76.5% 4.42
0.5B VLA-Adapter-Pro 98.5% 95.0% 90.5% 85.3% 80.0% 4.50

VLA-Adapter 在 CALVIN 上达到 4.42 平均序列长度,超越所有 Tiny-scale 和多数 Large-scale 方法。[^8]

推理效率(关键亮点)

方法 参数量 吞吐量(Hz) 推理延迟(8-dim action chunk) 训练 VRAM
OpenVLA-OFT 7B 71.4 Hz ~140ms 62 GB
VLA-Adapter 0.5B 219.2 Hz 0.036s 24.7 GB

VLA-Adapter 的吞吐量约为 OpenVLA-OFT 的 3 倍,VRAM 使用量降低约 60%,是当时报告的最快推理速度。在极度资源受限情况下(batch_size=1),仅需 9.6 GB VRAM 即可完成训练。[3][2][^8]


与同期工作的定位对比

维度 SmolVLA TinyVLA SpatialVLA VLA-Adapter
参数规模 2.2B ~0.5B 4B 0.5B
机器人数据预训练 需要 需要 需要 不需要
冻结骨干性能 77.0%(Long) 无报告 无报告 86.4%(Long)
推理吞吐量 不报告 不报告 不报告 219.2 Hz
LIBERO 平均 88.8% - 78.1% 97.3%
最低训练 VRAM 未报告 未报告 未报告 9.6 GB

VLA-Adapter 是第一个以 0.5B 参数、无机器人预训练、单消费级 GPU 实现与 7B 模型比肩性能的工作。[2][4]


社区影响与延伸工作

VLA-Adapter 发布后迅速引发关注,在 HuggingFace 日榜排名第一、周榜第二、月榜第三。截至 2026 年 3 月,GitHub 已积累 1,400+ Stars。[^8]

下游引用与扩展:

  • MergeVLA(2025):基于 VLA-Adapter 架构探索多任务模型合并,指出其 Self-Attention 层不利于权重合并,提出去掉 Self-Attention 并替换 tanh 门控为 sigmoid 的修改方案,OOD 成功率提升 13.4%[^10]
  • RD-VLA(2026):基于同样的 Qwen2.5-0.5B + Prismatic 骨干,探索隐式 Test-Time Compute 扩展,与 VLA-Adapter 的 0.5B 路线并行[^11]
  • CORAL、NS-VLA 等多篇 2026 年新工作均将 VLA-Adapter 作为 Tiny-scale 方法的代表基线[12][13]

团队 Roadmap(TODO 已公布): VLA-Adapter++(更强版本)、支持更多 VLM 骨干(π0.5 等)、Diffusion Transformer 策略头、RL 后训练,以及双系统兼容性探索。[^8]


局限性与开放问题

  1. 未在大规模多任务设置上验证:当前实验集中于 LIBERO 和 CALVIN 的 per-task fine-tuning,尚未在真正多任务统一训练范式下评估泛化能力[^4]
  2. 对完全陌生物体的泛化能力受限:由于骨干规模小且无大规模机器人预训练,对 out-of-distribution 物体的泛化仍依赖微调数据质量[^3]
  3. 真实场景评估规模有限:真实机器人实验相对有限,能否在多样化的非结构化场景中保持优势还需更充分验证
  4. 7B 模型的"世界知识"优势:VLA-Adapter 在操控任务上与 7B 持平甚至更好,但在需要复杂推理、常识理解的任务中,0.5B 骨干的世界知识深度天然受限[^3]

References

  1. VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - Based on these insights, we propose a lightweight Policy module with Bridge Attention, which autonom…

  2. An Effective Paradigm for Tiny-Scale Vision-Language-Action Model - Overall Performance (LIBERO): With a tiny 0.5B-parameter backbone, VLA-Adapter achieves SOTA-level a…

  3. VLA-Adapter Explained: 0.5B Model Beats 7B Giants - A lightweight module allows a 0.5B model to match 7B robot performance after only 8 hours of trainin…

  4. VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - In this paper, we investigate how to effectively bridge vision-language (VL) representations to acti…

  5. [PDF] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - On this basis, we built a Policy network with Bridge Attention to autonomously inject the optimal co…

  6. VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - VLA-Adapter transfers the sufficient multimodal information to the proposed Policy Network for actio…

  7. VLA-Adapter - We investigate how to effectively bridge vision-language (VL) representations to action (A) space. A…

  8. VLA-Cache: Efficient Vision-Language-Action Manipulation … - GitHub - VLA-Cache introduces a lightweight and effective caching mechanism by detecting unchanged visual tok…

  9. VLA-Adapter: Bridging VL to Robotic Action - Emergent Mind - The policy network consists of multiple layers: each one refines the latent “action chunk” through a…

  10. : Cross-Skill Model Merging Toward a Generalist Vision-Language … - … VLA-Adapter [45] architecture (Fig. 1), which consists of L L transformer blocks trained from sc…

  11. Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision … - We compare RD-VLA against state-of-the-art VLA methods on the LIBERO and CALVIN benchmarks. Table I …

  12. NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models - (2025) Vla-adapter: an effective paradigm for tiny-scale vision-language-action model. arXiv preprin…

  13. CORAL: Scalable Multi-Task Robot Learning via LoRA Experts - arXiv - For instance, VLA-Adapter [46] introduces a lightweight bridge attention mechanism to connect vision…

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐