论文分享:VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
论文信息: arXiv:2509.09372 | 作者:Yihao Wang, Pengxiang Ding 等(北京邮电大学、西湖大学、浙江大学、OpenHelix Team 等)| 1,400+ GitHub Stars
概述与核心出发点
VLA-Adapter 提出并回答了一个根本性问题:现有 VLA 系统真的需要 7B 级别的大模型骨干和昂贵的机器人数据预训练吗? 还是说,只要掌握正确的 VL → A(视觉-语言到动作)桥接范式,更小的骨干同样能达到 SOTA 性能?[^1]
论文给出的答案是后者。VLA-Adapter 使用仅 0.5B 参数的 Qwen2.5-0.5B 骨干,无任何机器人数据预训练,通过一个精心设计的轻量级 Policy 网络和 Bridge Attention 机制,在 LIBERO 四套基准上取得 97.3% 平均成功率,以 219.2 Hz 的推理吞吐量(约为 OpenVLA-OFT 的 3 倍)达到当时报告的最快推理速度,可在单张消费级 GPU 上仅用 8 小时完成训练。[2][3]
出发点:Tiny-Scale VLA 面临什么挑战?
"直接缩减骨干"行不通
研究者首先进行了一个对照实验:对 OpenVLA-OFT 的桥接方式(最终层特征 + 简单 MLP 映射到动作)进行骨干替换:
- OpenVLA-7B + OFT:高性能
- Prismatic-VLMs(LLaMA2-7B)+ OFT:无机器人预训练,性能大幅下降
- Prismatic-VLMs(Qwen2.5-0.5B)+ OFT:性能进一步下降
结果表明,当 VLM 未经机器人数据预训练时,仅依赖最后一层特征进行动作映射是不够的——此时最后一层特征尚未适配动作域,简单的 MLP 无法有效跨越模态鸿沟。因此,需要一种新的桥接范式,充分利用 VLM 各层的多模态表示。[^4]
已有工作的局限
现有 VLA 的桥接方式存在明显差异(如 π₀ 的 cross-attention、OpenVLA-OFT 的 ActionQuery 等),但没有系统性分析哪种条件(condition)对动作生成最为关键。VLA-Adapter 首次将这一问题作为独立的研究课题展开。[5][4]
核心设计

1. 两类条件(Conditions)的系统性分析
VLA-Adapter 将 VLM 传递给 Policy 的信息统称为"条件",区分为两大类:
Raw Features(原始特征,(\mathcal{C}_t^{\mathcal{R}})):VLM 中各层的隐状态,包含视觉和语言表示。这是对 VLM 中间层信息的直接提取。
ActionQuery Features(动作查询特征,(\mathcal{C}_t^{\mathcal{AQ}})):64 个额外可学习 token,随输入序列一起通过 VLM 的完整前向计算,从多模态上下文中聚合信息。类似于 OpenVLA-OFT 中的 latent token 设计,但在 VLA-Adapter 中被系统性地研究和利用。[6][7]
通过大量消融实验,作者得出 6 个 Key Findings:[^4]
| 问题 | 关键发现 |
|---|---|
| VLM 哪一层的 Raw features 更有效? | 中间层 > 深层(深层语义过饱和,中间层保留更丰富的多模态细节)[^4] |
| ActionQuery 还是 Raw features 更好? | ActionQuery 普遍优于 Raw features,全层使用时高出约 2.0%[^4] |
| ActionQuery 数量如何选? | 太少削弱聚合,太多引入冗余;64 个最优[^7] |
| 多层还是单层更好? | 全层特征优于单层;且省去选层的设计负担[^4] |
| 两类特征的注入方式有何不同? | ActionQuery 可全量注入;Raw features 需要可控注入(learnable ratio)[^7] |
2. Policy 网络整体架构
Policy 网络层数与 VLM 相同(对应 Qwen2.5-0.5B 为 24 层),参数量仅约 97M(Pro 版本为 207M)。[^8]
输入为全零初始化的 H 步动作块 (\mathbf{A}^0_t),经过 LayerNorm 后作为初始动作潜变量 (\widetilde{\mathbf{A}}^0_t)。经过 M 个 Bridge Attention 层的迭代精炼,最终由 LN + MLP 层输出动作块 (\mathbf{A}{M-1}_t)。[6]
Policy 只在各层接受来自 VLM 对应层的条件注入,VLM 骨干只需运行一次,不参与 Policy 的逐步迭代,保证了极低的推理延迟。
3. Bridge Attention:核心注意力模块
每个 Policy 层由一个 Bridge Attention 模块和一个 FFN 组成。Bridge Attention 内部包含两个 Cross-Attention 和一个 Self-Attention:[9][6]
第一路 Cross-Attention(注入 Raw features):
[
\text{CA}_1!\left(\widetilde{\mathbf{A}}^\tau_t,; \sigma_1(\mathcal{C}_t^{\mathcal{R}})\right)
]
其中 (\sigma_1) 为 MLP 映射,动作潜变量 (\widetilde{\mathbf{A}}^\tau_t) 作为 Query,对应层 Raw features 作为 K,V。为避免语义过饱和的原始特征干扰动作生成,引入可学习参数 (g) 对注入强度进行调制:
[
\hat{\mathbf{A}}^\tau_{\text{raw}} = \tanh(g) \cdot \text{CA}_1(\cdot) + \widetilde{\mathbf{A}}^\tau_t
]
这一设计允许网络在训练中自动学习每一层 Raw features 的适当注入比例。[9][6]
第二路 Cross-Attention(注入 ActionQuery features + 本体感知状态):
ActionQuery features (\mathcal{C}_t^{\mathcal{AQ}}) 与本体感知状态 (\sigma_0(\mathcal{P}_t)) 拼接后,通过 MLP (\sigma_2) 得到 K₂, V₂;更新后的动作潜变量作为 Q₂ 进行第二路注意力。ActionQuery features 无需调制,可全量注入(对应 Key Finding 6)。[^6]
Self-Attention(动作内部一致性):
最终的 Self-Attention 允许动作序列内的各时间步相互交互,保证生成动作块的时序一致性。[^9]
整体 Bridge Attention 的输出:
[
\widehat{\mathbf{A}}^\tau_t = \text{SA}!\left(\hat{\mathbf{A}}^\tau_{\text{raw}} + \text{CA}_2(\cdot)\right)
]
经过残差 FFN 得到 (\widetilde{\mathbf{A}}{\tau+1}_t),进入下一层。[6]
4. 训练策略:双路并行更新
VLM 骨干(Qwen2.5-0.5B + Prismatic): 通过 LoRA 进行微调(rank=64),视觉编码器(DINOv2 + SigLIP 双编码器)保持冻结。
Policy 网络(97M 参数): 完全从零开始训练。ActionQuery tokens 也从零初始化后联合更新。
训练目标: 直接使用 L1 损失(L1-based policy),监督预测动作块与 ground-truth 动作的误差。与 DiT-based 扩散策略相比,L1 方式在 VLA-Adapter 框架下的推理速度和成功率更优。[^4]
训练支持从 10GB(RTX 2080Ti/3060)到 80GB(H100/A100)各级显卡,最低只需 9.6 GB VRAM(batch_size=1, lora_rank=64)。[^8]
冻结骨干时的强鲁棒性
VLA-Adapter 的一个重要发现是:即使完全冻结 VLM 骨干(只训练 ActionQuery tokens 和 Policy 网络),仍能保持强劲性能。在 LIBERO-Long 上:
- OpenVLA-OFT(冻结骨干):成功率 0.0%(彻底失效)
- SmolVLA(冻结骨干):成功率 77.0%
- VLA-Adapter(冻结骨干):成功率 86.4%[^4]
这一结果揭示了 VLA-Adapter 桥接范式的本质优势:通过多层 Raw features 和 ActionQuery 的联合注入,Policy 网络可以充分利用 VLM 的冻结表示,无需通过 LoRA 修改 VLM 权重来适配动作域。这使得 VLA-Adapter 在计算资源更有限的场景(无法微调骨干)下依然实用。[^3]
实验结果
LIBERO 基准(全方位 SOTA)
在 LIBERO 四套任务上,VLA-Adapter 以 0.5B 参数规模取得了跨越性能:[^8]
| 规模 | 方法 | Spatial | Object | Goal | Long | Avg. |
|---|---|---|---|---|---|---|
| 7B | OpenVLA | 84.7% | 88.4% | 79.2% | 53.7% | 76.5% |
| 7B | OpenVLA-OFT | 97.6% | 98.4% | 97.9% | 94.5% | 97.1% |
| 7B | UniVLA | 96.5% | 96.8% | 95.6% | 92.0% | 95.2% |
| 3B | π₀ | 96.8% | 98.8% | 95.8% | 85.2% | 94.2% |
| 2.2B | SmolVLA | 93.0% | 94.0% | 91.0% | 77.0% | 88.8% |
| 2B | GR00T N1 | 94.4% | 97.6% | 93.0% | 90.6% | 93.9% |
| 0.5B | VLA-OS | 87.0% | 96.5% | 92.7% | 66.0% | 85.6% |
| 0.5B | VLA-Adapter | 97.8% | 99.2% | 97.2% | 95.0% | 97.3% |
| 0.5B | VLA-Adapter-Pro | 99.6% | 99.6% | 98.2% | 96.4% | 98.5% |
VLA-Adapter 超过了同规模 VLA-OS 29.0%(LIBERO-Long),并与 14× 更大的 OpenVLA-OFT 基本持平,在 LIBERO-Long 上还略有超出。[2][4]
CALVIN ABC→D 基准
| 规模 | 方法 | 1 | 2 | 3 | 4 | 5 | Avg. len |
|---|---|---|---|---|---|---|---|
| 7B | OpenVLA-OFT | 96.3% | 89.1% | 82.4% | 75.8% | 66.5% | 4.10 |
| 7B | OpenHelix | 97.1% | 91.4% | 82.8% | 72.6% | 64.1% | 4.08 |
| 1.5B | VPP | 95.7% | 91.2% | 86.3% | 81.0% | 75.0% | 4.33 |
| 0.57B | Seer-Large | 96.3% | 91.6% | 86.1% | 80.3% | 74.0% | 4.28 |
| 0.5B | VLA-Adapter | 99.1% | 94.6% | 88.8% | 82.8% | 76.5% | 4.42 |
| 0.5B | VLA-Adapter-Pro | 98.5% | 95.0% | 90.5% | 85.3% | 80.0% | 4.50 |
VLA-Adapter 在 CALVIN 上达到 4.42 平均序列长度,超越所有 Tiny-scale 和多数 Large-scale 方法。[^8]
推理效率(关键亮点)
| 方法 | 参数量 | 吞吐量(Hz) | 推理延迟(8-dim action chunk) | 训练 VRAM |
|---|---|---|---|---|
| OpenVLA-OFT | 7B | 71.4 Hz | ~140ms | 62 GB |
| VLA-Adapter | 0.5B | 219.2 Hz | 0.036s | 24.7 GB |
VLA-Adapter 的吞吐量约为 OpenVLA-OFT 的 3 倍,VRAM 使用量降低约 60%,是当时报告的最快推理速度。在极度资源受限情况下(batch_size=1),仅需 9.6 GB VRAM 即可完成训练。[3][2][^8]
与同期工作的定位对比
| 维度 | SmolVLA | TinyVLA | SpatialVLA | VLA-Adapter |
|---|---|---|---|---|
| 参数规模 | 2.2B | ~0.5B | 4B | 0.5B |
| 机器人数据预训练 | 需要 | 需要 | 需要 | 不需要 |
| 冻结骨干性能 | 77.0%(Long) | 无报告 | 无报告 | 86.4%(Long) |
| 推理吞吐量 | 不报告 | 不报告 | 不报告 | 219.2 Hz |
| LIBERO 平均 | 88.8% | - | 78.1% | 97.3% |
| 最低训练 VRAM | 未报告 | 未报告 | 未报告 | 9.6 GB |
VLA-Adapter 是第一个以 0.5B 参数、无机器人预训练、单消费级 GPU 实现与 7B 模型比肩性能的工作。[2][4]
社区影响与延伸工作
VLA-Adapter 发布后迅速引发关注,在 HuggingFace 日榜排名第一、周榜第二、月榜第三。截至 2026 年 3 月,GitHub 已积累 1,400+ Stars。[^8]
下游引用与扩展:
- MergeVLA(2025):基于 VLA-Adapter 架构探索多任务模型合并,指出其 Self-Attention 层不利于权重合并,提出去掉 Self-Attention 并替换 tanh 门控为 sigmoid 的修改方案,OOD 成功率提升 13.4%[^10]
- RD-VLA(2026):基于同样的 Qwen2.5-0.5B + Prismatic 骨干,探索隐式 Test-Time Compute 扩展,与 VLA-Adapter 的 0.5B 路线并行[^11]
- CORAL、NS-VLA 等多篇 2026 年新工作均将 VLA-Adapter 作为 Tiny-scale 方法的代表基线[12][13]
团队 Roadmap(TODO 已公布): VLA-Adapter++(更强版本)、支持更多 VLM 骨干(π0.5 等)、Diffusion Transformer 策略头、RL 后训练,以及双系统兼容性探索。[^8]
局限性与开放问题
- 未在大规模多任务设置上验证:当前实验集中于 LIBERO 和 CALVIN 的 per-task fine-tuning,尚未在真正多任务统一训练范式下评估泛化能力[^4]
- 对完全陌生物体的泛化能力受限:由于骨干规模小且无大规模机器人预训练,对 out-of-distribution 物体的泛化仍依赖微调数据质量[^3]
- 真实场景评估规模有限:真实机器人实验相对有限,能否在多样化的非结构化场景中保持优势还需更充分验证
- 7B 模型的"世界知识"优势:VLA-Adapter 在操控任务上与 7B 持平甚至更好,但在需要复杂推理、常识理解的任务中,0.5B 骨干的世界知识深度天然受限[^3]
References
-
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - Based on these insights, we propose a lightweight Policy module with Bridge Attention, which autonom…
-
An Effective Paradigm for Tiny-Scale Vision-Language-Action Model - Overall Performance (LIBERO): With a tiny 0.5B-parameter backbone, VLA-Adapter achieves SOTA-level a…
-
VLA-Adapter Explained: 0.5B Model Beats 7B Giants - A lightweight module allows a 0.5B model to match 7B robot performance after only 8 hours of trainin…
-
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - In this paper, we investigate how to effectively bridge vision-language (VL) representations to acti…
-
[PDF] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - On this basis, we built a Policy network with Bridge Attention to autonomously inject the optimal co…
-
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - VLA-Adapter transfers the sufficient multimodal information to the proposed Policy Network for actio…
-
VLA-Adapter - We investigate how to effectively bridge vision-language (VL) representations to action (A) space. A…
-
VLA-Cache: Efficient Vision-Language-Action Manipulation … - GitHub - VLA-Cache introduces a lightweight and effective caching mechanism by detecting unchanged visual tok…
-
VLA-Adapter: Bridging VL to Robotic Action - Emergent Mind - The policy network consists of multiple layers: each one refines the latent “action chunk” through a…
-
: Cross-Skill Model Merging Toward a Generalist Vision-Language … - … VLA-Adapter [45] architecture (Fig. 1), which consists of L L transformer blocks trained from sc…
-
Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision … - We compare RD-VLA against state-of-the-art VLA methods on the LIBERO and CALVIN benchmarks. Table I …
-
NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models - (2025) Vla-adapter: an effective paradigm for tiny-scale vision-language-action model. arXiv preprin…
-
CORAL: Scalable Multi-Task Robot Learning via LoRA Experts - arXiv - For instance, VLA-Adapter [46] introduces a lightweight bridge attention mechanism to connect vision…
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)