论文分享：VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

moonquakes

378人浏览 · 2026-03-25 21:30:42

moonquakes · 2026-03-25 21:30:42 发布

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

论文信息： arXiv:2509.09372 | 作者：Yihao Wang, Pengxiang Ding 等（北京邮电大学、西湖大学、浙江大学、OpenHelix Team 等）| 1,400+ GitHub Stars

概述与核心出发点

VLA-Adapter 提出并回答了一个根本性问题：现有 VLA 系统真的需要 7B 级别的大模型骨干和昂贵的机器人数据预训练吗？ 还是说，只要掌握正确的 VL → A（视觉-语言到动作）桥接范式，更小的骨干同样能达到 SOTA 性能？[^1]

论文给出的答案是后者。VLA-Adapter 使用仅 0.5B 参数的 Qwen2.5-0.5B 骨干，无任何机器人数据预训练，通过一个精心设计的轻量级 Policy 网络和 Bridge Attention 机制，在 LIBERO 四套基准上取得 97.3% 平均成功率，以 219.2 Hz 的推理吞吐量（约为 OpenVLA-OFT 的 3 倍）达到当时报告的最快推理速度，可在单张消费级 GPU 上仅用 8 小时完成训练。[^2][3]

出发点：Tiny-Scale VLA 面临什么挑战？

"直接缩减骨干"行不通

研究者首先进行了一个对照实验：对 OpenVLA-OFT 的桥接方式（最终层特征 + 简单 MLP 映射到动作）进行骨干替换：

OpenVLA-7B + OFT：高性能
Prismatic-VLMs（LLaMA2-7B）+ OFT：无机器人预训练，性能大幅下降
Prismatic-VLMs（Qwen2.5-0.5B）+ OFT：性能进一步下降

结果表明，当 VLM 未经机器人数据预训练时，仅依赖最后一层特征进行动作映射是不够的——此时最后一层特征尚未适配动作域，简单的 MLP 无法有效跨越模态鸿沟。因此，需要一种新的桥接范式，充分利用 VLM 各层的多模态表示。[^4]

已有工作的局限

现有 VLA 的桥接方式存在明显差异（如 π₀ 的 cross-attention、OpenVLA-OFT 的 ActionQuery 等），但没有系统性分析哪种条件（condition）对动作生成最为关键。VLA-Adapter 首次将这一问题作为独立的研究课题展开。[^5][4]

核心设计

在这里插入图片描述

1. 两类条件（Conditions）的系统性分析

VLA-Adapter 将 VLM 传递给 Policy 的信息统称为"条件"，区分为两大类：

Raw Features（原始特征，(\mathcal{C}_t^{\mathcal{R}})）：VLM 中各层的隐状态，包含视觉和语言表示。这是对 VLM 中间层信息的直接提取。

ActionQuery Features（动作查询特征，(\mathcal{C}_t^{\mathcal{AQ}})）：64 个额外可学习 token，随输入序列一起通过 VLM 的完整前向计算，从多模态上下文中聚合信息。类似于 OpenVLA-OFT 中的 latent token 设计，但在 VLA-Adapter 中被系统性地研究和利用。[^6][7]

通过大量消融实验，作者得出 6 个 Key Findings：[^4]

问题	关键发现
VLM 哪一层的 Raw features 更有效？	中间层 > 深层（深层语义过饱和，中间层保留更丰富的多模态细节）[^4]
ActionQuery 还是 Raw features 更好？	ActionQuery 普遍优于 Raw features，全层使用时高出约 2.0%[^4]
ActionQuery 数量如何选？	太少削弱聚合，太多引入冗余；64 个最优[^7]
多层还是单层更好？	全层特征优于单层；且省去选层的设计负担[^4]
两类特征的注入方式有何不同？	ActionQuery 可全量注入；Raw features 需要可控注入（learnable ratio）[^7]

2. Policy 网络整体架构

Policy 网络层数与 VLM 相同（对应 Qwen2.5-0.5B 为 24 层），参数量仅约 97M（Pro 版本为 207M）。[^8]

输入为全零初始化的 H 步动作块 (\mathbf{A}^0_t)，经过 LayerNorm 后作为初始动作潜变量 (\widetilde{\mathbf{A}}^0_t)。经过 M 个 Bridge Attention 层的迭代精炼，最终由 LN + MLP 层输出动作块 (\mathbf{A}^{M-1}_t)。[6]

Policy 只在各层接受来自 VLM 对应层的条件注入，VLM 骨干只需运行一次，不参与 Policy 的逐步迭代，保证了极低的推理延迟。

3. Bridge Attention：核心注意力模块

每个 Policy 层由一个 Bridge Attention 模块和一个 FFN 组成。Bridge Attention 内部包含两个 Cross-Attention 和一个 Self-Attention：[^9][6]

第一路 Cross-Attention（注入 Raw features）：

[
\text{CA}_1!\left(\widetilde{\mathbf{A}}^\tau_t,; \sigma_1(\mathcal{C}_t^{\mathcal{R}})\right)
]

其中 (\sigma_1) 为 MLP 映射，动作潜变量 (\widetilde{\mathbf{A}}^\tau_t) 作为 Query，对应层 Raw features 作为 K,V。为避免语义过饱和的原始特征干扰动作生成，引入可学习参数 (g) 对注入强度进行调制：

[
\hat{\mathbf{A}}^\tau_{\text{raw}} = \tanh(g) \cdot \text{CA}_1(\cdot) + \widetilde{\mathbf{A}}^\tau_t
]

这一设计允许网络在训练中自动学习每一层 Raw features 的适当注入比例。[^9][6]

第二路 Cross-Attention（注入 ActionQuery features + 本体感知状态）：

ActionQuery features (\mathcal{C}_t^{\mathcal{AQ}}) 与本体感知状态 (\sigma_0(\mathcal{P}_t)) 拼接后，通过 MLP (\sigma_2) 得到 K₂, V₂；更新后的动作潜变量作为 Q₂ 进行第二路注意力。ActionQuery features 无需调制，可全量注入（对应 Key Finding 6）。[^6]

Self-Attention（动作内部一致性）：

最终的 Self-Attention 允许动作序列内的各时间步相互交互，保证生成动作块的时序一致性。[^9]

整体 Bridge Attention 的输出：

[
\widehat{\mathbf{A}}^\tau_t = \text{SA}!\left(\hat{\mathbf{A}}^\tau_{\text{raw}} + \text{CA}_2(\cdot)\right)
]

经过残差 FFN 得到 (\widetilde{\mathbf{A}}^{{\tau+1}_t)，进入下一层。[}6]

4. 训练策略：双路并行更新

VLM 骨干（Qwen2.5-0.5B + Prismatic）： 通过 LoRA 进行微调（rank=64），视觉编码器（DINOv2 + SigLIP 双编码器）保持冻结。

Policy 网络（97M 参数）： 完全从零开始训练。ActionQuery tokens 也从零初始化后联合更新。

训练目标： 直接使用 L1 损失（L1-based policy），监督预测动作块与 ground-truth 动作的误差。与 DiT-based 扩散策略相比，L1 方式在 VLA-Adapter 框架下的推理速度和成功率更优。[^4]

训练支持从 10GB（RTX 2080Ti/3060）到 80GB（H100/A100）各级显卡，最低只需 9.6 GB VRAM（batch_size=1, lora_rank=64）。[^8]

冻结骨干时的强鲁棒性

VLA-Adapter 的一个重要发现是：即使完全冻结 VLM 骨干（只训练 ActionQuery tokens 和 Policy 网络），仍能保持强劲性能。在 LIBERO-Long 上：

OpenVLA-OFT（冻结骨干）：成功率 0.0%（彻底失效）
SmolVLA（冻结骨干）：成功率 77.0%
VLA-Adapter（冻结骨干）：成功率 86.4%[^4]

这一结果揭示了 VLA-Adapter 桥接范式的本质优势：通过多层 Raw features 和 ActionQuery 的联合注入，Policy 网络可以充分利用 VLM 的冻结表示，无需通过 LoRA 修改 VLM 权重来适配动作域。这使得 VLA-Adapter 在计算资源更有限的场景（无法微调骨干）下依然实用。[^3]

实验结果

LIBERO 基准（全方位 SOTA）

在 LIBERO 四套任务上，VLA-Adapter 以 0.5B 参数规模取得了跨越性能：[^8]

规模	方法	Spatial	Object	Goal	Long	Avg.
7B	OpenVLA	84.7%	88.4%	79.2%	53.7%	76.5%
7B	OpenVLA-OFT	97.6%	98.4%	97.9%	94.5%	97.1%
7B	UniVLA	96.5%	96.8%	95.6%	92.0%	95.2%
3B	π₀	96.8%	98.8%	95.8%	85.2%	94.2%
2.2B	SmolVLA	93.0%	94.0%	91.0%	77.0%	88.8%
2B	GR00T N1	94.4%	97.6%	93.0%	90.6%	93.9%
0.5B	VLA-OS	87.0%	96.5%	92.7%	66.0%	85.6%
0.5B	VLA-Adapter	97.8%	99.2%	97.2%	95.0%	97.3%
0.5B	VLA-Adapter-Pro	99.6%	99.6%	98.2%	96.4%	98.5%

VLA-Adapter 超过了同规模 VLA-OS 29.0%（LIBERO-Long），并与 14× 更大的 OpenVLA-OFT 基本持平，在 LIBERO-Long 上还略有超出。[^2][4]

CALVIN ABC→D 基准

规模	方法	1	2	3	4	5	Avg. len
7B	OpenVLA-OFT	96.3%	89.1%	82.4%	75.8%	66.5%	4.10
7B	OpenHelix	97.1%	91.4%	82.8%	72.6%	64.1%	4.08
1.5B	VPP	95.7%	91.2%	86.3%	81.0%	75.0%	4.33
0.57B	Seer-Large	96.3%	91.6%	86.1%	80.3%	74.0%	4.28
0.5B	VLA-Adapter	99.1%	94.6%	88.8%	82.8%	76.5%	4.42
0.5B	VLA-Adapter-Pro	98.5%	95.0%	90.5%	85.3%	80.0%	4.50

VLA-Adapter 在 CALVIN 上达到 4.42 平均序列长度，超越所有 Tiny-scale 和多数 Large-scale 方法。[^8]

推理效率（关键亮点）

方法	参数量	吞吐量（Hz）	推理延迟（8-dim action chunk）	训练 VRAM
OpenVLA-OFT	7B	71.4 Hz	~140ms	62 GB
VLA-Adapter	0.5B	219.2 Hz	0.036s	24.7 GB

VLA-Adapter 的吞吐量约为 OpenVLA-OFT 的 3 倍，VRAM 使用量降低约 60%，是当时报告的最快推理速度。在极度资源受限情况下（batch_size=1），仅需 9.6 GB VRAM 即可完成训练。[^3][2][^8]

与同期工作的定位对比

维度	SmolVLA	TinyVLA	SpatialVLA	VLA-Adapter
参数规模	2.2B	~0.5B	4B	0.5B
机器人数据预训练	需要	需要	需要	不需要
冻结骨干性能	77.0%（Long）	无报告	无报告	86.4%（Long）
推理吞吐量	不报告	不报告	不报告	219.2 Hz
LIBERO 平均	88.8%	-	78.1%	97.3%
最低训练 VRAM	未报告	未报告	未报告	9.6 GB

VLA-Adapter 是第一个以 0.5B 参数、无机器人预训练、单消费级 GPU 实现与 7B 模型比肩性能的工作。[^2][4]

社区影响与延伸工作

VLA-Adapter 发布后迅速引发关注，在 HuggingFace 日榜排名第一、周榜第二、月榜第三。截至 2026 年 3 月，GitHub 已积累 1,400+ Stars。[^8]

下游引用与扩展：

MergeVLA（2025）：基于 VLA-Adapter 架构探索多任务模型合并，指出其 Self-Attention 层不利于权重合并，提出去掉 Self-Attention 并替换 tanh 门控为 sigmoid 的修改方案，OOD 成功率提升 13.4%[^10]
RD-VLA（2026）：基于同样的 Qwen2.5-0.5B + Prismatic 骨干，探索隐式 Test-Time Compute 扩展，与 VLA-Adapter 的 0.5B 路线并行[^11]
CORAL、NS-VLA 等多篇 2026 年新工作均将 VLA-Adapter 作为 Tiny-scale 方法的代表基线[^12][13]

团队 Roadmap（TODO 已公布）： VLA-Adapter++（更强版本）、支持更多 VLM 骨干（π0.5 等）、Diffusion Transformer 策略头、RL 后训练，以及双系统兼容性探索。[^8]

局限性与开放问题

未在大规模多任务设置上验证：当前实验集中于 LIBERO 和 CALVIN 的 per-task fine-tuning，尚未在真正多任务统一训练范式下评估泛化能力[^4]
对完全陌生物体的泛化能力受限：由于骨干规模小且无大规模机器人预训练，对 out-of-distribution 物体的泛化仍依赖微调数据质量[^3]
真实场景评估规模有限：真实机器人实验相对有限，能否在多样化的非结构化场景中保持优势还需更充分验证
7B 模型的"世界知识"优势：VLA-Adapter 在操控任务上与 7B 持平甚至更好，但在需要复杂推理、常识理解的任务中，0.5B 骨干的世界知识深度天然受限[^3]

References

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - Based on these insights, we propose a lightweight Policy module with Bridge Attention, which autonom…
An Effective Paradigm for Tiny-Scale Vision-Language-Action Model - Overall Performance (LIBERO): With a tiny 0.5B-parameter backbone, VLA-Adapter achieves SOTA-level a…
VLA-Adapter Explained: 0.5B Model Beats 7B Giants - A lightweight module allows a 0.5B model to match 7B robot performance after only 8 hours of trainin…
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - In this paper, we investigate how to effectively bridge vision-language (VL) representations to acti…
[PDF] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - On this basis, we built a Policy network with Bridge Attention to autonomously inject the optimal co…
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language … - VLA-Adapter transfers the sufficient multimodal information to the proposed Policy Network for actio…
VLA-Adapter - We investigate how to effectively bridge vision-language (VL) representations to action (A) space. A…
VLA-Cache: Efficient Vision-Language-Action Manipulation … - GitHub - VLA-Cache introduces a lightweight and effective caching mechanism by detecting unchanged visual tok…
VLA-Adapter: Bridging VL to Robotic Action - Emergent Mind - The policy network consists of multiple layers: each one refines the latent “action chunk” through a…
: Cross-Skill Model Merging Toward a Generalist Vision-Language … - … VLA-Adapter [45] architecture (Fig. 1), which consists of L L transformer blocks trained from sc…
Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision … - We compare RD-VLA against state-of-the-art VLA methods on the LIBERO and CALVIN benchmarks. Table I …
NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models - (2025) Vla-adapter: an effective paradigm for tiny-scale vision-language-action model. arXiv preprin…
CORAL: Scalable Multi-Task Robot Learning via LoRA Experts - arXiv - For instance, VLA-Adapter [46] introduces a lightweight bridge attention mechanism to connect vision…

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

魔音漫创源码解析：扩展指南：如何在 moyin-creator 中接入自定义 AI 大模型供应商？

本文介绍了如何为开源AI影视生产工具魔音漫创(MoyinCreator)接入自定义AI大模型的方法。主要内容包括：1)分析核心架构，指出AI调用通过适配器模式实现；2)详细步骤：定义供应商类型、编写Provider适配器、注册工厂类、配置前端界面；3)测试验证方法。该方案采用模块化设计，支持灵活接入不同AI模型，不仅适用于大语言模型，也可扩展至图像和视频生成接口。文章还提供了流式传输优化等实用建议

AtomGit开源社区

把 BAPI 里的校验能力接进 RAP，Validation、Simulation Mode 与消息回传的完整落地思路

AtomGit开源社区

基于 API 的商品类目自动分类：NLP + 规则引擎的混合方案

电商商品类目分类面临人工效率低、规则泛化差、NLP模型不可控等痛点。本文提出API服务化架构+NLP语义模型+规则引擎的混合方案：规则引擎精准处理标准商品，NLP模型处理模糊语义，后置规则校验纠偏，通过标准化API输出统一分类结果。该方案实现毫秒级响应，支持多业务系统对接，形成分类-审核-迭代闭环，有效提升分类精度与效率，适用于跨境铺货、供应链管理等场景，解决了传统方案的泛化弱、迭代慢等问题。