论文信息: NeurIPS 2025 Poster | arXiv:2502.02175 | 作者:Siyu Xu, Yunke Wang, Chenghao Xia, Dihao Zhu, Tao Huang, Chang Xu(悉尼大学 & 上海交通大学)


概述

VLA(Vision-Language-Action)模型将视觉感知与语言指令直接映射为机器人动作,具备强大的多模态推理能力。然而,其巨大的计算开销在需要快速决策的实时机器人控制中构成严峻挑战。VLA-Cache 是一种 training-free 推理加速方法,通过跨帧自适应缓存与复用静态视觉 Token,消除冗余计算,在不修改模型结构、无需重新训练的前提下实现约 1.7× CUDA 延迟加速15% 控制频率提升,任务成功率几乎不损失.[1][2][3][4]


核心动机

VLA 推理的计算瓶颈

现有 VLA 模型(如 OpenVLA、CogAct)通常以大型 LLM(LLaMA、Gemma)作为 decoder 骨干,而语言解码器(language decoder)在整体推理中占据主导计算成本。现有的通用加速方案(量化、剪枝、早退)往往需要架构修改或重新训练,且缺乏针对 VLA 任务特性的专门设计。[^5]

时序冗余(Temporal Redundancy)

机器人操控是一个连续决策过程,相邻帧之间的视觉输入往往高度相似——尤其是背景区域,几乎完全静止。大量视觉 Token 在每个时间步都被从头重新计算,这些冗余计算既浪费算力,又不提供新的有效信息。这一关键洞察构成了 VLA-Cache 的核心动机:能否跨帧复用静态视觉 Token 的 KV 表示?[2][5]

与只在单帧内做 Token 剪枝/合并的现有 VLM 加速方法(FastV、SparseVLM、ToMe)不同,VLA-Cache 利用跨帧时序冗余进行加速,更契合机器人控制闭环特性.[2][5]


方法详解

VLA-Cache 包含三个核心模块,依次构成完整的推理加速流水线:

1. 静态 Token 选择(Static Token Selection)

在每个时间步 $ t $,将当前帧图像划分为 $ N \times N $ 个不重叠 patch,与上一帧对应 patch 计算 余弦相似度:[^5]

Sim  ⁣ ( P t i , j , P t − 1 i , j ) = P t i , j ⋅ P t − 1 i , j ∥ P t i , j ∥ 2 ⋅ ∥ P t − 1 i , j ∥ 2 \text{Sim}\!\left(\mathbf{P}_t^{i,j}, \mathbf{P}_{t-1}^{i,j}\right) = \frac{\mathbf{P}_t^{i,j} \cdot \mathbf{P}_{t-1}^{i,j}}{\|\mathbf{P}_t^{i,j}\|_2 \cdot \|\mathbf{P}_{t-1}^{i,j}\|_2} Sim(Pti,j,Pt1i,j)=Pti,j2Pt1i,j2Pti,jPt1i,j

若某 patch 的相似度超过阈值 $ \tau $,则认为其在视觉上是静态的。进一步用 Top-k 筛选保留最稳定的 token 集合:[^5]

P static = Top- k  ⁣ ( { P t i , j ∣ Sim  ⁣ ( P t i , j , P t − 1 i , j ) ≥ τ } ) \mathcal{P}_{\text{static}} = \text{Top-}k\!\left(\left\{\mathbf{P}_t^{i,j} \mid \text{Sim}\!\left(\mathbf{P}_t^{i,j}, \mathbf{P}_{t-1}^{i,j}\right) \geq \tau\right\}\right) Pstatic=Top-k({Pti,jSim(Pti,j,Pt1i,j)τ})

实验中默认设置 $ \tau = 0.996 $,top-k = 100(共 256 个视觉 token);在真实机器人环境中适当降低至 $ \tau = 0.85 $ 以适应噪声.[^2]

2. 任务相关 Token 过滤(Task-Relevance Filtering)

关键问题:视觉上静态的 token(如机械臂末端、目标物体附近)虽然像素变化微小,但在语义上高度重要——直接复用这些 token 会导致显著性能下降。消融实验表明,仅做静态 token 复用(无过滤)会使成功率从 84.4% 骤降至 74.2%。[2][5]

VLA-Cache 通过 decoder 的文本到视觉的跨模态注意力分数来识别任务相关 token:[^5]

A vis-text l = A l [ : ,    v start : v end ,    t start : t end ] \mathbf{A}^l_{\text{vis-text}} = \mathbf{A}^l[:,\; v_{\text{start}}:v_{\text{end}},\; t_{\text{start}}:t_{\text{end}}] Avis-textl=Al[:,vstart:vend,tstart:tend]

对多个 decoder 层的注意力取均值,得到每个视觉 token 的任务相关性分数 $ \mathbf{S}{\text{task-relevance}} $;将任务相关性超过阈值 $ \tau{\text{task}} $ 的 token 从复用集合中剔除(强制重新计算):[^5]

P reuse = P static    ∖    P task-relevant \mathcal{P}_{\text{reuse}} = \mathcal{P}_{\text{static}} \;\setminus\; \mathcal{P}_{\text{task-relevant}} Preuse=PstaticPtask-relevant

加入此过滤机制后,成功率从 74.2% 恢复至 82.6%.[^2]

3. 逐层自适应 Token 复用(Layer Adaptive Token Reusing)

观察:VLA decoder 不同层的注意力分布差异显著——早期层注意力分散,深层注意力更聚焦。这与 FastV 等工作中对 VLM 的类似观察一致。[^5]

基于各层的注意力(entropy)变化率,动态调整每一层的 token 复用比例:[^5]

  • 定义熵比 $ R^l = (\mathcal{E}^{l-1} - \mathcal{E}^l) / \mathcal{E}^{l-1} $,表示第 $ l $ 层注意力比前一层的聚焦程度
  • 累积熵比决定该层可复用的静态 token 比例 $ \alpha^l $:[^5]

α l = min ⁡  ⁣ ( k ∑ j = 1 l R j ,    1 ) \alpha^l = \min\!\left(k \sum_{j=1}^{l} R^j,\; 1\right) αl=min(kj=1lRj,1)

注意力越聚焦的层(通常是深层),允许复用更多 token,因为此时少量关键 token 承担了大部分信息传递。引入逐层自适应策略后,成功率进一步提升至 83.8%,且 CUDA 延迟几乎不增加.[^2]

4. KV Cache 的跨帧复用机制

在每个时间步 $ t $,对于被选中的复用 token 集合 $ \mathcal{P}_{\text{reuse}} $,直接沿用上一帧的 KV 表示;其余动态 token 正常参与计算:[^5]

K t ( i ) = { K t − 1 ( i ) , i ∈ P reuse W K H t ( i ) , otherwise \mathbf{K}_t(i) = \begin{cases} \mathbf{K}_{t-1}(i), & i \in \mathcal{P}_{\text{reuse}} \\ W_K \mathbf{H}_t(i), & \text{otherwise} \end{cases} Kt(i)={Kt1(i),WKHt(i),iPreuseotherwise

实现上,通过维护 cache_position 数组标记需要重新计算的 token 位置,静态 token 保留原有的位置编码;对重新计算的 token 施加旋转位置编码(RoPE)。该机制完全兼容 Transformer 的标准 KV caching,不改变模型架构,不需要重新训练,可作为即插即用(plug-and-play)的推理优化方案.[2][5]


消融实验

下表展示了各模块对性能的贡献(LIBERO-Spatial,OpenVLA):[^2]

方法 成功率 ↑ CUDA 延迟 (ms) ↓
OpenVLA 基线 84.4% 51.56
+ 静态 Token 复用(无过滤) 74.2% 31.03
+ 任务相关 Token 过滤 82.6% 31.03
+ 逐层自适应策略 83.8% 32.22

这表明三个模块各有不可或缺的作用:静态 token 识别带来大幅加速,任务相关过滤恢复精度,逐层自适应进一步细化平衡。


实验结果

LIBERO 仿真基准

在 LIBERO 的四个任务套件上(Spatial、Object、Goal、Long),对比方法包括 SparseVLM 和 FastV:[^2]

方法 Spatial Object Goal Long 平均 FLOPs (T) ↓ 延迟 (ms) ↓ 控制频率 (Hz) ↑
OpenVLA 84.4% 86.6% 75.6% 53.2% 75.0% 1.864 51.91 4.23
+ SparseVLM 79.8% 67.0% 72.6% 39.4% 64.7% 1.407 83.39 3.72
+ FastV 83.4% 84.0% 74.2% 51.6% 73.3% 1.864 53.28 4.19
+ VLA-Cache 83.8% 85.8% 76.4% 52.8% 74.7% 1.355 31.83 4.59
OpenVLA-OFT 97.8% 97.6% 97.6% 94.2% 96.8% 4.013 79.05 65.10
+ VLA-Cache 98.3% 97.5% 98.3% 95.4% 97.4% 3.097 62.59 78.98

VLA-Cache 将 FLOPs 降低 27.3%,延迟压缩 1.63×,成功率仅下降 0.3%。SparseVLM 和 FastV 因在单帧内做 token 剪枝,破坏了空间保真度,且 VLA 输出 token 序列短(约 7 个动作 token),使其加速收益极为有限甚至负优化。当应用于高频架构 OpenVLA-OFT 时,VLA-Cache 进一步将控制频率从 65.10 Hz 提升至 78.98 Hz,提升约 14 Hz.[^2]

SIMPLER 仿真环境

在 SIMPLER 环境中与 CogAct 基线对比(Google 机器人臂,4 个操控任务):[^2]

设置 方法 平均成功率 FLOPs (T) ↓ 延迟 (ms) ↓ 控制频率 (Hz) ↑
Visual Matching CogAct 74.8% 1.847 54.29 12.42
Visual Matching + VLA-Cache 74.4% 1.496 39.63 14.66
Variant Aggregation CogAct 61.3% 1.807 53.54 12.36
Variant Aggregation + VLA-Cache 62.3% 1.493 39.11 14.48

在使用扩散策略(Diffusion Policy)作为动作头的 CogAct 上,VLA-Cache 仍实现了约 20% FLOPs 降低和 1.37× 延迟加速,验证了其对不同动作头的通用性.[^2]

真实机器人实验(Kinova Jaco2)

在 Kinova Jaco2 机械臂上部署,完成 PickPot、PlaceCube、PutSausage、WipeTable 四项任务:[^2]

方法 PickPot PlaceCube PutSausage WipeTable 平均 FLOPs (T) ↓ 延迟 (ms) ↓
OpenVLA 95.0% 83.3% 80.0% 70.0% 82.1% 1.814 64.16
+ VLA-Cache 90.0% 90.0% 85.0% 73.3% 84.6% 1.303 51.85

真实环境中 VLA-Cache 平均成功率反而提升了 2.4%,研究者分析认为:复用机制过滤掉了冗余视觉 token 的干扰,增强了决策的鲁棒性。[^2]

动态背景鲁棒性测试:引入手部运动等背景噪声后,基线成功率从 95% 降至 80%,而 VLA-Cache 维持了相同的成功率,同时 FLOPs 降低 42%、延迟降低 35%.[^2]


计算复杂度分析

各组件的额外开销均低于标准 Transformer 前向计算:[^5]

  • 静态 token 选择:patch 相似度计算约为 $ \mathcal{O}(H^2) $
  • 任务相关过滤:跨模态注意力聚合约为 $ \mathcal{O}(L_t L_v D) $
  • 逐层熵计算:约为 $ \mathcal{O}(L^2 D) $

每层节省的 FLOPs 约为:

Δ FLOPs layer ≈ 4 L r D 2 + 2 L r 2 D + 2 L r D M \Delta\text{FLOPs}_{\text{layer}} \approx 4L_r D^2 + 2L_r^2 D + 2L_r DM ΔFLOPslayer4LrD2+2Lr2D+2LrDM

其中 $ L_r = \alpha \times |\mathcal{P}_{\text{final}}| $ 为每层实际复用的 token 数量[^5]。由于 VLA 的语言 decoder(如 LLaMA)通常有数十层,跨层累积的节省非常可观。


与相关工作的对比定位

方法类别 代表工作 主要限制 VLA-Cache 的改进
单帧 token 剪枝 FastV, SparseVLM, ToMe 破坏空间保真度;不利用时序信息 跨帧复用,保留空间结构[^5]
架构压缩 RoboMamba, TinyVLA 需要重新训练;泛化性有限 无需训练,即插即用[^2]
量化 QAIL 需要量化感知训练 无需修改参数[^5]
高频架构 π₀-FAST, OpenVLA-OFT 仍存在 decoder 瓶颈 与高频架构互补,直接缓解 decoder 瓶颈[^2]
学习式 token 缓存 LAC (2026) 需要端到端训练(微调) 纯 training-free,零训练成本[^6]

值得关注的是,2026 年发布的 LAC 工作进一步将 token 缓存决策建模为可学习策略优化问题,在 VLA-Cache 的基础上通过可微松弛实现端到端优化,以更高的训练成本换取更优的性能(1.76× 加速,成功率提升 1.9 pp),可视为 VLA-Cache 思路的学习式延伸.[6][7]


局限性与未来方向

VLA-Cache 存在以下潜在局限:[^2]

  1. 动态场景加速收益缩减:背景或物体运动剧烈时,可复用的静态 token 数量减少,加速效果下降(尽管对成功率的影响很小)
  2. 依赖 LLaMA2 架构:当前实验聚焦于以 LLaMA2 为 decoder 的三种开源 VLA 模型(OpenVLA、CogAct、OpenVLA-OFT),对采用 Gemma2(如 π₀)等其他 backbone 的 VLA 系统适用性仍是开放问题
  3. 参数敏感性:相似度阈值 $ \tau $ 和 top-k 在不同环境噪声水平下需要手动调整

未来值得探索的方向包括:将 VLA-Cache 与模型量化/稀疏化结合以获得叠加加速;扩展至具有更丰富动态场景的操控任务(如物体高速运动、多物体交互);以及应用于新兴 VLA 架构(如 OpenVLA-OFT 之外的动作分块框架).[^2]


工程实现

代码已开源:github.com/siyuhsu/vla-cache,项目页面:vla-cache.github.io。[8][9]

实验基于 NVIDIA RTX 4090 GPU,使用 OpenVLA 的标准 256 个视觉 token 配置。真实机器人数据通过 Xbox 手柄遥操作采集,每个任务约 150–200 条轨迹,以 10 Hz 频率收集,使用 LoRA 对 OpenVLA 进行微调(50,000 步).[^2]


References

  1. VLA-Cache: Efficient Vision-Language-Action Manipulation via … - This paper introduces VLA-Cache, a training-free inference acceleration method that reduces computat…

  2. VLA-Cache: Efficient Vision-Language-Action Manipulation … - arXiv - This paper introduces VLA-Cache, a training-free inference acceleration method that reduces computat…

  3. VLA-Cache: Efficient Vision-Language-Action Manipulation via… - This paper proposes VLA-Cache, a training-free inference acceleration method for Vision-Language-Act…

  4. NeurIPS Poster VLA-Cache: Efficient Vision-Language-Action … - This paper introduces VLA-Cache, a training-free inference acceleration method that reduces computat…

  5. VLA-Cache: Towards Efficient Vision-Language-Action Model via … - We propose VLA-Cache, a novel approach that identifies and reuses static tokens across sequential VL…

  6. Learning to Accelerate Vision-Language-Action Models through … - Abstract page for arXiv paper 2602.00686: Learning to Accelerate Vision-Language-Action Models throu…

  7. Learning to Accelerate Vision-Language-Action Models through … - To enhance the inference efficiency of VLA models, we propose a learnable adaptive caching framework…

  8. VLA-Cache: Efficient Vision-Language-Action Manipulation … - GitHub - VLA-Cache introduces a lightweight and effective caching mechanism by detecting unchanged visual tok…

  9. VLA-Cache - This paper introduces VLA-Cache, a training-free inference acceleration method that reduces computat…

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐