最快125FPS实时推理！深度解读最近爆火的Realtime-VLA FLASH

Tom Hardy

429人浏览 · 2026-05-15 17:30:18

Tom Hardy · 2026-05-15 17:30:18 发布

在具身智能的研究前沿，扩散式视觉-语言-动作模型（Diffusion-based VLAs）因其在连续动作空间中出色的多模态分布建模能力，已成为复杂机器人操作任务的主流范式。然而，高昂的完整推理延迟导致的“动作滞后”问题，严重制约了此类模型在真实、动态场景中的部署。

针对具身智能的实时性（Real-time）挑战，原力灵机（Dexmal）研究团队进行了一系列系统性探索，并相继发布了 Realtime-VLA V1 与 V2。 在 V1 中，团队聚焦底层系统与算子优化，通过消除推理计算冗余，使百亿参数大模型在单张 RTX 4090 上达到了 30fps 的执行速度；在 V2 中，团队深入物理执行与控制策略层面，提出了基于人类先验数据的轨迹平滑与速度规划算法，缓解了机械臂的硬件延迟。

近日，原力灵机正式推出了该系列的第三项技术成果——《Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs》。该研究从模型生成算法的最底层切入，提出了业界**首个面向扩散式视觉-语言-动作模型的投机推理（Speculative Inference）框架。**FLASH 将大语言模型中成熟的“先快速投机、再验证采用”机制，成功拓展至机器人连续动作生成场景。实验表明，该框架在不牺牲模型可靠性的前提下，实现了 3.04 倍的平均推理加速，最快一轮推理速度从30fps提升至125fps，为延迟敏感型具身任务提供了全新的技术路径。

原文链接：最快125FPS实时推理！深度解读最近爆火的Realtime-VLA FLASH

论文地址：https://arxiv.org/abs/2605.13778

GitHub地址：https://github.com/dexmal/realtime-vla-flash

项目地址：https://dexmal.github.io/realtime-vla-flash/

01.扩散式 VLA 在实时控制中的结构性瓶颈

在实际的机器人系统部署中，控制器的运行频率通常远高于大模型的推理频率。为了弥补这一频率鸿沟，现有的 dVLA（如 π₀）普遍采用“开环动作分块（Action Chunking）”策略：模型一次性预测一个包含多步未来动作的序列，机器人执行其中部分前缀动作后，再利用最新的环境观测触发下一轮重规划。

尽管这种设计降低了重规划的频率，但并未改变其根本痛点：每一轮重规划，系统都必须完整执行一次高成本的模型推理。

以 π₀ 为例，一次完整的推理包含三个阶段：图像编码（Image Encoder）、视觉语言模型预填充（VLM Prefill）以及多步动作去噪（Action Denoise）。在 NVIDIA RTX 4090D 上的 Roofline 性能分析显示，这一完整流程耗时约 58.0 毫秒。

Realtime-VLA FLASH 总览

这种高延迟直接导致了动作滞后（Action Lag）。在静态桌面任务中，系统状态变化缓慢，滞后的影响并不显著。但在抓取传送带上快速移动的物体、或应对外界突发干扰等动态场景中，机器人在等待新动作生成时，往往还在执行基于数十毫秒前“旧画面”生成的动作。画面与动作的脱节，最终导致空间错位与任务失败。

如何打破“高频重规划”与“高推理延迟”之间的矛盾？这正是 Realtime-VLA FLASH 试图解决的核心问题。

02.投机推理向连续动作空间的迁移

投机推理在大语言模型和自回归 VLA 领域已被证明是一种有效的加速手段。其核心思想是引入一个轻量级的草稿模型（Draft Model）生成候选序列，再交由大参数的主模型进行并行验证，以此减少昂贵的自回归解码步骤。

然而，将这一范式扩展至扩散式 VLA 面临着非平凡的理论挑战。传统的投机推理依赖于三个先决条件：

有意义的草稿生成机制；

可并行的验证过程；

基于 Token 级别概率的明确接受准则。

扩散模型在连续空间中通过迭代去噪生成动作，没有离散的 Token，去噪过程天然呈现串行依赖，且缺乏显式的似然估计。如果无法找到一种低成本的方法来验证连续的草稿动作块，投机推理机制就会失效，不得不退化为完整的串行去噪。

FLASH 框架的理论突破在于，其巧妙挖掘并利用了“流匹配”训练机制中的几何结构。

在流匹配的训练过程中，模型是沿着高斯噪声到目标动作的线性插值路径，学习局部速度场（Velocity Field）的。这意味着，给定一段由草稿模型生成的连续动作块，我们不需要执行完整的串行去噪即可验证其可靠性。

具体而言，FLASH 可以将这段草稿动作与高斯噪声进行插值，构造出几个中间时间步的状态。随后，利用主模型的动作专家并行地评估这些中间状态的速度场，并根据速度场重建动作端点。最后，检查这些重建的端点是否与初始的草稿动作保持一致。这种基于流匹配插值路径的一致性检验，为连续动作的并行验证提供了坚实的数学基础与可操作的工程手段。

03.双路径运行时与阶段感知回退

基于上述理论洞察，原力灵机团队设计了 Realtime-VLA FLASH 的双路径推理框架（Dual-path Inference Framework）。该架构不改变原有主模型的权重，而是在其旁侧构建了一条高效的投机路径。

轻量推理路径由三个核心模块构成：

1. 轻量级草稿动作生成（Draft Action Generation）

为了确保投机路径具备显著的速度优势，草稿模型必须极度轻量。FLASH 的草稿模型仅由单个 Gemma Block 及一个线性动作头组成，参数量约 110M（仅为 2.7B 主 VLM 的约 4%）。

在执行快速路径时，系统跳过主模型的 VLM 预填充阶段，将当前图像特征输入草稿模型。草稿模型通过引入一系列可学习的“动作查询槽位（Action Queries）”，利用现有的视觉上下文，在一次前向传播中并行输出完整的候选动作块。

在这里插入图片描述

Realtime-VLA FLASH框架与草稿模型架构

2. 多步并行验证（Multi-step Parallel Verification）

生成草稿后，系统构造出若干个流匹配验证时间步（例如 τ=0.2, 0.5 等）。主模型的 Action Expert 在这些时间步上并行预测局部去噪速度，并估计出对应的动作端点。

FLASH 随后计算估计端点与草稿动作之间的连续空间距离。如果某段动作前缀在所有验证时间步上的距离误差均小于设定的阈值 δ，该前缀即被视为“通过验证”并可供执行。如果未通过验证（接受前缀长度为零），系统则立即回退至完整路径。
在这里插入图片描述

并行验证机制原理解析

3. 阶段感知回退机制（Phase-aware Fallback）

这是保证 FLASH 在提升速度的同时，不牺牲任务级可靠性的关键设计。

在机器人的实际操作轨迹中，不同阶段对动作精度的要求存在显著差异。在长距离的平滑运动阶段，观测特征变化缓慢，系统对草稿模型的微小误差具有较高的容忍度；然而，在接近目标物体、执行夹爪开合等精细调整阶段，细微的位置或姿态偏差极易被放大，最终导致任务失败。

在这里插入图片描述

阶段感知回退的3D轨迹对比图

因此，FLASH 引入了一种基于物理语义的启发式回退规则：系统将夹爪状态的切换（Gripper Switches，如夹爪由开转闭）视为进入精度敏感阶段的强信号。

如果在验证过程中检测到候选动作块内包含夹爪状态的切换，系统将主动判定当前进入了精细调整阶段。此时，即使草稿动作在数值上通过了距离验证，框架也会强制跳出快速路径，回归到高保真度的完整推理路径中。这种机制有效避免了误差在关键节点的累积。

04.延迟与成功率的极限平衡

为了系统性地评估框架性能，团队在标准的 LIBERO 机器人仿真环境（包含 Spatial, Object, Goal, 10 四个测试套件）中进行了广泛的对比实验。所有在线推理实验均在单张 NVIDIA RTX 4090D 上完成。

实验对以下几种方法进行了对比：原生的 Torch-π₀、经过算子优化的 Triton-π₀、添加了 FLASH 框架的 FLASH-π₀，以及叠加了算子优化的 FLASH+Triton-π₀。
在这里插入图片描述

仿真环境LIBERO评估结果表

结果表明，FLASH 在极大地压缩推理延迟的同时，维持了极高的任务成功率：

极致延迟压缩：原生完整推理（Torch-π₀）的平均单轮耗时为 58.0 毫秒。而 FLASH 的推理轮次最快仅需 7.8 毫秒。

任务级加速比：在结合 Triton 优化后，FLASH+Triton-π₀ 将任务级平均推理延迟降至 19.1 毫秒，实现了高达 3.04 倍的综合加速。每动作延迟（Per-action Latency）同步从 5.0ms 降至 1.9ms。

高可靠性保持：在获得了超过 3 倍加速的背景下，得益于阶段感知回退机制，FLASH 在四个 LIBERO 套件上的平均任务成功率仅出现了 0.3 个百分点的微小下降（由基线的 94.1% 降至 93.8%）。

高接受率：详细的统计数据指出，在整个重规划过程中，有约 66.8% 的轮次完全由快速路径（Flash Path）处理，且被接受的草稿动作前缀平均覆盖了重规划窗口的 69.7%。

05.真实世界验证：高速动态场景下的唯一可行解

除了静态的仿真环境，评估系统延迟最严苛的场景在于真实物理世界中的高动态任务。为此，原力灵机团队在实体 UR5 机械臂上，设计了传送带动态分拣任务（Conveyor-belt Sorting）。

在这一任务中，机器人需要实时响应，抓取传送带上不断移动的物体（包括容错率较高的玩具狗，以及对几何位姿要求极为苛刻的卷梳），并在其脱离可达工作区前完成分拣。为了隔离异步执行等工程技巧对结果的干扰，所有测试方法均被限制在同一套同步推理循环下运行。

实验分别在 10 m/min（中速）、13 m/min（高速）以及 15 m/min（超高速）三种传送带速度下进行测试。
在这里插入图片描述

真实世界传送带分拣实验结果

真实物理测试的结果呈高度分化态势，传送带速度的提升成为了放大模型推理延迟缺陷的“放大镜”：

中速（10 m/min）：同步推理的 JAX-π₀ 已经表现出明显的动作滞后，在发刷抓取中仅取得 50% 成功率；而 FLASH+Triton-π₀ 成功率达到 90%。

高速（13 m/min）：随着物体移动加快，JAX-π₀ 的成功率归零。仅有算子优化的 Triton-π₀ 成功率也骤降至 10%。相比之下，FLASH 依然维持着 30%-50% 的完成度。

超高速极限测试（15 m/min）：在此极速条件下，所有依赖完整重规划的基准方法（JAX-π₀, Triton-π₀）由于更新动作严重过时，导致夹爪闭合时物体早已离开，成功率全部为 0%。在这一极限场景下，FLASH+Triton-π₀ 成为唯一能够保持非零成功率（最高 20%）的方法。

这些实测数据有力地证实了研究的初衷：在实际的物理反馈控制环路中，有效降低策略推理延迟，能够直接且显著地拓宽具身模型在反应式、延迟敏感型任务中的操作边界。

结论与未来展望

Realtime-VLA FLASH 框架不仅为扩散式 VLA 提出了一套行之有效的投机推理机制，更重要的是，它为具身智能的部署引入了一种新的计算资源调配哲学：在不影响最终物理执行结果的前提下，系统应尽可能避免在简单、平滑的运动阶段调用冗余的全参数推理。

这种算法层面的优化，与原力灵机此前在底层算子（V1）和物理控制（V2）上的研究形成了完整的互补关系。它不修改原始模型的流匹配训练范式，无需重新进行复杂的策略蒸馏（Distillation），且能够与现有的 Triton 算子优化、模型量化以及剪枝技术无缝叠加。

在论文的最后，研究团队也客观指出了当前框架的局限性并明确了未来的攻关方向。目前，FLASH 的验证阈值与时间步选择仍依赖于启发式的超参数设定。未来，团队计划开发一种轨迹自适应的验证机制：在观测快速变化或执行高曲率运动时自动收紧验证标准，而在平滑空间放宽标准。

此外，随着具身大模型向端侧设备（Edge Devices）的下沉，内存带宽和功耗将成为比绝对算力更为严苛的限制因素。VLA-Perf 的研究表明，大模型在端侧推理时极易陷入内存受限（Memory-bound）的困境。FLASH 框架通过大幅减少全路径的推理调用，能够从根本上降低内存的读写流量与整体功耗。这一特性的挖掘，有望让高参数量的通用具身大模型，真正、稳定地运行在资源受限的边缘机器人计算平台上。