VLA的下一步怎么走？CVPR 2026给出了四个关键词

稀疏激活的LoRA适配器：通过引入任务掩码（Task Masks），MergeVLA能够选择性地激活对当前任务有贡献的合并参数，同时抑制那些会误导其他任务的参数。
纯交叉注意力动作专家：模型对动作专家进行了重新配置，移除了自注意力传播，仅依赖交叉注意力路径。
测试时任务路由器：在推理阶段，当任务身份未知时，MergeVLA采用了一个无需训练的任务路由器。

在真实的SO101机械臂上，MergeVLA实现了高达90.0%的成功率，而且展现出了跨任务、跨环境和跨具身的强大泛化能力。

▲MergeVLA架构概览。

02 See, Plan, Rewind：赋予VLA模型进度感知与闭环纠错能力

在日常生活中，人类在执行抓取和操作任务时，大脑会自然而然地将目标分解为多个中间阶段性目标，规划手部轨迹，并持续监控执行进度——这一切几乎是在潜意识中完成的。

如何让机器人像人类一样，拥有明确的、基于空间的进度感知并实现自主闭环纠错，成为了一个亟待解决的挑战。

技术亮点：

为了赋予VLA模型这种认知能力，中国科学技术等研究团队提出了 See, Plan, Rewind (SPR) 框架，通过一个持续的闭环周期来实现稳健的机器人操作：

细粒度空间子任务规划（See & Plan）：模型不再仅仅依赖抽象的语言指令，而是将任务分解为一系列具体的2D空间航点（waypoints）。在“See”阶段，模型识别剩余的子任务并输出其2D空间坐标；在“Plan”阶段，模型规划出从当前夹爪位置到下一个子目标航点的2D轨迹。
进度驱动的异常检测与回溯（Rewind）：在执行过程中，SPR通过一个状态记录器（State Recorder）持续监控预测的子任务数量和规划轨迹。如果发现子任务数量长时间未减少（如反复抓取失败），或轨迹长时间停滞（如发生碰撞），就会触发“Rewind”机制。
无需额外数据的恢复策略：Rewind机制会让机器人执行一个简短的学习过的撤回动作，使其脱离错误状态，恢复到正常的分布内状态（in-distribution states），然后再重新开始See-Plan循环。

▲SPR框架概览。

03 AtomicVLA：解锁机器人原子技能学习的无限可能

现实世界中的机器人任务往往涉及长时域、多步骤的问题求解，这要求机器人具备持续获取新技能的泛化能力。

现有的VLA模型大多使用在聚合数据上训练的单体动作解码器。这种设计不仅扩展性差，而且在增量学习新技能时，经常会与之前掌握的技能产生严重干扰，导致“灾难性遗忘”，从而阻碍了机器人终身学习能力的发展。

技术亮点：

针对这一挑战，中山大学等团队提出了 AtomicVLA，这是一个将任务规划与动作执行无缝统一的端到端框架：

▲AtomicVLA管道与技能引导混合专家架构。

统一的“思考-行动”架构：模型首先从输入观察中推断当前执行状态，动态激活思考模块或行动模块。

在任务初始化或子技能转换时，模型会进行“思考”，生成任务链并输出原子技能抽象；在行动阶段，则根据技能抽象生成精确的电机控制信号。

技能引导的混合专家（SG-MoE）：为了实现持续学习，AtomicVLA构建了一个可扩展的原子技能库。该库包含一个共享专家和多个专用技能专家，每个专家都专精于掌握一种通用且精确的原子技能。
灵活的路由与持续扩展：通过精心设计的技能编码机制和可扩展的路由编码器，当引入新技能时，只需训练对应的新专家和相关的路由参数，现有专家保持不变。这有效防止了灾难性遗忘，确保了技能的稳定增长。

在真实世界Franka机器人的长时域任务和持续学习实验中，AtomicVLA分别稳定超越基线18.3%和21%，充分验证了原子技能抽象在复杂任务中的巨大潜力。

04 RehearseVLA：基于物理一致世界模型的VLA模拟后训练

虽然强化学习（RL）的后训练被证明是解决数据不足的有效途径，但在真实的物理世界中，环境往往是不可重置的。例如，在工业自动化等高风险领域，机器人的错误交互可能会导致昂贵的设备损坏，这使得在真实环境中进行大量的试错学习变得极不现实。

技术亮点：

为了寻找一个既能避免物理风险，又能提供丰富语义理解的“理想测试床”，阿里巴巴等研究团队提出了 RehearseVLA，一个基于世界模型的低成本强化学习后训练框架：

物理一致的世界模拟器：该框架使用基于视频的世界模型替代真实的物理交互。它作为一个交互式的未来帧预测器，能够合成以动作为条件的图像序列。
VLM引导的即时反射器（Instant Reflector）：这是一个语义感知的奖励模块，它通过评估预测视觉帧与语言指令之间的语义对齐度，为模型提供连续的密集奖励信号。
实时任务终止机制：即时反射器还能实时预测动作是否完成。一旦确认成功执行（例如到达目标状态），它会立即终止动作序列，有效防止了成功后多余的破坏性动作。

在复杂的机器人操作任务中，该方法有效克服了传统VLA数据效率低、受限于安全约束以及执行效率低下等问题，为资源受限环境下的VLA后训练提供了一种高度实用且可扩展的解决方案。

▲RehearseVLA框架概览。

05 ACoT-VLA：基于“动作思维链”的通用策略学习

抽象的语义或视觉表征往往无法传递精确执行底层动作所需的细粒度知识，最有效的推理方式应该是直接在动作空间中进行审议。

技术亮点：

基于这一洞察，北航、智元研究团队提出了动作思维链（Action Chain-of-Thought, ACoT）范式，并设计了ACoT-VLA架构：

显式动作推理器（EAR）：这是一个轻量级的Transformer模块。它基于多模态观察，直接合成粗粒度的参考运动轨迹，在动作空间内提供显式、可执行的指导。
隐式动作推理器（IAR）：该模块通过对下采样的多模态表示与可学习查询之间应用交叉注意力建模，提取潜在的动作先验，提供隐式的行为灵感。
动作引导预测（AGP）头：通过交叉注意力机制，协同整合显式和隐式两种动作指导，将其作为最终去噪过程的条件，从而生成平滑且精确的可执行动作序列。

▲图1 |ACoT-VLA架构总览。

06 ManualVLA：从“是什么”到“怎么做”，赋予机器人长时域任务规划能力

当人类面对一堆散乱的乐高积木和一张成品图纸时，我们能够直觉地在脑海中分解步骤，推断出“先拼底座，再拼外墙”的操作手册，并逐步完成拼装。

然而，对于现有的视觉-语言-动作（VLA）模型来说，这种需要严格对齐预定义最终状态的长时域任务（如乐高拼装或物体重排）却是一个巨大的挑战。

为了弥补这一能力鸿沟，研究人员试图赋予VLA模型类似人类生成操作手册的能力，从而将抽象的最终目标转化为一系列连贯、精确的执行步骤。

技术亮点：

为了实现这一目标，北京大学等研究团队提出了 ManualVLA，这是一个基于混合专家Transformer（MoT）架构的统一VLA框架：

规划与动作双专家协同：ManualVLA在统一框架内集成了两个专家模块。规划专家（Planning Expert）负责处理人类指令、当前图像和目标图像，生成包含子目标图像、2D位置提示和文本指令的多模态“操作手册（Manual）”；动作专家（Action Expert）则接收这些手册信息，预测精确的底层动作。
手册思维链（ManualCoT）推理：模型引入了独特的ManualCoT机制。在显式层面上，手册中的位置指示器被作为视觉提示直接嵌入到动作专家的观察中；在隐式层面上，规划专家生成的手册token通过跨任务共享注意力机制，为动作生成提供潜在的上下文指导。
3D高斯数字孪生工具包：由于训练规划专家需要大量的中间状态数据，而真实世界的数据收集成本极高。团队巧妙地开发了一个基于3DGS的高保真数字孪生工具包。该工具包能够自动合成大量的多模态手册数据，彻底解决了数据收集的瓶颈。

得益于手册条件提供的丰富信息，ManualVLA仅需在约100条真实轨迹上进行微调，就能实现高度可泛化的操作。同时，它在其他通用操作任务上也保持了最先进的性能，证明了该框架在复杂推理和精确控制之间的完美平衡。