VLA(视觉-语言-行动模型)介绍
第一章:引言——为什么VLA是具身智能的关键一步?
如果你正在阅读这篇文章,想必已经对“具身智能”(Embodied AI)有所耳闻。这个领域的目标很纯粹:让智能体(比如机器人)能够像人类一样,在物理世界中感知、思考并采取行动。然而,通往这个目标的道路却充满了挑战。长久以来,机器人似乎只能在高度结构化的工厂里精确重复同一动作,或者在实验室里磕磕绊绊地完成一个简单的“拿取”任务。一旦面对充满不确定性的真实家庭、办公室或户外环境,它们就显得“智力不足”了。
为什么会这样?过去十年深度学习的巨大成功,似乎并未能立刻、完美地迁移到机器人身上。一个根本性的困境在于:传统方法将“智能”拆解得过于零碎,导致从“看懂”到“会做”之间出现了一条难以逾越的鸿沟。
1.1 从“看懂”到“会做”:传统方法的断裂
一个经典的机器人系统通常被设计为一个串行的“管道”(Pipeline),包含三个核心模块:
- 感知(Perception):利用计算机视觉(CV),将传感器的原始数据(如摄像头图像、激光雷达点云)转化为对世界的“理解”。例如,识别出“这是一个红色的杯子”,或者“前方有一个蓝色的椅子”。
- 规划(Planning):基于感知模块提供的信息,利用规则、搜索或传统的规划算法,制定出一个完成任务的宏观“计划”。例如,规划出一条从当前位置到杯子的无碰撞路径:“先向前走0.5米,然后向左转,再伸手抓取”。
- 控制(Control):将规划模块生成的抽象计划,转化为电机、液压等执行器可以理解的底层控制信号(如“左轮转速100rpm,右轮转速95rpm”,“机械臂关节1转动30度”)。
这个“感知-规划-控制”的流程清晰、直观,在很长一段时间内都是机器人学的主流范式。然而,它存在三个致命的缺陷,尤其是在应对复杂、开放的世界时:
- 信息损失与误差累积:每个模块的处理都会造成信息损失。例如,感知模块可能漏掉了一个细小的障碍物;规划模块基于一个有偏差的地图计算路径;最终控制模块执行时,就可能撞上那个未被发现的障碍物。一个环节的微小误差,会像滚雪球一样被下游模块放大,导致任务失败。
- 无法应对长尾场景:规划和控制模块严重依赖工程师预设的规则和模型。对于“地上有一滩水”、“一个孩子突然冲上马路”这种未被明确编程的“长尾”突发事件,系统会完全不知所措。人类司机能凭直觉处理的无数罕见情况,对传统机器人来说是巨大的灾难。
- 缺乏常识推理:传统感知模块能告诉你“这是一个马克杯”,但它无法理解“马克杯通常是用来喝水的”、“它易碎”、“如果里面装了热水会很烫”这类人类共通的常识。这种常识的缺失,使得机器人无法像人一样聪明、安全地与环境交互。
1.2 VLA的定位:大模型浪潮下的新范式
转机出现在大语言模型(LLM)和视觉-语言模型(VLM)的爆发。这些在海量互联网数据上训练出来的模型,展现出惊人的常识推理、泛化和多模态理解能力。它们不仅能识别物体,还能理解物体之间的关系、场景的语义,甚至能像人一样“唠嗑”和“思考”。
于是,一个自然而然的构想诞生了:能否将大模型的“大脑”能力,直接用于指导机器人的物理“身体”行动?
这正是 VLA(Vision-Language-Action,视觉-语言-行动模型) 的核心思想。
为了更清晰地理解VLA的革命性,我们有必要将它与两个容易混淆的概念进行对比:
| 模型类型 | 核心能力 | 输入 | 输出 | 类比 |
|---|---|---|---|---|
| VLM (视觉-语言模型) | 理解与对话 | 图像 + 文本 | 文本 | 一个聪明的“旁观者”,能看懂画面并描述它。 |
| 传统端到端模型 | 直接映射 | 图像 | 动作(如方向盘角度) | 一个直觉驱动的“驾驶员”,能开车,但无法解释为什么。 |
| VLA (视觉-语言-行动模型) | 理解、推理、行动 | 图像 + 文本 | 文本 + 动作 | 一个可以边开车边和你讨论路况的“老司机”。 |
从上表可以看出,VLA并不仅仅是VLM的延伸。它通过引入“行动”这一维度,真正弥合了数字智能与物理智能之间的鸿沟。
- 相比VLM:VLA不止于“看懂”,更要“动手”。它能将“拿起那个红色的杯子”这个语言指令,直接转化为一连串精确的电机控制信号。
- 相比传统端到端模型:VLA不再是一个“黑箱”。它可以在输出动作的同时,用自然语言解释它的决策过程(例如:“我看到前面有个路障,所以我需要减速并向左变道”)。这种 “思维链”(Chain-of-Thought, CoT) 能力,极大地提升了模型的可解释性、安全性和用户信任度。
所以,一句话定义VLA:它让一个拥有常识推理能力的“大脑”(大模型),直接长出了一个可以在物理世界自由行动的“身体”。
1.3 本文的目标与结构
本文的目标读者,正是对具身智能和机器人学充满好奇与探索欲的研究生新生。我们默认你对深度学习、计算机视觉和自然语言处理有基础了解,但对“如何将这些技术整合到机器人中”尚存疑惑。
在后续的章节中,我们将一步步为你拆解VLA这个新兴领域:
- 第二章:核心概念辨析:我们将深入VLA内部,详细解释其形式化定义、三要素,并提供一个中英文术语对照表,帮你打好阅读论文的基础。
- 第三章:技术架构:你将了解到,实现VLA不止一条路。我们会分析“一体化”、“适配器式”和“层次化”三种主流架构的优缺点与代表模型。
- 第四章:训练全流程:我们将按“数据 → 预训练 → 微调 → 部署”的顺序,全景式地展现一个VLA模型是如何被打造出来的。
- 第五章:主流模型与Benchmark:本章将为你梳理OpenVLA、π0、X-VLA等关键模型,并教你如何正确看待和利用LIBERO、CALVIN等评测基准,不被漂亮的数字所迷惑。
- 第六章:挑战与展望:最后,我们将冷静地探讨VLA当前面临的挑战(如数据、泛化、速度),并展望未来的发展趋势,为你可能的科研方向提供启发。
现在,我们已经了解了VLA为什么是具身智能领域的关键一步。在下一章,我们将更精确地定义它,为你装备上阅读后续章节所需的“概念武器”。
收到,感谢审核通过。现在我们进入更具技术深度的第二章。
第二章:核心概念辨析——VLA到底是什么?
在第一章中,我们确立了VLA的核心叙事:它是一个让大模型能够理解物理世界并直接输出动作的模型。然而,“VLA”这个词在学术界和工业界的讨论中,有时会被泛化使用,导致边界模糊。对于刚刚入门的研究生来说,如果不能在概念上精确定位VLA,后续阅读论文和设计实验时很容易产生混淆。
本章的目标是:用精确的语言定义VLA,辨析其核心要素,并为你提供一套完整的术语工具,以便顺利阅读本系列后续章节以及领域内的顶会论文。
2.1 形式化定义
在数学层面,我们可以将VLA模型定义为一个条件概率分布的学习问题。

即:给定当前视觉观测、语言指令和历史信息,模型预测未来一段动作序列的概率分布。
在实际部署中,通常采用滚动预测(receding horizon control)策略:模型预测 ( k ) 步动作,执行前 ( m ) 步(通常 ( m < k )),然后根据新的观测重新预测。
与传统方法的本质区别:
- 传统“感知→规划→控制”流水线中,每个模块单独训练,损失函数各不相同。VLA则端到端地优化最终的动作预测损失。
- 传统端到端模型(如早期自动驾驶中的行为克隆模型)直接学习 ( P(A \mid I) ),缺失了语言 ( L ) 作为任务规范和推理媒介。VLA通过引入 ( L ),使得模型可以被灵活地指令控制,并利用语言的组合泛化能力。
2.2 VLA的三要素详解
VLA的名称已经揭示了它的三个核心构成要素:Vision、Language、Action。这三个要素并不是简单堆叠,而是通过特定的架构设计有机融合。理解每个要素所承载的技术内涵和关键挑战,是掌握VLA领域的前提。
2.2.1 Vision:环境感知
VLA中的“Vision”远不止图像分类或目标检测。它需要为后续的推理和动作生成提供空间上精确、时间上连续、语义上丰富的环境表征。
| 能力维度 | 具体内容 | 关键技术问题 |
|---|---|---|
| 空间理解 | 物体位置、尺寸、朝向、遮挡关系 | 如何从2D图像中恢复3D结构?是否需要显式的深度估计模块? |
| 多视角融合 | 固定相机+腕部相机+全景相机 | 不同视角的信息如何对齐?如何权衡计算开销与信息增益? |
| 动态物体追踪 | 人的运动、物体的滑动、关节运动 | 如何建模物体的运动学约束?如何预测短时轨迹? |
| 场景语义 | 功能区域(厨房、工作台)、可供性(椅子可坐、按钮可按) | 语义理解需要达到什么粒度?如何从预训练VLM中迁移语义知识? |
一个常见的误区:初学者容易认为,既然VLA使用了预训练的VLM作为主干,那么“Vision”部分就已经完全解决了。然而,预训练VLM通常处理的是低分辨率、中心裁剪的图像,并且缺乏对空间几何和物理属性的显式理解。因此,许多VLA工作会在VLM基础上引入空间编码器(如使用CLIP的patch embedding再加位置编码)、多尺度特征金字塔,或深度估计分支。
2.2.2 Language:任务理解与推理
Language在VLA中扮演着比“命令输入端”更重要的角色。它是VLA区别于传统端到端模型的核心标志。
Language的三个层次功能:
-
任务规范(Task Specification):最基本的功能。模型接收“pick up the red cube”这样的指令,将其编码为条件向量,用于指导动作生成。这一层次要求模型能够将自然语言中的实体(“red cube”)与视觉观测中的物体进行跨模态对齐。
-
约束与偏好表达:语言可以表达任务之外的要求,例如“slowly”、“gently”、“avoid touching the wall”。这要求模型能够将副词、介词短语等修饰成分映射到动作空间的低层属性(如速度、加速度、安全距离)。
-
推理与规划(Reasoning & Planning):最高层次,也是最具有VLA特色的能力。模型在面对复杂任务时,首先生成一段自然语言推理过程(例如:“To place the blue block to the left of the red one, I need to first pick up the blue block, then move it above the red block, then move left, then release”),再基于这个推理结果生成具体的动作序列。这种显式思维链(Chain-of-Thought, CoT) 机制极大地提升了可解释性,并为处理长程任务提供了结构化指引。
当前的研究争议:显式CoT是否必要?丰田研究院(TRI)的规模化实验发现,在物理操作任务中,隐式的推理(即模型内部表征中自动涌现的任务分解)已经足够,显式CoT并未带来显著的性能提升。然而,也有工作(如ECoT)指出,在需要符号推理(如根据颜色、形状、位置关系进行多步判断)的任务中,显式CoT不可或缺。目前尚无定论,这也是一个很好的研究切入点。
2.2.3 Action:运动执行
Action是VLA区别于VLM的根本所在——模型必须输出可以在物理世界中执行的指令。这带来了两个基础性的技术挑战:
挑战一:动作表示
VLM擅长处理离散的token(如文本、图像patch),但机器人控制本质上是连续的。如何将连续动作空间与VLM的离散token架构对接?
| 方法 | 原理 | 优点 | 缺点 | 代表模型 |
|---|---|---|---|---|
| 动作离散化 | 将连续动作值聚类为有限个“动作词元”,用VLM的词表扩展来预测 | 直接复用VLM架构 | 精度受限;离散化误差累积 | RT-2 |
| 连续token | 用额外的连续解码器(如MLP)将VLM的隐状态映射为动作向量 | 精度高;表达能力强 | 需要额外训练解码器;可能存在模态鸿沟 | OpenVLA, π0 |
| 扩散生成 | 将动作生成建模为去噪过程,条件于VLM的特征 | 生成质量高;支持多模态动作分布 | 推理速度慢;计算开销大 | 扩散策略(Diffusion Policy) |
挑战二:频率匹配
VLM推理速度通常只有1-10 Hz(每秒处理帧数),而精细的机器人控制需要20-100 Hz的控制频率。这个数量级的差距意味着:模型每“想”一次,需要输出足够长的动作序列来覆盖下一次“想”之前的所有控制信号。
解决方案包括:
- 动作chunking:模型一次性预测 ( k ) 步动作(( k = 10, 20, 甚至 100 )),然后逐步执行。
- 残差动作:用一个轻量的高速反馈控制器(如PID)跟踪VLA输出的低频率参考轨迹。
- 模型蒸馏:用VLA作为教师,蒸馏出一个更小、更快的“学生”策略网络。
2.3 关键术语表(中英文对照)
为了帮助你顺利阅读后续章节以及领域内的论文,这里整理了VLA领域最核心的术语及其简要说明。建议你在阅读过程中反复查阅,直至熟练掌握。
| 中文 | 英文 | 简要说明 |
|---|---|---|
| 具身智能 | Embodied AI | 强调智能体通过身体与环境进行交互和学习的智能范式 |
| 视觉-语言-行动模型 | Vision-Language-Action Model (VLA) | 本文核心概念,同时处理视觉、语言并输出动作 |
| 思维链 | Chain-of-Thought (CoT) | 模型在输出最终答案前,先生成中间推理步骤 |
| 具身思维链 | Embodied Chain-of-Thought (ECoT) | 面向物理动作的CoT,包含空间推理、动作序列规划等 |
| 动作标记化 | Action Tokenization | 将连续动作值转换为离散token的过程 |
| 动作块 | Action Chunking | 模型一次性预测未来多步动作的策略 |
| 跨本体泛化 | Cross-Embodiment Generalization | 同一个模型能够适配不同形态、不同自由度的机器人 |
| 行为克隆 | Behavior Cloning (BC) | 通过监督学习直接模仿专家示范的策略学习方法 |
| 强化学习 | Reinforcement Learning (RL) | 智能体通过与环境交互、获得奖励信号来学习策略 |
| 参数高效微调 | Parameter-Efficient Fine-Tuning (PEFT) | 只更新少量参数即可适配新任务的微调方法,如LoRA |
| 低秩适配 | Low-Rank Adaptation (LoRA) | 最常用的PEFT方法,通过注入低秩矩阵实现高效微调 |
| 世界模型 | World Model | 能够预测环境动态(下一状态、奖励)的内部模型 |
| 动作空间 | Action Space | 机器人所有可能动作的集合,分为连续和离散 |
| 观测空间 | Observation Space | 智能体可能接收到的所有观测的集合 |
| 部分可观测马尔可夫决策过程 | Partially Observable MDP (POMDP) | 智能体无法完全观测环境状态的决策框架 |
| 模仿学习 | Imitation Learning (IL) | 通过模仿专家数据学习策略的范式,BC是其特例 |
| 示范数据 | Demonstration Data | 由人类或专家策略采集的(观测,动作)配对数据 |
| 遥操作 | Teleoperation | 人类远程控制机器人采集示范数据的方法 |
| 仿真到现实迁移 | Sim-to-Real Transfer | 在仿真中训练的策略部署到真实机器人上的过程 |
| 域随机化 | Domain Randomization | 通过在仿真中随机变化物理参数来提升Sim-toReal泛化性的技术 |
| 动作解码器 | Action Decoder | VLA中负责将隐状态映射为具体动作的模块 |
| 视觉编码器 | Vision Encoder | 将原始图像转换为特征向量的神经网络模块 |
| 语言编码器 | Language Encoder | 将自然语言指令转换为特征向量的模块 |
| 多模态融合 | Multimodal Fusion | 将不同模态(视觉、语言)的特征整合为统一表征的过程 |
| 因果链 | Chain of Causality (CoC) | 一种结构化的推理形式,强调物理因果关系的建模 |
2.4 本章小结
在本章中,我们完成了以下工作:
- 形式化定义:将VLA建模为 ( P(A \mid I, L, H) ) 的条件概率预测问题,明确了它与传统流水线、传统端到端模型的本质区别。
- 三要素解析:逐一拆解了Vision、Language、Action三个要素的核心技术内涵,指出了每个要素面临的关键挑战——空间理解的精度、推理的必要性与形式、动作表示与频率匹配。
- 术语工具:提供了一个中英文对照的核心术语表,涵盖架构、训练、部署等多个环节,作为你后续阅读和实践的快速参考。
理解这些概念,是看懂VLA论文架构图、读懂其方法论章节的基础。在下一章中,我们将正式进入技术架构的讨论,分析实现VLA的三种主流范式——一体化、适配器式、层次化——各自的原理、优缺点与代表模型。
收到,感谢审核通过。现在进入第三章——技术架构的核心内容。
VLA(视觉-语言-行动模型)介绍
第三章:VLA的技术架构——三种主流范式
在第二章中,我们建立了VLA的概念基础:它是一个以视觉和语言为输入、以动作为输出的条件概率模型。然而,“如何设计一个VLA模型”并没有唯一答案。过去两年间,研究者们从不同角度探索了多种架构设计,形成了三条清晰的主流技术路线。
本章的目标是:系统性地介绍这三种架构范式——一体化(Integrated)、适配器式(Adapter-based)和层次化(Hierarchical)——分析各自的原理、优缺点和适用场景,并通过对代表模型的解读,帮助你建立起架构选择的判断力。
3.1 架构分类的底层逻辑
在深入具体架构之前,我们需要理解一个根本性的设计问题:如何弥合VLM的“离散-语义”世界与机器人控制的“连续-物理”世界之间的鸿沟?
这个鸿沟体现在三个层面:
| 鸿沟维度 | VLM的偏好 | 机器人控制的需求 | 架构设计必须解决的问题 |
|---|---|---|---|
| 表征形式 | 离散token(文本、图像patch) | 连续向量(关节角度、力、速度) | 如何将连续动作“塞进”VLM的架构? |
| 时间尺度 | 秒级推理(1-10 Hz) | 毫秒级控制(20-100 Hz) | 如何用低频“思考”指导高频“行动”? |
| 输出空间 | 分类/生成(有限词汇) | 高维连续空间(6-30自由度) | 如何在不扩展词表到无限大的前提下表达精细动作? |
不同的架构范式,本质上是这些问题给出了不同的答案。我们将这三种范式放在一个统一的框架下进行比较:
┌─────────────────────────────────────────────────────────────────┐
│ VLA架构设计空间 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 范式一:一体化 范式二:适配器式 范式三:层次化 │
│ (Integrated) (Adapter-based) (Hierarchical) │
│ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ VLM │ │ VLM │ │ 高层VLA │ │
│ │ (冻结?) │ │ (冻结?) │ │ (规划) │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │动作Token │ │动作解码器│ │ 低层VLA │ │
│ │扩展词表 │ │ (LoRA等)│ │ (执行) │ │
│ └─────────┘ └─────────┘ └─────────┘ │
│ │
│ 代表: RT-2, OpenVLA 代表: π0, Octo 代表: iFlyBot-VLA │
│ │
└─────────────────────────────────────────────────────────────────┘
3.2 范式一:一体化VLA(Integrated VLA)
3.2.1 核心思想
一体化VLA采用最直接的思路:将动作视为另一种“语言”,用VLM现有的token预测机制来处理动作。
具体来说,研究者首先构建一个动作词表(action vocabulary):将连续动作空间离散化为有限个“动作词元”(action tokens)。例如,可以将7自由度机械臂的每个关节角度量化到256个区间,那么一个动作就对应7个256维的token。然后,将这些动作token作为特殊符号加入VLM原有的词表。最终,VLA模型被训练为:给定图像和文本,预测下一个token——这个token可能是文本词元,也可能是动作词元。
3.2.2 技术细节
以RT-2(Google DeepMind, 2023)为例,其训练过程如下:
- 动作离散化:将机器人动作空间(如末端执行器的6D位姿+夹爪状态)量化为256个离散bin。
- token扩展:在VLM原有的32k词表基础上,新增256个动作token(如
<act0>到<act255>)。 - 数据格式转换:将机器人示范数据(图像、指令、动作)转换为类似文本的序列:
- 输入:
[图像] <inst> pick up the red cube </inst> - 目标输出:
<act42> <act17> <act203> <act98> <act156> <act211> <eos>
- 输入:
- 联合训练:在混合了互联网图文数据和机器人示范数据的大规模数据集上,使用标准的自回归语言建模损失进行训练。
OpenVLA(Stanford, 2024)沿用了这一思路,但将基础VLM从PaLI换成了开源的Llama 2,并引入了更精细的动作离散化策略(每个维度独立量化),在多个基准上达到了当时的最优性能。
3.2.3 优点与缺点
| 优点 | 缺点 |
|---|---|
| 架构统一:无需额外设计动作解码模块,完全复用VLM的架构和训练流程 | 精度受限:离散化必然带来量化误差,对于需要精细力控的任务(如穿针引线)可能不够用 |
| 端到端简单:训练损失单一,无需处理多个模块之间的梯度协调 | 词表膨胀:高自由度机器人需要大量token(如30自由度×256个bin=7680个token),影响效率 |
| 自然的多任务:VLM可以同时输出文本和动作,实现“边做边说” | 推理效率:每个动作需要生成多个token,增加了推理延迟 |
| 知识迁移强:直接继承VLM的预训练知识,零样本泛化能力好 | 动作依赖性弱:VLM的token预测是独立的,难以建模动作之间的连续动力学约束 |
3.2.4 适用场景
- 需要强语言理解和零样本泛化的任务
- 动作精度要求不高的宏观操作(如“把苹果放进碗里”)
- 计算资源充足,可以接受较高推理延迟的场景
3.3 范式二:适配器式VLA(Adapter-based VLA)
3.3.1 核心思想
适配器式VLA采取了一种更“保守”的策略:保留VLM的完整结构不变,在其之上附加一个轻量的“动作头”(action head)来输出连续动作。
这里的核心洞察是:VLM的隐状态(hidden states)已经编码了丰富的视觉-语言信息,我们只需要学习一个从这些隐状态到动作空间的映射函数。这个映射函数可以用一个小型的MLP来实现,也可以通过参数高效微调(PEFT) 技术(如LoRA)来调整VLM的部分参数,使其输出的隐状态更适合动作预测。
3.3.2 技术细节
以π0系列模型(Physical Intelligence, 2024-2025)为例,其架构包含以下组件:
- 基础VLM:冻结的预训练VLM(如PaLI或InternVL),负责将图像和指令编码为高维特征。
- 动作解码器:一个轻量的Transformer或扩散模型,以VLM输出的特征为条件,生成连续动作序列。
- 训练策略:
- 阶段一(对齐):在机器人数据上微调VLM的少量参数(如使用LoRA),使VLM的隐空间向动作预测任务对齐。
- 阶段二(强化):使用π0提出的RECAP框架,从人类纠偏和自主失败经验中学习,进一步优化动作解码器。
Octo(UC Berkeley, 2024)采用了类似的思路,但特别强调了跨本体泛化:通过在包含多种机器人形态的大规模数据集上训练一个通用的动作解码器,使得同一个VLA模型可以直接部署到新的机器人平台上,而无需重新训练。
3.3.3 优点与缺点
| 优点 | 缺点 |
|---|---|
| 动作精度高:动作解码器可以直接输出连续值,无量化误差 | 架构分离:需要单独设计和训练动作解码器,增加了系统复杂度 |
| 保留VLM能力:VLM部分可以完全冻结或仅微调少量参数,不会发生“灾难性遗忘” | 表征对齐问题:VLM的隐状态并非为动作预测而优化,可能存在信息瓶颈 |
| 推理效率高:可以一次生成整个动作块(action chunk),无需自回归生成多个token | 跨模态监督弱:动作损失难以反向传播到VLM的视觉编码器,可能限制空间精度的提升 |
| 灵活性好:可以方便地替换不同的动作解码器(MLP、扩散策略、MPC等) | 训练两阶段:通常需要先做对齐微调,再做动作解码器训练,流程较复杂 |
3.3.4 适用场景
- 需要精细连续控制的任务(如叠衣服、组装零件)
- 希望最大化复用已有VLM的研究(资源有限或VLM规模很大)
- 需要部署到多种机器人本体的跨场景应用
3.4 范式三:层次化VLA(Hierarchical VLA)
3.4.1 核心思想
层次化VLA借鉴了经典机器人学中的分层控制思想:将复杂的操作任务分解为高层“意图”和低层“动作”两个抽象层次,分别用VLA模型来处理。
- 高层VLA(意图规划器):以低分辨率观测和语言指令为输入,输出子目标序列(subgoal sequence)或技能序列(skill sequence),如“先移动到蓝色方块附近,再调整夹爪方向,然后抓取,最后移动到红色区域”。输出频率较低(如1 Hz)。
- 低层VLA(动作执行器):以高分辨率观测和高层输出的当前子目标为输入,输出精细的底层控制信号(如关节角度、力矩)。输出频率较高(如50 Hz)。
这种设计的核心优势在于:高层负责“该做什么”(what to do),低层负责“怎么做”(how to do),两者各司其职,可以分别采用不同的架构、训练数据和推理频率。
3.4.2 技术细节
以iFlyBot-VLA(讯飞,2025)为例,其层次化设计包含以下关键组件:
-
高层:隐式意图建模
- 输入:低分辨率图像序列 + 语言指令
- 输出:一个隐意图向量(latent intent vector),压缩了未来一段时间的“行为风格”和“关键路径点”
- 架构:基于Transformer的VLM,在标准动作预测任务之外增加了一个意图预测头
-
低层:显式动态建模
- 输入:高分辨率当前图像 + 高层输出的隐意图向量 + 当前状态(如关节位置)
- 输出:高频动作序列(如接下来0.5秒内的20个动作)
- 架构:扩散策略或基于流匹配(flow matching)的生成模型,以隐意图为条件
-
端到端训练策略:
- 第一阶段:分别预训练高层意图预测器(使用轨迹级别的监督)和低层动作生成器(使用步级监督)
- 第二阶段:将两者联合微调,使隐意图向量真正成为连接规划与执行的“有效”瓶颈
另一种层次化思路来自具身思维链(ECoT) 的工作:模型在输出动作之前,先显式生成一个文本形式的“计划”(如“1. move to the cup, 2. open gripper, 3. close around handle”),然后一个低层策略将这些文本计划翻译为动作。这种方式具有更好的可解释性,但文本计划到动作的映射仍然是一个挑战。
3.4.3 优点与缺点
| 优点 | 缺点 |
|---|---|
| 可解释性强:高层输出的意图或计划可以用文本或可视化形式呈现给用户 | 架构复杂:需要设计和训练两个(或更多)相互依赖的模型 |
| 支持长程任务:高层可以规划数百步的策略,不受低层短期记忆的限制 | 误差累积:高层的规划错误会被低层执行放大,可能导致整体失败 |
| 训练效率高:高层可以用较少的样本学习任务结构,低层可以用较多的样本学习运动技能 | 需要分层数据:高层训练需要轨迹级别的任务标注(如子目标的时间戳),成本较高 |
| 便于交互:用户可以修改高层的计划来纠正行为,而无需重新训练整个模型 | 优化困难:两部分的联合优化容易出现局部最优或训练不稳定 |
3.4.4 适用场景
- 需要多步骤推理和规划的长程任务(如“整理房间”)
- 对可解释性和人机交互有高要求的应用(如家庭服务机器人)
- 希望结合符号规划(symbolic planning)和神经网络策略的研究
3.5 范式对比与选择指南
3.5.1 三维对比表
| 对比维度 | 一体化 | 适配器式 | 层次化 |
|---|---|---|---|
| 动作精度 | 中(受离散化限制) | 高(连续输出) | 高(低层可精细建模) |
| 推理速度 | 慢(自回归token生成) | 中(可一次生成chunk) | 中-快(分层可优化) |
| 可解释性 | 中(动作token可映射回数值) | 低(动作解码器是黑箱) | 高(高层计划可呈现) |
| 长程能力 | 弱(受限于上下文长度) | 中(可依赖VLM的记忆) | 强(高层显式规划) |
| 训练复杂度 | 低 | 中 | 高 |
| 数据效率 | 中(需要大量示范) | 高(冻结VLM,仅需较少机器人数据) | 低(需要分层标注) |
| VLM重用度 | 高(完全复用) | 高(保留完整VLM) | 中(需要修改架构) |
| 跨本体泛化 | 弱(动作空间绑定) | 强(动作解码器可替换) | 中(低层需要适配) |
3.5.2 选择决策树
面对一个新的任务或研究问题,你可以按照以下流程选择最合适的架构范式:
开始
│
▼
是否需要高精度连续控制(如1mm精度)?
│
├─ 是 ──▶ 是否需要长程规划(>10步)?
│ │
│ ├─ 是 ──▶ 层次化VLA
│ │
│ └─ 否 ──▶ 适配器式VLA
│
└─ 否 ──▶ 计算资源是否紧张?
│
├─ 是 ──▶ 一体化VLA(模型可较小)
│
└─ 否 ──▶ 三种均可,优先考虑一体化(最简单)
3.5.3 一个重要的提醒
这三种范式并非互斥的。实际上,许多前沿工作开始探索混合架构:例如,在适配器式VLA的基础上增加一个显式的规划模块,以提升长程任务能力;或者在一体化VLA的基础上引入连续动作解码器作为“后备”,以弥补离散化的精度损失。
对于刚入门的研究生,我的建议是:
- 首先理解一体化VLA:它最简单,最容易实现,OpenVLA的代码是一个很好的起点。
- 然后深入适配器式VLA:这是当前最主流、最灵活的范式,π0和Octo代表了这一方向的前沿。
- 最后探索层次化VLA:如果你的研究课题涉及长程任务或需要可解释性,这是一个可以做出差异化贡献的方向。
3.6 本章小结
在本章中,我们完成了以下工作:
- 揭示核心设计问题:VLA架构设计的本质是如何弥合VLM的“离散-语义”世界与机器人控制的“连续-物理”世界之间的鸿沟。
- 系统介绍三种范式:
- 一体化:将动作离散化为token,作为语言模型的特殊词元。代表模型:RT-2、OpenVLA。
- 适配器式:在VLM之上附加连续动作解码器。代表模型:π0、Octo。
- 层次化:将任务分解为高层意图规划和低层动作执行。代表模型:iFlyBot-VLA、ECoT。
- 对比分析与选择指南:从动作精度、推理速度、可解释性等七个维度进行了对比,并提供了一个决策树帮助选择。
- 给出学习建议:建议从一体化VLA入门,逐步深入到适配器式和层次化。
理解这三种范式,你就已经掌握了阅读绝大多数VLA论文所需的架构知识。在下一章中,我们将从“结构”转向“过程”——详细介绍VLA模型的训练全流程,包括数据构建、预训练、微调/对齐和部署验证四个核心阶段。
第四章:训练全流程——从数据到部署
在前三章中,我们了解了VLA“是什么”(概念定义)和“长什么样”(架构设计)。然而,一个优秀的VLA模型并非凭空产生——它需要在海量数据上经过精心设计的训练流程才能获得强大的感知、推理和行动能力。
本章的目标是:全景式地介绍VLA模型的训练全流程,从数据采集与构建开始,经过预训练、微调与对齐,最终到部署验证与持续进化。 我们将按照实际研发的时间顺序,逐一剖析每个阶段的目标、方法、关键挑战和最佳实践。
4.1 训练全流程概览
一个典型的VLA模型研发流程包含四个核心阶段,它们形成了一个从通用到专用、从仿真到真实、从静态到动态的递进关系:
┌─────────────────────────────────────────────────────────────────────────────┐
│ VLA训练全流程全景图 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 阶段一 阶段二 阶段三 阶段四 │
│ 数据构建 预训练 微调与对齐 部署与进化 │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 视觉-语言 │ │ 大规模 │ │ 监督微调 │ │ 仿真验证 │ │
│ │ 数据 │──────▶│ 联合训练 │───────▶│ (SFT) │───────▶│ (Sim) │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 机器人 │ │ 视觉-语言 │ │ 强化学习 │ │ 真机部署 │ │
│ │ 数据 │ │ 对齐 │ │ (RL) │ │ (Real) │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 人类视频 │ │ 基础操作 │ │ 偏好对齐 │ │ 数据飞轮 │ │
│ │ 数据 │ │ 技能 │ │ (RLHF) │ │ (闭环) │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │
│ 目标: 构建 目标: 通才 目标: 专才 目标: 鲁棒 │
│ 高质量数据 大脑 技能 部署 │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
值得注意的是,这个流程并非单向的。阶段四中部署后收集的数据会回流到阶段一,形成一个持续进化的数据飞轮——这也是最先进的VLA系统能够不断自我超越的关键机制。
4.2 阶段一:数据构建——VLA的“燃料”
如果说VLA模型是引擎,那么数据就是驱动它运转的燃料。VLA模型对数据的需求是多源、大规模、高质量的。单一来源的数据无法同时满足其对常识理解、操作技能和环境泛化的要求。
4.2.1 数据的三源融合
VLA训练数据通常来自三个源头,每个源头承载着不同的“知识类型”:
| 数据源 | 代表数据集 | 规模 | 提供的知识 | 采集成本 |
|---|---|---|---|---|
| 视觉-语言数据 | LAION-5B, ImageNet, COCO | 亿级 | 物体识别、场景理解、常识推理 | 低(已有互联网数据) |
| 机器人操作数据 | Open X-Embodiment, DROID, Bridge | 百万级 | 动作-效果映射、运动技能、物理交互 | 极高(需遥操作或仿真) |
| 人类视频数据 | Ego4D, Something-Something, Epic Kitchens | 千万级 | 手物交互、任务流程、行为模式 | 中(已有视频数据集) |
视觉-语言数据:这是VLA模型的“通识教育”来源。通过在海量的图文对和视频字幕上预训练,VLA学会识别“什么是杯子”、“什么是红色”、“‘拿起’这个动词通常对应什么样的视觉场景”。这些知识构成了后续学习操作技能的基础。
机器人操作数据:这是VLA模型的“专业技能”来源。通过直接学习(图像, 指令)→ 动作的映射,VLA学会“怎么做”。这类数据的采集通常需要人类通过遥操作(teleoperation)控制真实机器人执行任务,或者在高保真仿真器中自动生成。成本极高——一条高质量的遥操作轨迹可能需要数分钟到数十分钟的人工操作。
人类视频数据:这是VLA模型的“低成本泛化”来源。互联网上有海量的人类手部操作视频(做饭、组装家具、使用工具),这些视频蕴含了丰富的物理交互模式。虽然缺少精确的动作标签,但可以通过逆向强化学习或视频预测等方法从中提取可迁移的知识。清华与字节跳动合作的Being-H0工作正是这一方向的代表:通过将1.5亿条人类手部视频投影到机器人动作空间,显著降低了对真实机器人数据的需求。
4.2.2 数据构建的核心挑战与解法
挑战一:跨本体对齐
不同机器人平台具有不同的形态和自由度——一个机械臂可能是6自由度,另一个可能是7自由度;夹爪可能是平行夹爪,也可能是三指灵巧手。如何让VLA模型在一种机器人上训练后,能够迁移到另一种机器人上?
解法:构建统一动作空间。常见的策略包括:
- 末端执行器位姿空间:将所有机器人的动作统一表示为“期望的末端执行器位置+朝向”,忽略关节层面的差异。
- 归一化动作表示:将动作值归一化到[-1, 1]区间,使得不同机器人的动作范围对齐。
- 本体嵌入(Embodiment Embedding):为每种机器人学习一个可训练的嵌入向量,作为条件输入到模型中,让模型学会区分不同的本体。
挑战二:数据规模不足
与互联网图文数据动辄数十亿的规模相比,机器人操作数据最多只有百万级——相差三个数量级以上。这是VLA领域面临的最根本的数据瓶颈。
解法:
- Being-H0方案:如前所述,利用人类视频作为“免费的”预训练数据,大幅减少对真实机器人数据的需求。
- 仿真数据增强:在仿真器中通过域随机化生成海量的虚拟轨迹,然后通过Sim-to-Real技术迁移到真实环境。
- 数据混合训练:丰田研究院的规模化实验发现,将视觉-语言数据与机器人数据按一定比例混合(如10:1)进行联合训练,效果优于单独使用任何一种数据。
挑战三:数据质量筛选
并非所有采集到的数据都是有效的。人类遥操作过程中可能存在误操作,仿真数据可能与真实物理偏差过大。
解法:
- 成功率过滤:只保留成功完成任务的数据轨迹。
- 一致性校验:多次采集同一任务的示范,剔除偏离多数轨迹的异常样本。
- 自动质量评估:训练一个“奖励模型”来自动判断轨迹质量,用于数据筛选。
4.2.3 关键数据集速览
对于刚入门的研究生,以下数据集是必须了解的:
| 数据集 | 规模 | 特点 | 获取方式 |
|---|---|---|---|
| Open X-Embodiment | 100万+轨迹,22种机器人 | 最大、最多样化的真实机器人数据集 | 开源 |
| DROID | 7.6万轨迹,564个场景 | 高多样性(光照、背景、物体位置) | 开源 |
| Bridge Dataset | 7.2万轨迹 | 广泛使用的VLA训练基准 | 开源 |
| LIBERO | 13万轨迹(仿真) | 持续学习基准,4个任务套件 | 开源 |
| RoboMIND 2.0 | 30万轨迹 | 国内最大规模,北京人形机器人创新中心发布 | 开源 |
| Being-H0 数据集 | 1.5亿条人类手部视频 | 低成本泛化数据 | 开源 |
4.3 阶段二:预训练——打造“通才大脑”
有了高质量的多源数据,第二阶段的目标是:训练一个具备通用视觉-语言理解和基础操作技能的VLA模型。这个阶段通常在云端大规模GPU集群上进行,是整个流程中计算成本最高的环节。
4.3.1 预训练的目标
预训练阶段需要同时实现三个子目标:
- 视觉-语言对齐:让模型理解图像与文本之间的对应关系。例如,看到一张“杯子”的图片,模型应该能够关联到文本“cup”或“杯子”。
- 物理世界建模:让模型理解物理规律。例如,预测“如果我放手,杯子会掉落到地上”。这通常通过视频预测或动作去噪的辅助任务来实现。
- 基础操作技能:让模型学会通用的操作模式。例如,“抓取”这个行为在不同物体、不同场景下应该具备相似的动作模式。
4.3.2 训练策略
策略一:联合训练(Joint Training)
将不同来源的数据(视觉-语言数据、机器人数据、人类视频数据)打包成统一的训练格式,在同一个模型、同一个损失函数下进行训练。
- 优势:简单直接,模型可以自然地学习到不同任务之间的共同表征。
- 挑战:不同任务的梯度规模可能差异巨大,需要精细的损失加权。丰田研究院的研究发现,将机器人数据的损失权重设为视觉-语言数据的5-10倍时效果最好。
策略二:课程学习(Curriculum Learning)
按照由易到难的顺序组织训练:
- 第一阶段:仅在视觉-语言数据上训练,建立基础感知能力。
- 第二阶段:加入简单的机器人数据(如单步动作预测),学习基础操作。
- 第三阶段:加入复杂的机器人数据(如长程任务、精细操作),提升技能水平。
策略三:多阶段预训练
一些工作探索了更复杂的预训练流程:
- Being-H0:先在人类视频上预训练,再在机器人数据上微调。
- Octo:先在多本体数据上预训练一个通用的动作解码器,再针对特定本体进行适配。
4.3.3 关键发现与经验法则
基于丰田研究院(TRI)和Physical Intelligence等机构的规模化实验,以下经验法则值得关注:
| 发现 | 具体结论 | 研究来源 |
|---|---|---|
| 图文数据不可或缺 | 仅用机器人数据训练的VLA泛化性差,加入图文数据后零样本性能提升2-3倍 | TRI Co-training |
| 跨本体数据有效 | 混合多种机器人的数据训练,比只用单本体数据的效果好30%以上 | Octo |
| 显式CoT收益有限 | 在物理操作任务中,让模型显式生成推理文本并未带来显著提升,隐式推理已足够 | TRI Co-training |
| 动作离散化非关键 | 动作离散化的粒度对最终性能影响不大,256个bin与1024个bin效果接近 | OpenVLA |
| 模型规模仍是王道 | 7B模型的零样本泛化能力显著优于3B模型,差距约为15-20% | OpenVLA vs. RT-2 |
4.4 阶段三:微调与对齐——从“通才”到“专才”
预训练得到的VLA模型虽然具备广泛的能力,但距离在特定任务、特定环境中可靠部署还有差距。阶段三的目标是:将通才模型适配到目标任务,并使其行为与人类偏好对齐。
4.4.1 监督微调(Supervised Fine-Tuning, SFT)
SFT是最直接的适配方法:在目标任务的小规模示范数据上继续训练预训练模型。
关键技术:参数高效微调(PEFT)
由于VLA模型规模较大(7B参数已是标配),全参数微调的计算成本过高。PEFT技术通过只更新极少量的参数来实现适配:
| 方法 | 原理 | 更新参数量 | 适用场景 |
|---|---|---|---|
| LoRA | 在权重矩阵旁注入低秩分解矩阵 | <1% | 通用推荐 |
| Q-LoRA | LoRA + 4-bit量化 | <0.5% | 显存受限 |
| Adapter | 在Transformer层间插入小型网络 | 1-3% | 需要更高容量 |
| Prefix Tuning | 在输入序列前添加可训练的prefix token | <0.1% | 极轻量适配 |
实践建议:对于大多数研究场景,LoRA是首选。它实现简单、效果稳定、与主流框架(Hugging Face PEFT)集成良好。
数据需求:SFT通常需要50-200条成功的任务示范。数据量过少会导致过拟合,过多则收益递减。
4.4.2 强化学习对齐(Reinforcement Learning from Feedback)
SFT的局限性在于:它只能模仿示范中的“成功”行为,但无法学习如何从失败中恢复,也无法区分“好”的行为和“卓越”的行为。强化学习(RL)通过引入奖励信号来解决这一问题。
为什么RL对VLA很重要?
- 超越模仿:示范数据中的行为可能是次优的(人类遥操作的抖动、犹豫)。RL可以找到比示范更优的策略。
- 失败恢复:SFT模型在遇到分布外状态时往往不知所措。RL可以在仿真中探索各种错误状态,学会如何回到正轨。
- 多目标优化:RL可以同时优化多个目标(成功率 + 平滑性 + 安全距离),而SFT只能优化模仿准确率。
π0的RECAP框架
Physical Intelligence提出的RECAP是目前最成熟的VLA+RL方案。其核心思想是:将RL问题巧妙地改写为监督学习问题,从而避开传统RL(如PPO)在VLA模型上难以稳定训练的问题。
RECAP的三阶段流程:
- 离线RL(Offline RL):使用多源数据(包含成功示范、失败尝试、人类纠偏)训练一个价值函数(value function),用于评估“在当前状态下执行某个动作的好坏”。
- 优势条件化(Advantage Conditioning):将价值函数输出的“优势值”作为额外的条件输入到VLA模型中,让模型学会根据“想要的行为质量”来调节输出。
- 在线微调:在仿真或真实环境中部署模型,根据实际执行结果(成功/失败/人类评分)更新价值函数和策略。
RLHF与RLAIF
- RLHF(Reinforcement Learning from Human Feedback):直接使用人类评分作为奖励信号。例如,让人类对模型的一整段操作视频打分(1-5分),然后用这些分数训练奖励模型。
- RLAIF(Reinforcement Learning from AI Feedback):用一个大模型(如GPT-4V)来自动评估操作质量,替代人类评分。成本更低,可规模化。
实践建议:对于刚入门的研究生,建议先从仿真环境中的稀疏奖励RL(任务成功则奖励+1,否则0)开始,熟悉RL的基本流程。待掌握基础后,再尝试更复杂的RLHF。
4.4.3 思维链蒸馏
如果预训练模型已经具备了隐式的推理能力,我们还可以通过蒸馏的方式,将这种能力“显式化”,从而提升可解释性。
流程:
- 在少量任务上,让教师模型生成“思考过程 → 动作”的完整轨迹。
- 用这些数据训练学生模型,要求它在输出动作之前先输出推理文本。
- 学生模型学会了用语言“解释”自己的行为。
何时需要:对于需要与人类协作、或对安全性有高要求的应用,显式CoT可以显著提升用户信任度。
4.5 阶段四:部署验证与持续进化
经过前三阶段的训练,VLA模型已经准备就绪。然而,从“训练环境”到“真实世界”的跨越,仍然充满挑战。
4.5.1 仿真验证(Simulation Validation)
在部署到真实机器人之前,必须在高保真仿真环境中进行充分验证。
主流仿真平台:
| 仿真器 | 特点 | 适用场景 |
|---|---|---|
| LIBERO | 专为VLA设计的基准,含4个任务套件 | 算法对比、消融实验 |
| ManiSkill3 | GPU加速,支持大规模并行仿真 | 强化学习、数据生成 |
| Genesis | 物理引擎精度高,支持刚体/软体/流体 | 需要精确物理交互的任务 |
| SIMPLER | 专注于Sim-to-Real评估 | 仿真到真实迁移测试 |
验证指标:
- 任务成功率(主要指标)
- 动作平滑度(加速度变化率)
- 碰撞次数(安全指标)
- 推理延迟(实时性指标)
4.5.2 真机部署(Real-World Deployment)
仿真中的成功不等于真实世界的成功。真机部署面临一系列独特的挑战:
| 挑战 | 表现 | 缓解策略 |
|---|---|---|
| Sim-to-Real差距 | 仿真中忽略的摩擦力、光照、传感器噪声在真实中放大 | 域随机化、系统辨识 |
| 推理延迟 | 模型推理10Hz vs 控制需要50Hz | 动作chunking、模型量化、蒸馏 |
| 安全边界 | 模型可能产生危险动作(撞墙、过载) | 动作限幅、安全过滤器、紧急停止 |
| 分布偏移 | 真实环境的视觉分布与训练数据不同 | 持续收集真实数据、在线适应 |
部署最佳实践:
- 动作限幅:在模型输出的动作上加一个安全“笼子”,限制最大速度、加速度和关节角度。
- 分层控制:用VLA输出高层参考轨迹,用低层PID控制器跟踪,兼顾智能性与平滑性。
- 影子模式:模型与人类策略并行运行,比较决策差异,收集有价值的“分歧”数据。
4.5.3 数据飞轮——持续进化的闭环
这是VLA系统中最具魅力的机制:部署不是终点,而是新数据的起点。
┌─────────────────────────────────────┐
│ │
▼ │
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│ 数据采集 │──▶│ 模型训练 │──▶│ 仿真验证 │──▶│ 真机部署 │
└──────────┘ └──────────┘ └──────────┘ └──────────┘
▲ │
│ │
│ ┌──────────┐ │
│ │ 失败场景 │◀───────────────────────┘
│ │ 回传 │
│ └──────────┘
│ │
└──────────────┘
数据飞轮的核心流程:
- 触发回传:当模型在真实环境中遇到不确定的情况(预测置信度低)或失败的情况(用户干预、碰撞检测触发),该场景被标记为“高价值样本”。
- 人工标注:对回传的失败场景进行人工纠偏——人类通过遥操作完成该任务,产生正确的示范。
- 增量训练:将新采集的示范数据加入训练集,对模型进行增量微调。
- 版本更新:新模型通过仿真验证后,OTA推送到机器人车队。
效果:通过数据飞轮,VLA系统可以持续进化,不断覆盖长尾场景。特斯拉的自动驾驶系统、Physical Intelligence的通用机器人模型都采用了类似的闭环机制。
4.6 本章小结
在本章中,我们完整地走过了VLA模型的训练全流程:
-
阶段一:数据构建——VLA的“燃料”。需要融合视觉-语言数据、机器人操作数据和人类视频数据三个源头,核心挑战是跨本体对齐、规模不足和质量筛选。
-
阶段二:预训练——打造“通才大脑”。通过联合训练、课程学习等策略,让模型同时获得视觉-语言理解和基础操作技能。关键发现是图文数据不可或缺、跨本体数据有效。
-
阶段三:微调与对齐——从“通才”到“专才”。使用LoRA等PEFT技术进行监督微调,再通过RL/RECAP框架进行强化学习对齐,使模型行为与人类偏好一致。
-
阶段四:部署与进化——从仿真到真实,从静态到动态。经过仿真验证后部署到真实机器人,通过数据飞轮机制实现持续进化的闭环。
理解了这个全流程,你就已经掌握了VLA系统从实验室走向真实世界的完整地图。在下一章中,我们将盘点当前主流的VLA模型和评测基准,帮助你建立起“什么是好的VLA”的判断标准。
收到,感谢审核通过。现在进入第五章——主流模型与评测基准。
VLA(视觉-语言-行动模型)介绍
第五章:主流模型与评测基准——如何判断“什么是好的VLA”
在前四章中,我们了解了VLA“是什么”(概念定义)、“长什么样”(架构设计)以及“如何训练”(全流程)。然而,一个关键问题始终悬而未决:面对层出不穷的VLA模型,我们如何判断哪个更好?
这个问题并不简单。与传统监督学习任务(如图像分类)有清晰的评价指标(如准确率)不同,VLA模型的评估涉及多个维度:任务成功率、泛化能力、推理速度、样本效率、安全可靠性……更棘手的是,不同论文使用不同的基准测试、不同的数据划分、不同的评估协议,导致结果难以直接比较。
本章的目标是:系统梳理当前主流的VLA模型和评测基准,并为你提供一套“批判性阅读”论文的方法论。 我们将首先盘点代表性模型及其技术特点,然后逐一解读关键Benchmark及其“潜规则”,最后给出综合判断模型优劣的实用框架。
5.1 主流VLA模型全景
过去两年间,VLA领域涌现了大量模型。为了帮助你快速建立认知框架,我们按照“开源生态”的视角将这些模型分为四大阵营:
┌─────────────────────────────────────────────────────────────────────────────┐
│ VLA开源生态四大阵营 │
├─────────────────────────────────────────────────────────────────────────────┤
│ │
│ 学院派 巨头生态派 创业/中国力量 技术极致派 │
│ (Academic) (Ecosystem) (Startup/China) (Technical) │
│ │
│ OpenVLA NVIDIA GR00T N1 小米 X-Robotics-0 π0 (PI) │
│ Octo Google Gemini-R X-VLA (清华/AIR) │
│ RT-1 (开源) (策略转向闭源) LingBot-VLA (蚂蚁) │
│ │
│ 特点: 特点: 特点: 特点: │
│ ·完全开源 ·模型+工具链 ·学术界最彻底开源 ·flow matching │
│ ·社区驱动 ·商业生态锁定 ·真机部署验证 ·50Hz高频控制 │
│ ·可复现性强 ·“开放但不完全” ·消费级显卡可运行 ·“开源引流+闭源变现”│
│ │
└─────────────────────────────────────────────────────────────────────────────┘
5.1.1 学院派:开源社区的基石
OpenVLA(Stanford, 2024)
OpenVLA是开源社区使用最广泛的VLA基准模型。它只有7B参数,却在29项机器人操作任务中击败了谷歌550亿参数的RT-2-X,成功率高出16.5%。
核心技术创新:
- 双视觉编码器架构:同时使用DINOv2(擅长空间关系理解)和SigLIP(擅长语义理解),形成“两双眼睛”协同工作的机制。
- 开源数据集优势:基于Open X-Embodiment数据集训练,该数据集聚合了22种机器人、超100万条真实轨迹。
- Llama 2作为“大脑”:将空间信息和语义信息融合后进行指令推理和动作生成。
局限性:训练成本高(需64张A100训练15天),推理速度较慢(约1-3Hz)。
Octo(UC Berkeley, 2024)
如果说OpenVLA代表“规模化开源”,Octo就是“普及型开源”。它的参数量仅数千万,定位不是“最强”,而是“人人可用”。
核心特点:
- 轻量级Transformer + 扩散解码器:支持多种机器人平台和传感器配置的快速适配。
- 强调灵活性和可扩展性:通过微调可快速适应新的观测和动作空间。
- 零样本泛化:目标是实现“通用机器人策略”,一个模型适配多种机器人。
适用场景:计算资源有限、需要快速部署到新机器人平台的研究。
5.1.2 巨头生态派:不止于模型
NVIDIA GR00T N1
英伟达在2025年GTC大会上发布的GR00T N1,号称“世界首个开放人形机器人基础模型”。它的核心创新是双系统架构:
- System 2(慢思考):基于VLM,负责理解环境、解读指令、做出高层规划。
- System 1(快思考):基于扩散Transformer,负责以高频率(50Hz+)将规划转化为精确的关节动作。
- 端到端联合训练:两个系统紧密耦合,而非简单的级联。
英伟达的野心不止于模型本身——它还提供了Omniverse(数字孪生)、Isaac Sim(仿真)、Cosmos(视频生成)、Newton(物理引擎)整套工具链,形成“开放但不完全开源”的生态锁定。
Google Gemini Robotics
Google的策略经历了“RT-1开源 → RT-2闭源 → Gemini Robotics打造‘机器人界安卓’”的转变。2025年发布的Gemini Robotics系列模型,目标是做通用的机器人操作系统。
2026年CES上,波士顿动力与Google DeepMind宣布战略合作,将Gemini Robotics整合到Atlas人形机器人中——这是巨头生态派的重要里程碑。
5.1.3 创业公司与中国力量
Xiaomi-Robotics-0(小米, 2026年2月开源)
小米的开源VLA模型采用MoT(Mixture-of-Transformers)混合架构,将“大脑”(VLM)和“小脑”(动作专家)分离,有效缓解了传统VLA模型“学动作、忘视觉”的灾难性遗忘问题。
关键数据:
- 4.7B参数,在LIBERO上平均成功率98.7%
- 训练数据:2亿级机器人轨迹 + 8000万通用视觉-语言样本(含338小时乐高拆卸、400小时毛巾折叠)
- 亮点:可在消费级GPU上实时推理,极大降低了部署门槛
X-VLA(清华AIR + 上海AI Lab, 2025)
仅0.9B参数,却在五大仿真基准上刷新SOTA,是学术界最彻底的开源范本之一。其核心创新是Soft-Prompt机制,解决了跨本体泛化问题。它还实现了120分钟无辅助自主叠衣任务——这是首个公开报道的、能长时间稳定执行精细操作的开源VLA模型。
LingBot-VLA(蚂蚁集团)
强调跨形态泛化:在9种不同的双臂机器人上预训练了2万多小时的真机数据,目标是实现“一个大脑控制所有类型的机器人”。
5.1.4 技术极致派
π0系列(Physical Intelligence)
π0采用**flow matching(流匹配)**技术,能够生成平滑、高频的连续动作序列(50Hz+),在折纸、叠衣等高精度任务上表现出色。
其商业模式是“开源引流+闭源变现”:开源π0模型权重以建立生态标准,但保留训练数据和完整流程作为商业壁垒。
5.1.5 模型对比总表
| 模型 | 机构 | 参数量 | 架构范式 | 核心创新 | 开源程度 | 推理硬件要求 |
|---|---|---|---|---|---|---|
| OpenVLA | Stanford | 7B | 一体化 | 双视觉编码器 | 完全开源 | A100级 |
| Octo | UC Berkeley | ~50M | 适配器式 | 轻量扩散策略 | 完全开源 | 消费级GPU |
| π0 | Physical Intel | 3B | 适配器式 | flow matching | 权重开源 | A100级 |
| X-VLA | 清华/AIR | 0.9B | 适配器式 | Soft-Prompt | 完全开源 | 消费级GPU |
| Xiaomi-Robotics-0 | 小米 | 4.7B | MoT混合 | 大小脑分离 | 完全开源 | 消费级GPU |
| GR00T N1 | NVIDIA | 2.2B | 双系统 | 慢+快思考 | 模型开源 | 需NVIDIA生态 |
| RT-2-X | 55B | 一体化 | 开创性工作 | 闭源 | TPU集群 |
5.2 评测基准全景
VLA模型的评估依赖于一系列基准测试(Benchmark)。然而,这些基准各有侧重、各有“潜规则”。理解每个基准的设计意图和当前饱和程度,是正确解读论文结果的前提。
5.2.1 LIBERO:最常用的多任务基准
设计定位:LIBERO是面向持续学习(Lifelong Learning)的机器人操作仿真基准,核心解决知识迁移的评估问题。
任务结构:包含4个任务套件,共130个语言条件操作任务:
- 空间套件:测试物体空间位置变化的泛化
- 目标套件:测试目标物体变化的泛化
- 物体套件:测试物体种类变化的泛化
- 长距离套件:测试多步骤任务的执行能力
关键发现(来自LIBERO原始论文):
- 时序Transformer优于RNN
- 序列微调的正向迁移强于专用终身学习算法
- ViT适配多物体视觉,ResNet适配程序性知识
- 朴素监督预训练会损害下游持续学习性能
⚠️ 解读指南(非常重要):
| 任务套件 | 当前SOTA水平 | 及格线 | 说明 |
|---|---|---|---|
| 空间/目标/物体 | >95% | 90% | 已基本饱和,>98%的成绩差异不显著 |
| 长距离 | 90-95% | 85% | 仍有区分度,低于85%说明能力不足 |
最大陷阱:LIBERO被设计为持续学习基准,但99%的论文只是在完整数据集上训练后测试,完全没有做持续学习评估。这意味着:
- 一个模型在LIBERO上取得98%的成功率,只能说明它拟合了训练数据分布
- 并不能证明它具有持续学习或知识迁移能力
- 扩散策略(Diffusion Policy)无需任何VLA预训练也能达到90%+的水平
启示:如果一篇论文只在LIBERO上报告结果而没有持续学习实验,这个结果的价值是有限的。
5.2.2 CALVIN:长程任务与泛化能力测试
设计定位:CALVIN是面向长程语言条件操作的仿真基准,核心测试VLA模型的闭环连续控制与跨环境泛化能力。
环境设置:4个结构一致但纹理和布局不同的室内环境(A、B、C、D),搭载Franka机械臂。
三种评估模式:
| 模式 | 训练数据 | 测试环境 | 测试什么 |
|---|---|---|---|
| D | D环境 | D环境 | 微调能力(同环境) |
| ABC | A、B、C环境 | D环境 | 跨环境泛化(最重要) |
| ABCD | A、B、C、D环境 | D环境 | 多样化数据收益 |
⚠️ 解读指南:
| 模式 | 当前SOTA水平 | 优秀线 | 说明 |
|---|---|---|---|
| ABC | >4.5分 | 4.0分 | 最相关,测试零样本泛化 |
| D | >4.0分 | 3.75分 | 测试微调能力 |
| ABCD | >4.5分 | 4.0分 | 测试数据多样性收益 |
关键洞察:ABC版本(在A、B、C上训练,在D上测试)是最有意义的评估,因为它测试了模型对未见环境的泛化能力。如果一个模型只在D版本上报告高分,说明它可能只是记住了训练环境,而非真正理解任务。
5.2.3 SIMPLER:仿真到真实的桥梁
设计定位:SIMPLER是一个Real-to-Sim平台——使用真实机器人数据训练的模型,在仿真环境中进行评估,以便于Sim-to-Real研究。
特点:
- 支持Bridge数据集和Google Robot数据集的仿真版本
- 环境保真度高,可以较好地反映真实部署性能
⚠️ 解读指南:
| 数据集版本 | 当前SOTA水平 | 波动范围 | 说明 |
|---|---|---|---|
| Bridge | 40-99% | 极大 | 跨论文比较不确定性高 |
| Google Robot | 70-80% | 中等 | 相对稳定 |
关键问题:SIMPLER上Bridge数据集的结果波动极大(40%到99%),这意味着:
- 细微的实验设置差异会导致结果巨大变化
- 跨论文直接比较SIMPLER结果是不可靠的
- 应关注同一论文内部的相对比较,而非绝对数值
5.2.4 Open X-Embodiment (OXE):数据基准
设计定位:OXE不是评测基准,而是数据基准——它统一了60个开源机器人数据集,包含22种机器人、超100万条真实轨迹、311种场景、527项操纵技能。
评估协议:
- 小数据域内性能:验证跨具身正向迁移
- 大数据域内效果:检验模型容量对异构数据的拟合能力
- 域外泛化:测试未见物体、环境及跨机器人的新能力
核心发现:基于OXE训练的RT-1-X在小数据场景下平均成功率提升50%,RT-2-X在跨机器人涌现技能上性能达原模型的3倍。
OXE-AugE(增强版):将总轨迹扩充至440万条(原始3倍以上),通过替换机器人具身而非改变任务,引导模型学习具身无关的核心特征。在未见机器人的零样本迁移任务中获得24-45%的成功率提升。
5.2.5 其他值得关注的Benchmark
| Benchmark | 定位 | 特点 |
|---|---|---|
| RLBench | 大规模标准化基准 | 100个手工设计任务,统一Franka机械臂 |
| RoboHiMan | 长程组合泛化 | 引入12类真实扰动,分层评测 |
| MIKASA-Robo | 机器人长时记忆 | 首个机器人记忆专用基准 |
| CEBench | VLA实用性评估 | 跨具身、域随机化,支持移动操作 |
| EIBench | 国产标准化评测 | 中国电子技术标准化研究院发布,XR-1首个通过 |
5.3 批判性阅读:如何判断论文结果的真实价值?
基于以上分析,我们总结出一套评估VLA论文的“批判性阅读清单”:
5.3.1 基准测试的“潜规则”速查表
| 基准 | 如果只报告这个 | 需要警惕 |
|---|---|---|
| LIBERO | 空间/目标/物体套件>98% | 可能已饱和,关注长距离版本和持续学习实验 |
| CALVIN | 只报告D版本 | ABC版本才是泛化能力的真正测试 |
| SIMPLER | Bridge数据集单一结果 | 波动大,需Google Robot版本交叉验证 |
| 任何单一基准 | 只在一个基准上报告 | 需要多基准综合评估 |
5.3.2 论文评估检查清单
问自己这几个问题:
-
模型定义:作者是否明确说明了什么是VLA?是否区分了“互联网预训练VLA”和“多模态策略”?
-
基准选择:是否使用了多个互补的基准?是否报告了最具挑战性的版本(如LIBERO长距离、CALVIN ABC)?
-
基线对比:是否与公平的基线比较?是否与最新SOTA比较(而非只与RT-2比较)?
-
消融实验:是否做了有意义的消融?是否验证了核心创新的必要性?
-
真实世界验证:是否有真机实验?真机环境是否具有挑战性?
-
开源情况:代码、数据、模型权重是否开源?这直接关系到结果的可复现性。
5.3.3 一个重要的提醒:仿真成绩的局限性
VLA领域存在一个值得警惕的现象:模型在仿真基准上的成绩不断提升,但真实世界的部署能力并未同步增长。
原因分析:
- 仿真环境与真实世界之间存在Sim-to-Real差距(光照、摩擦力、传感器噪声)
- 模型可能过拟合到仿真环境的特定特征(如固定的背景纹理)
- 仿真中的“成功”定义往往过于简化
建议:在评估一个VLA模型时,真机实验结果比仿真成绩权重更高。如果一个模型只在仿真上测试,其对真实世界的价值是存疑的。
5.4 本章小结
在本章中,我们完成了以下工作:
-
主流模型全景:按“学院派、巨头生态派、创业/中国力量、技术极致派”四类阵营,盘点了OpenVLA、Octo、π0、X-VLA、Xiaomi-Robotics-0、GR00T N1等代表性模型的技术特点和开源程度。
-
评测基准解读:详细分析了LIBERO、CALVIN、SIMPLER、OXE等核心基准的设计定位和“潜规则”:
- LIBERO已基本饱和,关注长距离版本和持续学习
- CALVIN的ABC版本才是泛化能力的真正测试
- SIMPLER结果波动大,跨论文比较不可靠
- OXE是数据基准,支持跨本体泛化研究
-
批判性阅读框架:提供了一套评估论文的检查清单,帮助你在阅读文献时做出独立判断。
理解这些模型和基准,你就已经具备了阅读和评估VLA论文的基本能力。在下一章(最终章)中,我们将总结VLA领域当前的核心挑战和未来方向,并为你的研究之路提供一些具体的建议。
收到,感谢审核通过。现在进入第六章——也是本系列的最终章。
第六章:挑战与展望——VLA向何处去?
在前五章中,我们系统地介绍了VLA的概念定义、技术架构、训练流程以及主流模型与评测基准。至此,你应该已经对“VLA是什么”、“如何工作”、“当前处于什么水平”有了清晰的认知。
然而,对于一个刚刚踏入这一领域的研究生来说,更重要的问题是:VLA还面临哪些挑战?未来的研究方向在哪里?我应该从哪里入手做出自己的贡献?
本章的目标是:冷静地审视VLA当前的局限性,分析前沿趋势,并为你提供可操作的研究方向建议。 我们不回避问题,也不盲目鼓吹——只有清醒地认识到挑战,才能找到真正有价值的研究切入点。
6.1 核心挑战:VLA距离“可靠部署”还有多远?
尽管VLA在学术基准上取得了令人瞩目的成绩,但从实验室到真实世界的规模化部署,仍面临六大核心挑战。
6.1.1 挑战一:数据稀缺——VLA的“阿喀琉斯之踵”
问题的严重性:
与LLM动辄数万亿token的训练数据相比,VLA可用的机器人操作数据最多只有百万级——相差4-5个数量级。这种数据鸿沟是VLA领域最根本的瓶颈。
| 数据维度 | LLM | VLA | 差距 |
|---|---|---|---|
| 训练数据规模 | 数万亿token | 百万级轨迹 | 104-105倍 |
| 采集成本 | 低(爬取互联网) | 极高(遥操作 ~$50/条) | 不可比 |
| 多样性 | 极广(几乎所有文本领域) | 有限(少数任务/场景) | 数量级差距 |
为什么数据采集如此困难?
- 遥操作成本高:一条高质量的机器人示范轨迹需要人类操作数分钟到数十分钟,每小时采集成本可达数百美元。
- 硬件依赖性:不同机器人平台的数据不兼容,需要为每种机器人重新采集。
- 长尾场景缺失:失败案例、边缘场景(如物体滑落、意外碰撞)在数据中极少出现,但正是这些场景决定了系统的鲁棒性。
当前解法与局限性:
| 解法 | 原理 | 效果 | 局限性 |
|---|---|---|---|
| 人类视频投影(Being-H0) | 从互联网人类视频中提取动作知识 | 减少50-75%真实机器人数据需求 | 视频到动作的映射存在误差 |
| 仿真数据增强 | 在仿真器中生成海量轨迹 | 可无限生成 | Sim-to-Real差距难以完全消除 |
| 跨本体迁移(Octo) | 一个模型适配多种机器人 | 提升数据复用率 | 不同本体的动作空间差异大 |
| 数据混合训练(TRI) | 图文数据+机器人数据联合训练 | 提升泛化性 | 图文数据不包含动作信息 |
研究机会:如何进一步降低数据采集成本?如何从无标注的人类视频中更有效地提取可迁移的操作知识?如何设计更高效的仿真到真实迁移方法?这些都是极具价值的研究方向。
6.1.2 挑战二:泛化性——换一个场景就失效
问题的表现:
VLA模型在训练环境中表现优异,但一旦遇到分布外(Out-of-Distribution, OOD)的情况,性能往往断崖式下降:
- 视觉分布偏移:换一个桌子颜色、不同的光照条件、背景杂乱度变化
- 物体分布偏移:训练时用的是红色方块,测试时换成蓝色方块
- 任务分布偏移:训练时是“拿起杯子”,测试时是“拿起杯子并递给对面的人”
- 环境分布偏移:从实验室部署到家庭环境
为什么泛化困难?
VLA模型的泛化能力来源于预训练VLM的互联网知识,但这些知识是静态的。真实世界的物理交互涉及动态、接触、摩擦等复杂因素,而这些因素在纯视觉-语言预训练中是不存在的。
当前解法与局限性:
| 解法 | 原理 | 效果 | 局限性 |
|---|---|---|---|
| 更大规模预训练 | 更多的数据、更大的模型 | 已被证实有效 | 边际收益递减,算力成本高 |
| 域随机化 | 训练时随机变化环境参数 | 提升对未见变体的鲁棒性 | 难以覆盖真实世界所有变化维度 |
| 在线适应 | 部署后根据新数据微调 | 可针对性改进 | 需要安全机制,可能灾难性遗忘 |
| 测试时训练(TTA) | 在测试时根据自监督信号更新模型 | 无需人工标注 | 推理时计算开销大 |
研究机会:如何让VLA模型具备真正的“概念泛化”能力——理解“红色方块”的本质,而不只是记住了训练集中红色方块的特定外观?如何结合元学习(Meta-Learning)让模型“学会如何泛化”?
6.1.3 挑战三:推理速度——VLM的“慢”与控制的“快”
问题的本质:
VLM推理速度通常在1-10 Hz(每秒处理帧数),而精细的机器人控制需要20-100 Hz。这意味着:模型每“思考”一次,需要输出足够长的动作序列来覆盖下一次思考之前的所有控制信号。
量化问题:
| 模型 | 推理速度 | 控制需求 | 动作块长度需求 |
|---|---|---|---|
| OpenVLA (7B) | ~1-3 Hz | 50 Hz | 16-50步 |
| π0 (3B) | ~5-10 Hz | 50 Hz | 5-10步 |
| X-VLA (0.9B) | ~15-20 Hz | 50 Hz | 2-3步 |
当前解法与局限性:
| 解法 | 原理 | 效果 | 局限性 |
|---|---|---|---|
| 动作Chunking | 一次预测多步动作 | 有效,被广泛采用 | 长chunk降低响应性 |
| 模型蒸馏 | 大模型教小模型 | 速度提升5-10倍 | 精度损失 |
| 量化(INT8/INT4) | 降低数值精度 | 速度提升2-4倍 | 精度损失 |
| 专用硬件 | NPU/TPU加速 | 效果显著 | 成本高,依赖特定硬件 |
| 扩散并行生成 | 非自回归生成 | 理论可大幅提速 | 技术尚未成熟 |
研究机会:如何设计更高效的VLA架构(如A1模型的层间截断)?如何在不牺牲精度的前提下实现10倍以上的推理加速?如何让动作chunking与闭环控制的响应性更好平衡?
6.1.4 挑战四:安全性与可靠性——黑箱的风险
问题的严重性:
VLA模型本质上是黑箱——我们无法完全解释它为什么做出某个决策,更无法保证它在所有情况下都不会产生危险行为。
安全风险的几个维度:
| 风险类型 | 表现 | 案例 |
|---|---|---|
| 物理安全 | 动作过猛、碰撞、过载 | 机械臂撞击人体、夹爪过度用力损坏物体 |
| 任务安全 | 执行错误动作导致任务失败 | 把杯子放到桌子边缘导致掉落 |
| 语义安全 | 误解指令导致不当行为 | “把刀递给我”被误解为“扔过来” |
| 对抗攻击 | 恶意输入导致模型失控 | 特殊图案导致模型产生危险动作 |
当前解法与局限性:
| 解法 | 原理 | 效果 | 局限性 |
|---|---|---|---|
| 动作限幅 | 对输出动作加硬约束 | 防止极端危险动作 | 无法防止“看似安全但实际危险”的行为 |
| 安全过滤器 | 用规则或小模型检查动作 | 可拦截明显危险动作 | 规则难以覆盖所有情况 |
| RLHF安全对齐 | 用奖励信号惩罚危险行为 | 提升安全性 | 需要大量安全标注 |
| 形式化验证 | 数学证明模型在约束内 | 最严格 | 当前VLA规模下不可行 |
研究机会:如何让VLA模型具备“自知之明”——在不确定时主动请求人类帮助?如何设计可证明安全的VLA架构?如何建立VLA安全性的标准化评估体系?
6.1.5 挑战五:长程任务——记忆与规划的局限
问题的表现:
当前VLA模型在多步任务(超过10个步骤)上表现不佳。例如,让机器人“整理房间”——需要识别多个物体、规划顺序、执行操作、验证结果、处理意外——目前没有任何VLA模型能够可靠完成。
根本原因:
- 记忆局限:Transformer的上下文窗口有限(通常4k-32k token),无法“记住”长程任务中的所有历史信息。
- 规划能力弱:VLM擅长的是“一步推理”,而非“多步规划”。
- 错误累积:早期步骤的微小错误会在后续步骤中被放大。
- 缺乏验证机制:模型执行完一个子任务后,不会主动验证结果是否正确。
当前解法与局限性:
| 解法 | 原理 | 效果 | 局限性 |
|---|---|---|---|
| 层次化VLA | 高层规划+低层执行 | 有潜力 | 需要分层标注数据 |
| 具身思维链 | 显式生成步骤计划 | 可解释性好 | 计划到动作的映射仍是挑战 |
| 记忆增强 | 外部记忆模块 | 扩展记忆容量 | 如何读写记忆是开放问题 |
| 闭环重规划 | 执行中持续调整 | 应对错误 | 可能陷入循环 |
研究机会:如何让VLA模型具备真正的规划能力(而非“看起来像规划的模式匹配”)?如何设计高效的验证机制?如何实现“执行-验证-修正”的闭环?
6.1.6 挑战六:评估体系——我们真的在测量“智能”吗?
问题的本质:
当前的评测基准存在一个根本性缺陷:它们测量的是模型对训练数据分布的拟合能力,而非真正的理解与推理能力。
具体问题:
| 问题 | 表现 | 后果 |
|---|---|---|
| 基准饱和 | LIBERO空间/目标/物体套件>98% | 无法区分模型优劣 |
| 数据泄露 | 测试环境与训练环境相似 | 模型可能“记住”而非“理解” |
| 指标单一 | 只看任务成功率 | 忽略安全性、效率、鲁棒性 |
| 缺乏真实验证 | 仅仿真评估 | Sim-to-Real性能未知 |
研究机会:如何设计更能反映“真实智能”的评估基准?如何建立仿真与真实的关联性模型?如何实现自动化的真机评估?
6.2 前沿趋势:ICLR‘26揭示的研究热点
根据对ICLR 2026会议VLA相关投稿(164篇)的分析,以下四个方向是当前的研究热点:
6.2.1 趋势一:离散扩散型动作生成
核心思想:用离散扩散模型替代传统的自回归生成,可以并行生成动作序列,大幅提升推理速度。
技术路线:
- 将动作序列视为一个“噪声逐渐增加”的过程
- 训练模型学习“去噪”——从纯噪声中恢复出动作序列
- 推理时一次性生成整个动作块,而非逐个token生成
优势:
- 推理速度提升5-10倍
- 生成的动作序列具有更好的时间一致性
代表工作:ICLR‘26多篇投稿探索了将离散扩散引入VLA的动作解码器。
6.2.2 趋势二:推理型VLA与具身思维链
核心思想:在生成动作之前,先进行视觉推理和文本推理,让VLA更好地理解任务和环境。
技术路线:
- 提示模型“先思考,后行动”
- 生成结构化的推理过程(如“我看到X,所以Y,因此做Z”)
- 将推理结果作为条件输入动作生成模块
挑战:
- 推理token增加导致推理变慢
- 推理标注数据有限(仍需在BRIDGE、LIBERO等数据集上构建)
- 推理质量与动作质量之间的相关性尚未充分验证
代表工作:ECoT(Embodied Chain-of-Thought)、CoTPC(Chain-of-Thought Predictive Control)
6.2.3 趋势三:新型动作Token化器
核心思想:VLM擅长处理离散token,但机器人动作是连续的。新型token化器将连续动作序列转换为VLM可预测的离散token,同时保持足够的精度。
技术路线:
- VQ-VAE风格:学习一个动作码本,将连续动作映射到最近的码本条目
- 自适应量化:根据动作的“重要性”动态分配量化精度
- 残差量化:多级量化,逐级补偿误差
研究问题:如何设计既能保持VLM架构统一性、又能精确表达复杂动作轨迹的token化器?
6.2.4 趋势四:VLA与世界模型融合
核心思想:VLA负责“做什么”,世界模型负责“会发生什么”。两者结合,可以实现预见性控制——在执行动作前“想象”其后果。
技术路线:
- 训练一个世界模型,预测给定当前状态和动作后的下一状态
- VLA在规划时,用世界模型“模拟”多个可能的动作序列
- 选择“想象”中结果最好的动作执行
优势:
- 提升长程规划能力
- 可在想象中学习,减少真实交互
挑战:世界模型的预测误差会累积;训练世界模型本身需要大量数据。
6.3 研究建议:从哪里开始?
对于刚刚踏入VLA领域的研究生,以下是一些具体的建议:
6.3.1 入门路径
第1-2个月:打好基础
├── 精读本系列文章推荐的综述论文
├── 熟悉Open X-Embodiment数据集格式
├── 安装LIBERO/ManiSkill3仿真环境
└── 跑通OpenVLA或X-VLA的推理代码
第3-4个月:复现与消融
├── 在LIBERO上复现OpenVLA的基准结果
├── 做一组简单的消融实验(如改变训练数据混合比例)
├── 尝试LoRA微调适配一个新任务
└── 分析失败案例,理解模型局限性
第5-6个月:寻找研究切入点
├── 基于对局限性的理解,选择一个挑战方向
├── 阅读该方向的最新论文(ICLR/CoRL/RSS)
├── 提出一个小改进,验证可行性
└── 开展系统实验,撰写论文
6.3.2 研究方向推荐
根据难度和创新潜力,我给出以下分级推荐:
🔰 入门级(适合课程项目/本科毕设):
- 新任务适配:用LoRA微调VLA到新的操作任务
- 数据增强策略:对比不同的仿真数据增强方法
- 推理效率优化:量化和蒸馏在VLA上的效果对比
⭐⭐ 进阶级(适合硕士课题):
- 新的动作token化器设计
- 跨本体泛化方法
- 基于人类视频的预训练改进
- VLA + 传统控制器的混合架构
⭐⭐⭐ 高级(适合博士课题):
- 推理型VLA与CoT的深度研究
- VLA与世界模型的融合
- 安全可证明的VLA架构
- 长程任务中的记忆与规划机制
- 全新的评测基准设计
6.3.3 需要避免的“陷阱”
-
不要在已饱和的benchmark上“刷点”:在LIBERO空间套件上将98%刷到98.5%,对领域没有贡献。
-
不要忽略真实验证:只在仿真上工作的模型,其价值是有限的。
-
不要盲目追求大模型:7B模型在小规模实验室环境下难以训练和部署。X-VLA的0.9B方案可能是更好的起点。
-
不要忽视失败分析:一篇好的论文不仅报告成功率,更重要的是分析为什么失败。
-
不要闭门造车:VLA领域进展极快,保持阅读最新论文、关注开源社区、参与学术交流。
6.4 写在最后:VLA的定位与意义
回到第一章提出的问题:为什么VLA是具身智能的关键一步?
VLA不是终点,而是通往通用具身智能的关键桥梁。它第一次将大模型的常识推理能力与机器人的物理执行能力连接起来,使得“用自然语言指挥机器人做事”从科幻变成了初步的现实。
然而,我们也要保持清醒:当前VLA模型的能力仍然是脆弱的——换一个场景、换一个物体、换一种光照,成功率高台跳水;长程任务、精细操作、安全保证,都还远远不够。
但这恰恰是研究的意义所在。
VLA领域正处于“从0到1已经完成,从1到100刚刚开始”的阶段。对于刚入门的研究生来说,这意味着:
- 机会巨大:很多问题还没有标准答案,你的工作有可能定义这个领域的未来方向。
- 门槛不高:开源生态成熟(OpenVLA、X-VLA、Dexbotic等),你可以在现有基础上快速开展工作。
- 价值明确:VLA技术的突破将直接推动机器人、自动驾驶、具身智能等产业的变革。
“2025年是VLA元年,2026-2027将是VLA从实验室走向落地的关键期。”
希望本系列文章能成为你进入这个激动人心的领域的第一块基石。祝研究顺利!
全系列文章总结
至此,《VLA(视觉-语言-行动模型)介绍》系列文章全部完成。六章内容分别是:
| 章节 | 标题 | 核心内容 |
|---|---|---|
| 第一章 | 引言 | VLA为什么是具身智能的关键一步 |
| 第二章 | 核心概念辨析 | 形式化定义、三要素、术语表 |
| 第三章 | 技术架构 | 一体化/适配器式/层次化三种范式 |
| 第四章 | 训练全流程 | 数据→预训练→微调→部署的完整流程 |
| 第五章 | 主流模型与评测基准 | 模型全景、Benchmark解读、批判性阅读 |
| 第六章 | 挑战与展望 | 六大挑战、前沿趋势、研究建议 |
希望这六章内容能够帮助你建立对VLA领域的系统认知。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)