核心摘要

OpenVLA 是一款完全开源的视觉 - 语言 - 动作模型(VLA),旨在推动通用机器人操作策略的发展。其架构设计复用了成熟的预训练基础模型,围绕三大核心目标展开:多模态信息的有效融合、复杂任务的端到端推理、以及离散输出与连续机器人控制动作的适配转化。该模型采用模块化串联架构,核心组件包括:

  1. 双流视觉编码器:并行提取 DINOv2 空间特征与 SigLIP 语义特征,沿通道维度拼接实现互补融合;
  1. 投影层(Projector) :通过两层感知机(MLP)将融合后的视觉特征映射到大语言模型的嵌入空间;
  1. LLM 骨干网络:采用 7B 参数的 Llama 2 作为核心推理引擎,整合视觉特征与语言指令,自回归生成离散动作 Token。

作为 VLA 类模型的典型实现,OpenVLA 并非从零开始训练,而是基于 Prismatic VLM 框架构建,本质是对预训练的视觉 - 语言模型(VLM)进行微调,以适配机器人动作生成任务。这种设计策略既复用了现有基础模型的强表征能力,又降低了多模态大模型的开发与训练成本。


1. 引言

随着具身智能领域的发展,视觉 - 语言 - 动作模型(VLA)成为机器人技术的核心研究方向 —— 这类模型架起了 “感知环境” 与 “物理动作执行” 之间的桥梁,能将非结构化的视觉感知信息和自然语言指令,转化为机器人可执行的具体控制动作。Closed-source 模型(如 RT-2、PaLM-E)虽然在该赛道取得了一定进展,但其权重、训练数据和扩展细节均未开放,严重限制了技术的迭代速度和实际场景的落地可能性。

OpenVLA 的出现正是为了解决这一行业痛点:它是当时业界首个完全开源的通用型 VLA 模型,不仅开放了模型权重,还配套发布了所有训练数据和完整代码库,为后续技术研究和行业落地提供了可复现、可调整的技术基础。在技术设计路径上,OpenVLA 没有采用 “从零开始训练” 的高成本策略,而是通过高效整合行业内成熟的预训练模型,来构建自己的多模态能力底座;其核心设计逻辑是,复用现有大规模预训练模型的强表征能力,将视觉感知、语言理解与动作预测有机结合,从而以更低的训练成本和更高的迭代效率,实现具备落地价值的通才机器人操作能力。

本文将基于 OpenVLA 的官方技术论文、开源代码库、Prismatic VLM 框架技术说明,以及行业内对该模型的技术解读资料,深入拆解其技术架构,详细分析视觉 - 语言的融合交互逻辑、数据流动方式,以及为实现多模态协同而采用的关键工程设计细节。


2. 整体技术架构概述

OpenVLA 采用了 VLA 类模型的典型三层模块化串联架构,这一设计完全复用了成熟的视觉 - 语言模型(VLM)核心范式 —— 该架构的核心逻辑是,将 “环境感知信息编码”“跨模态特征对齐融合”“联合推理决策” 这三个关键环节,拆分为独立模块依次串联运行;这与传统 VLMs 的核心设计逻辑高度一致,只是在最终输出端增加了动作 Token 生成能力。

具体而言,OpenVLA 的三大核心模块严格按顺序执行以下逻辑:

  1. 视觉编码器:对输入的 RGB 图像进行多维度特征提取与初步融合,将像素级的视觉信息转化为高维特征向量;
  1. 投影层(Projector) :作为跨模态适配接口,将视觉特征向量的维度,严格映射到与 Llama 2 输入嵌入空间完全匹配的 shape;
  1. Llama 2 骨干网络:作为推理决策核心,将映射后的视觉特征 Token 与语言指令 Token 进行统一编码,结合预训练的语言和多模态表征能力,生成目标机器人动作序列。

这一架构的关键优势在于,它极大程度复用了 Prismatic VLM 框架的成熟能力 —— 这是 2024 年早些时候发布的一套开源视觉 - 语言模型训练范式。OpenVLA 对该框架做了适配性微调,将原来的 “文本生成输出模块” 直接替换为 “机器人动作 Token 生成输出模块”,从而以最小的代码改动量,实现了从 “视觉 - 语言理解” 到 “视觉 - 语言 - 动作控制” 的端到端能力升级。

接下来的章节将对每个模块的技术细节、模块间的交互逻辑以及完整的数据流动流程进行拆解。


3. 视觉编码器:双特征融合策略

作为多模态处理的第一环节,OpenVLA 的视觉编码器承担着将感官输入转化为系统可理解的结构化视觉特征的关键职责。与多数单分支结构的主流视觉编码器不同,OpenVLA 采用了双分支并行编码器架构 —— 这是该模型在视觉感知环节的核心创新点,这一架构被其技术基础框架 Prismatic VLM 定义为关键技术贡献,也是 OpenVLA 视觉表征能力的核心来源。

3.1 双编码器并行设计

OpenVLA 的视觉输入处理环节,采用了与 Prismatic VLM 框架完全一致的并行编码策略:输入的单张 RGB 图像,会被同时送入两个独立的预训练视觉编码器中,二者同步提取特征,随后对两组特征进行融合。这一设计的核心逻辑,是让两个分别擅长不同方向的预训练模型,实现能力互补,从而让融合后的视觉特征,能同时满足 “环境空间几何结构感知” 和 “语义信息与语言指令对齐” 这两个对机器人操作至关重要的核心要求。

具体而言,这两个编码器的分工完全不同,且各自匹配了精准的技术选型依据:

  • SigLIP 分支:这是 Google 提出的一种 CLIP 风格的视觉 - 语言预训练模型,其核心特点是采用了基于 Sigmoid 损失的图像 - 文本对齐训练策略。该分支的设计目标,是提取与语言指令语义高度对齐的高层级视觉特征 —— 也就是说,它能将图像中的视觉信息(如 “红色的杯子”),与语言指令中的文本语义(如 “把红色的杯子”)精准关联起来,解决模型 “识别目标” 的基础问题。
  • DINOv2 分支:这是 Meta 提出的一种基于自监督学习的视觉 Transformer 模型,训练过程完全不需要标注数据,仅通过自监督任务就能学到鲁棒的视觉特征。该分支的设计目标,是提取对机器人操作至关重要的低层级空间几何特征 —— 包括物体的精确边缘信息、不同物体之间的深度关系、目标物体的空间朝向与相对位置细节,这些精细空间信息是机器人完成精准抓取、插入、对齐等操作的核心依据。

这两个编码器的输出特征,在后续环节中会被融合为一组特征向量,共同表征输入图像的完整信息。这一互补设计的核心依据,来自 OpenVLA 开发团队的大规模消融实验:实验数据显示,单独使用 SigLIP 编码器的视觉模型,在机器人操作任务上的表现,比双编码器架构低约 5%;且在需要高精度空间定位的任务(如 “把鸡蛋 精准地放进碗里”)中,这个性能差距会进一步放大 —— 这直接证明了 DINOv2 提供的空间特征,是提升机器人操作精度的关键支撑,对模型的实际落地性能至关重要。

3.2 特征融合机制

从技术实现路径看,SigLIP 和 DINOv2 两个编码器的输出特征融合方式,并非采用复杂的交叉注意力、特征混合器或其他非线性融合策略,而是采用了 “按通道维度直接拼接” 的简洁方案 —— 这也是 Prismatic VLM 框架的关键设计决策之一,其核心出发点是在不损失特征表征能力的前提下,最大程度降低融合环节的计算开销。

具体来说,在特征拼接的技术细节上,两个编码器会输出完全相同数量的图像补丁(Patch)特征向量,每个补丁特征都对应输入图像中一块特定的局部区域。在确保两个编码器输出的补丁特征数量完全对齐后,再将两个补丁特征向量,按通道维度直接拼接融合为一个新的、维度增加一倍的特征向量。整个融合过程中,两个编码器的输出特征,仅在通道维度上做拼接,不会在 Token 序列维度发生任何交互或混合。

这一融合策略带来了两个关键且互相匹配的技术优势:

  1. 特征表征能力无损失:由于采用了 “保留两个分支所有特征信息” 的拼接方式,融合后的特征能同时完整保留 SigLIP 的语言语义对齐能力,以及 DINOv2 的精细空间几何感知能力;
  1. 计算成本增量可控:拼接操作本身几乎不产生额外计算开销,仅需要在后续投影层的输入维度上做相应的适配调整 —— 这种适配调整的计算成本,在整个模型的总计算量中占比几乎可以忽略不计。

开发团队的消融实验结果验证了这一策略的有效性:在不增加额外计算成本的前提下,直接拼接的融合效果,优于行业中其他需要额外计算量的融合方式(如特征相加、线性加权融合)。

这一设计决策,也反映了 OpenVLA 核心的工程设计哲学:优先复用经过验证的现有模块,不盲目引入复杂组件,而是通过对成熟组件的高效组合,实现性能提升 —— 在保证融合效果的前提下,优先选择工程实现成本低、技术稳定性高的方案。

3.3 视觉编码器的关键技术细节

为了保证视觉编码的效率与质量,OpenVLA 在视觉端采用了与 Prismatic VLM 框架prism-dinosiglip-224px配置完全一致的图像预处理规范 —— 这是经过大规模实验验证的、综合性能和计算成本的最优配置。该环节的关键技术细节,都有明确的技术选型依据:

  • 输入分辨率:所有输入到模型的 RGB 图像,都会被统一缩放至 224×224 像素的分辨率 —— 这是平衡视觉特征提取效果和计算成本的最优选择。开发团队曾在 224×224 像素和 384×384 像素两种分辨率之间进行对比测试:虽然在传统 VLM 任务中,更高的输入分辨率通常能带来性能提升,但在 VLA 类的机器人操作任务中,提升输入分辨率并没有产生任何明显的任务性能提升;相反,高分辨率图像输入会导致视觉编码器输出的补丁 Token 数量显著增加,最终将整个模型的训练计算开销提升至原来的 3 倍。基于这一实测结论,开发团队最终选择了 224×224 像素的分辨率,将计算资源节省下来,投入到后续 LLMs 的推理环节中,产出了更明显的性能增益。
  • 补丁化处理:在将输入图像送入两个并行编码器之前,模型会将整幅 224×224 像素的图像,按固定规则划分为一系列不重叠的 16×16 像素的小补丁,每个补丁都是一个独立的视觉处理单元。随后,每个补丁的像素数据,会被两个并行的编码器分别编码为一个固定维度的特征向量 —— 这一设计,是视觉 Transformer 类模型的标准预处理流程,其核心目的是将二维的图像像素数据,转化为一维的特征序列,以便后续模块处理。
  • 编码器权重处理策略:与传统 VLMs 训练时 “冻结视觉编码器权重、仅训练后续投影层和 LLM” 的标准做法不同,OpenVLA 在 VLA 训练过程中,会对包括 SigLIP 和 DINOv2 在内的整个视觉编码器权重进行端到端微调。这一设计决策,是开发团队通过大量对比实验得到的关键结论:如果在训练过程中冻结视觉编码器的权重参数,视觉特征的表征能力将无法适配机器人操作任务的特定需求,模型的端到端任务成功率会出现显著下降;在部分测试任务中,冻结视觉编码器的权重,甚至会导致机器人出现明显的异常行为。实测数据显示,在完全相同的模型配置和训练数据条件下,“微调视觉编码器权重” 的模型,在机器人操作任务中的平均任务成功率高达 80.0%,而 “冻结视觉编码器权重” 的模型,平均任务成功率仅为 46.7%。这一巨大差距,证明了微调视觉编码器权重对于 VLA 类模型的必要性 —— 虽然微调整个视觉编码器会显著增加训练阶段的计算开销,但这一代价换来的是模型核心性能的大幅提升。

4. LLM 骨干:Llama 2 的核心作用

在 OpenVLA 的整个多模态架构中,Llama 2 7B 承担着核心推理引擎的职责 —— 它是整个模型的决策中心,负责整合多模态感知信息、理解任务目标、并生成机器人可执行的动作序列。

4.1 核心定位

从技术本质上看,OpenVLA 中的 Llama 2,是一个 “视觉条件驱动的语言模型”—— 它的核心输入有两个:一是经过投影层映射后的融合视觉特征 Token,二是经过分词处理的自然语言指令 Token;它的核心输出,是一个对应机器人连续控制动作的离散 Token 序列。

Llama 2 在这一架构中的核心作用,可以拆解为三个高度耦合的关键职责:

  1. 多模态信息整合:将投影层输出的、与自身嵌入空间维度对齐的融合视觉特征,和语言指令的 Token 嵌入,按一定逻辑顺序拼接成一个统一的多模态 Token 序列,再通过模型的自注意力机制,对这一混合序列进行深度编码;
  1. 任务逻辑推理:基于预训练阶段学习到的通用知识,以及微调阶段学到的 “视觉 - 语言 - 动作” 关联映射,理解语言指令的目标要求,再结合编码后的视觉环境特征信息,推理出完成指定任务的合理动作执行序列;
  1. 动作序列生成:以自回归的方式,逐个输出构成完整动作序列的离散 Token—— 在这个过程中,它会完全复用标准 Llama 2 语言模型的 “下一个 Token 预测” 的核心能力,将动作生成任务,转化为和文本生成逻辑完全一致的 “条件 Token 预测” 任务。

值得注意的是,OpenVLA 选择 Llama 2 作为骨干,并非偶然。根据 Prismatic VLM 框架的原始设计文档,开发团队曾在多个开源语言模型骨干中进行选型对比测试,包括当时主流的 LLaMA、Mistral 以及 Llama 2 的不同参数规模变体。实测数据显示,在所有的候选模型中,Llama 2 7B 参数量级的模型,在 “多模态特征整合能力” 与 “推理计算成本” 之间,实现了最优平衡 —— 它的参数规模,足以支撑对多模态信息的复杂推理;同时,在当时的主流 GPU 计算环境下,无论是训练阶段还是推理阶段,它的计算开销都在可接受范围内。此外,Llama 2 还有一个关键优势:它拥有成熟的开源生态支撑,为后续模型的优化部署(如使用 TensorRT、vLLM 等推理框架进行加速)提供了成熟的基础条件。

4.2 与视觉编码器的交互方式

这两个模块之间的交互逻辑,并非直接进行特征交互,而是通过投影层作为中间适配层,实现间接但高效的协同 —— 这一设计是为了解决两个模块的 “模态语义鸿沟” 问题:视觉编码器输出的是 “视觉空间特征”,而 Llama 2 处理的是 “语言语义特征”,二者在特征分布、嵌入维度上都存在不匹配的问题,无法直接融合或交互。

具体来说,视觉编码器与 Llama 2 的交互流程,遵循 “适配 - 拼接 - 输入” 的标准三步曲逻辑:

  1. 特征适配:融合后的视觉特征,首先被送入投影层,通过这一层的线性变换操作,将视觉特征的原始维度,精确映射到 Llama 2 模型的输入嵌入空间维度 —— 这是保证后续多模态特征可融合的基础前提;
  1. 序列构建:在完成维度适配后,经过投影层处理的视觉特征 Token 序列,会与语言指令的 Token 序列,按预定义的规则拼接成一个完整的、统一的输入 Token 序列。这一拼接过程中,两类 Token 的相对位置,会遵循特定的设计逻辑,以保证模型的注意力机制可以正确地对两种模态信息进行关联建模;
  1. 联合编码与推理:拼接完成的统一 Token 序列,会被输入 Llama 2 骨干网络;网络的多头注意力机制,会对序列中的所有 Token 进行联合编码,建立起视觉感知信息和语言指令之间的语义关联;随后,经过多层 Transformer 模块的特征强化后,模型会基于联合编码的结果,自回归地生成动作 Token 序列。

这一交互设计的核心逻辑,是将 “视觉特征到语言特征的空间映射转换”,完全委托给一个轻量级的投影层来完成 —— 这是当前视觉 - 语言模型领域的主流成熟方案。它的核心优势在于,既解决了不同模态特征之间的 “语义鸿沟” 问题,又无需对预训练的 LLM 骨干网络进行大规模结构修改;在实际训练过程中,这一设计的额外计算成本,也被控制在了一个非常低的水平。

4.3 输入序列构建逻辑

为了让 Llama 2 能正确理解视觉信息与语言指令之间的关联,OpenVLA 设计了一套明确的输入 Token 序列拼接规则 —— 这是保证多模态融合效果的关键实现细节,在官方论文中有着严格的定义。在实际执行过程中,输入序列的构建顺序,会严格遵循 “视觉优先、指令跟进” 的标准范式。

具体来说,整个输入序列的构建流程,分为三个严格按顺序执行的步骤:

  1. 视觉 Token 占位符替换:首先,在语言指令的文本中,会预先插入一个或多个特殊的<image>占位符 Token,用来标记视觉特征在整个输入序列中的位置;随后,在模型的预处理环节中,这些预先插入的<image>占位符 Token,会被直接替换为投影层输出的、实际的视觉特征 Token 序列;
  1. 模态 Token 拼接:在完成占位符替换后,视觉特征 Token 序列,会与语言指令的分词后的文本 Token 序列,直接拼接成一个完整的、更长的 Token 序列;
  1. 统一位置编码:最后,这个由 “视觉特征 Token + 语言指令 Token” 组成的完整序列,会被添加上标准的位置编码信息,随后被输入到 Llama 2 骨干网络中。

关于这一拼接规则的技术细节,在 OpenVLA 的官方技术文档和 Prismatic VLM 框架的源码中,都有明确的定义和实现逻辑。根据 Prismatic VLM 框架的官方技术说明,这一 “视觉特征序列替换<image>占位符” 的拼接方案,能最大程度复用 Llama 2 预训练阶段学习到的 “条件生成” 能力 —— 让模型在处理语言指令时,能自然地将视觉特征作为 “前置环境条件信息” 来使用。此外,这一方案还有一个工程设计层面的优势:在构建输入序列时,视觉特征 Token 和语言指令 Token 的所有拼接操作,都只在 Token 序列维度上进行,不会影响特征的通道维度;这进一步降低了跨模态融合环节的工程实现难度,也保证了整个模型在输入处理环节的计算稳定性。


5. 投影层:跨模态交互的关键桥梁

在 OpenVLA 的多模态架构中,投影层是实现 “视觉特征” 与 “语言特征” 有效融合的关键桥梁 —— 它是保证视觉编码器和 Llama 2 骨干网络协同工作的核心适配组件。这一模块虽然参数规模远小于视觉编码器和 Llama 2,但对整个多模态架构的协同工作效果,起着决定性作用;它的设计质量,直接决定了后续 Llama 2 对多模态信息的理解能力。

5.1 设计必要性

投影层的存在,是为了解决多模态融合中的一个关键技术不匹配问题:直接拼接后的融合视觉特征,其维度和特征分布空间,与 Llama 2 模型所要求的输入嵌入空间的维度、特征分布,无法直接对齐 —— 这是由两种模态特征的本质差异决定的。

如果没有这一投影层作为中间适配组件,会出现两个严重的技术问题:一是两种模态的特征无法在同一个嵌入空间内进行比较或融合;二是 Llama 2 骨干网络,无法有效处理视觉编码器输出的特征,导致整个多模态融合的效果出现大幅衰减。

从技术原理上,这个投影层的作用,是对融合后的视觉特征进行一次 “特征空间的线性变换”—— 将其从原始的、独立的视觉特征空间,精准映射到 Llama 2 骨干模型的预训练语言嵌入空间中;在这个过程中,视觉特征的关键表征信息会被尽可能保留,同时其分布形态被调整为和语言特征的分布形态高度对齐,从而实现跨模态特征的高效融合。这一设计是当前视觉 - 语言模型领域的主流成熟方案,在多数多模态 LLM 架构中都采用了类似设计,以平衡性能和实现复杂度。

5.2 架构细节

OpenVLA 的投影层在技术设计上完全遵循了 Prismatic VLM 框架的标准配置,其结构和设计决策同样以简洁高效为核心目标。

具体来说,这一模块的技术细节如下:

  • 网络结构配置:采用了一个极轻量级的多层感知机(MLP)—— 整个感知机仅由两个完全连接的线性层组成,在两个线性层之间,还加入了一个非线性激活层,用来引入特征映射过程中的非线性变换能力;
  • 输入输出维度设计:该投影层的输入维度,会严格匹配 “SigLIP 和 DINOv2 两个编码器输出特征维度之和”—— 即拼接完成后的融合视觉特征维度;而它的输出维度,则会被严格设置为 Llama 2 模型的词嵌入层维度,以保证特征输入的完全对齐;
  • 核心设计逻辑:这一投影层的核心设计逻辑,是在 “将融合视觉特征映射到语言嵌入空间” 的前提下,尽可能少地引入额外参数 —— 以最大程度降低对预训练模型原有特征的干扰,减少模型训练和推理阶段的计算开销。

根据 Prismatic VLM 框架的技术文档,这一轻量级 MLP 投影层的设计方案,是经过大量实验验证的最优选择:与 “仅使用单个线性层作为投影层” 的方案相比,这一方案在不显著增加参数规模的前提下,大幅提升了跨模态特征的融合效果;与 “使用更复杂的多模态交叉注意力层” 的方案相比,它又将投影层的计算开销,降低了一个数量级。此外,这一设计还有一个关键优势:它对所有输入图像的补丁特征,都采用了完全相同的映射方式;这意味着,视觉特征在被投影层映射到语言嵌入空间后,仍然能完整保留输入图像中各个补丁之间的相对空间位置关系 —— 这对于后续 Llama 2 骨干网络理解视觉空间信息至关重要。

5.3 协同工作流

在 OpenVLA 的完整多模态数据流中,投影层的工作流,紧密衔接在视觉编码器的输出端和 Llama 2 的输入端之间,是整个多模态数据流中不可或缺的核心环节。

具体来说,它的完整工作流可以拆解为以下几个关键步骤:

  1. 特征接收:双流视觉编码器输出的两组特征向量,会先沿通道维度拼接为一个融合特征向量;随后,这个融合特征向量,会被立即送入投影层的输入层;
  1. 维度适配与特征强化:在投影层内部,融合的视觉特征向量的维度,会被第一层线性层调整为一个中间维度;随后,经过非线性激活层的特征强化,再通过第二个线性层,将维度精确映射为 Llama 2 模型要求的输入嵌入空间维度;
  1. 特征分发:投影层输出的、已经完成维度适配的视觉特征,会被直接送入 Llama 2 骨干网络的输入层,与经过分词处理的语言指令 Token 进行拼接,构建成完整的多模态输入序列;
  1. 同步更新机制:在模型的端到端训练阶段,投影层的所有网络参数,会与视觉编码器的参数、Llama 2 骨干网络的参数一起,被同步更新 —— 这保证了它的特征映射逻辑,可以随着模型训练的迭代,不断适配多模态特征融合的需求。

这一工作流的设计,体现了 OpenVLA 架构的核心模块化思想:视觉编码器、投影层、Llama 2 骨干网络,这三个模块之间完全解耦,每个模块都可以被单独替换或调整技术配置;同时,三个模块又通过标准化的特征输入输出接口,实现了高效的串联协同。这一设计,极大提升了整个模型的可维护性和可扩展性 —— 例如,开发者可以在不调整其他两个模块的前提下,仅将视觉编码器替换为 DINOv2 的更大参数规模变体;或者,在不修改视觉编码器和语言骨干网络的前提下,仅将投影层的 MLP 结构替换为更复杂的特征融合结构。这种模块化的设计思路,为后续模型的迭代优化,提供了足够的灵活度。


6. 完整技术架构与数据流动逻辑

结合上述对各个核心模块的技术细节分析,我们可以梳理出 OpenVLA 从原始输入到动作输出的完整端到端技术流程。这一流程的核心逻辑是,将 “多模态输入处理”“跨模态特征融合”“骨干网络推理”“动作序列生成” 这四个关键环节,串联成一个完整的、可端到端训练的工作流,实现从 “图像 + 语言” 输入到 “机器人动作” 输出的端到端映射。

6.1 完整数据流动 pipeline

OpenVLA 的数据流动过程严格遵循 “输入处理→多模态编码→融合推理→输出映射” 的四阶段标准流水线逻辑。整个流动流程的详细技术细节,以及每个环节的关键设计依据,如下所述:

  1. 输入预处理阶段
    • 系统输入数据有两类:一类是机器人摄像头采集的、需要被模型感知的单帧 RGB 图像,或是在部分机器人设置下的多帧连续图像;另一类是用户输入的、用自然语言描述的机器人任务指令(例如 “把红色的杯子放到蓝色的盘子里”)。
    • 所有输入的 RGB 图像,会被统一缩放至 224×224 像素的分辨率;随后,被转化为一个标准化的像素矩阵,这个矩阵的通道顺序、像素值归一化规则,与预训练视觉编码器的要求完全匹配;
    • 语言指令会被 Llama 2 自带的分词器(Tokenizer)进行分词处理,将完整的指令文本,切分为模型可处理的离散语言 Token 序列。
  1. 视觉编码与多模态特征融合阶段
    • 预处理后的图像数据,会被并行送入 SigLIP 和 DINOv2 两个视觉编码器,同步提取互补的视觉特征;
    • 两个编码器输出的特征向量,会沿通道维度直接拼接,生成一个维度加倍的、融合了语义和空间信息的视觉特征向量;
    • 融合后的视觉特征向量,会被送入投影层,经过两层 MLP 的特征映射后,被转换为一组新的特征向量 —— 这组向量的维度,与 Llama 2 模型的输入嵌入空间维度完全匹配。
  1. 多模态输入序列构建阶段
    • 投影层输出的视觉特征 Token 序列,会与经过分词处理的语言指令 Token 序列,按预定义的拼接规则,组合成一个完整的统一多模态 Token 序列;
    • 同时,模型会为这个统一序列中的每个 Token,添加一个标准的位置编码向量 —— 这是为了让模型能感知各个 Token 的相对空间位置关系,保证后续注意力机制的正常工作;
    • 最终,这个带有位置编码的统一 Token 序列,会被送入 Llama 2 骨干网络中进行推理。
  1. Llama 2 推理与动作生成阶段
    • Llama 2 骨干网络,会对整个输入的多模态 Token 序列进行联合编码 —— 通过它的多层多头注意力机制,来建立视觉特征和语言指令 Token 之间的语义关联;
    • 随后,模型会以 “自回归” 的方式,逐个生成预测的动作 Token 序列;在这个过程中,每一个新生成的动作 Token,都会被作为条件,加入到已生成的 Token 序列中,用来预测下一个 Token;
    • 这一自回归生成过程的终止条件,是模型输出了一个特定的 “结束序列” Token,或者达到了预定义的最大动作序列长度。
  1. 动作后处理阶段
    • 模型输出的离散动作 Token 序列,会被送入一个专门的动作反分词器(Detokenizer);这个反分词器,会按照预定义的映射规则,将每个离散 Token 转换为机器人的连续控制动作维度 —— 具体来说,是将每个 Token,映射为一个在 [-1, 1] 区间内的连续控制数值;
    • 随后,这些连续控制数值,会被进一步缩放、转换为机器人执行机构的实际物理控制量(例如关节旋转角度、执行器移动的直线距离);
    • 最终,这些格式化后的控制指令,会被输出到机器人的控制器中,驱动执行机构完成指定的任务。

这一数据流动的完整技术细节,在 OpenVLA 的官方技术文档和 Prismatic VLM 框架的源码中,都有完全对应的实现逻辑;整个流程中各个模块的串联顺序、特征的传递方式,都与 Prismatic VLM 框架的标准配置完全一致。

6.2 多模态交互的核心逻辑

从本质上看,OpenVLA 的多模态交互核心逻辑,并非是在特征层面让视觉模块和语言模块进行直接交互,而是以语言模型为核心主体,将视觉特征作为 “额外的前置条件信息”,通过特征适配的方式,融入到语言模型的输入空间中 —— 这是对 Prismatic VLM 框架的多模态融合逻辑的直接复用。

这一交互逻辑的关键技术细节,可以拆解为两个核心层面:

  • 融合发生阶段:多模态融合的关键发生阶段,并非在视觉编码环节,也不是在 LLM 的中间层,而是在模型输入的 Token 序列构建阶段 —— 更精确地说,是在投影层完成视觉特征映射之后,Llama 2 骨干网络对输入序列进行编码之前。在这个时间点,两种模态的特征,已经被统一到了相同的嵌入空间维度,具备了融合的基础;
  • 融合的依赖机制:跨模态融合的效果,完全依赖于 Llama 2 骨干网络的自注意力机制 —— 在拼接后的输入 Token 序列中,视觉特征 Token 和语言指令 Token,会通过自注意力机制,互相建立语义关联;这一机制,能让模型在处理语言指令时,自动将视觉特征作为环境条件信息来参考,反之亦然。

这一设计的核心优势在于,它完全复用了预训练 LLM 的原生能力,不需要引入任何额外的多模态融合模块;这不仅降低了整个模型的工程实现复杂度,更重要的是,能最大程度保留 Llama 2 骨干网络在预训练阶段学习到的通用语言表征能力 —— 这是提升模型泛化性的关键基础。


7. 关键实现细节与工程优化

为了让 Llama 2 与视觉编码器有效协同,保证从多模态输入到动作输出的端到端效果,OpenVLA 在技术实现上,采用了多个经过验证的关键工程设计细节和优化方案;这些方案,都是为了克服 “将视觉 - 语言模型适配到机器人动作任务” 时会面临的典型技术挑战。

7.1 动作 Tokenizer:离散输出与连续控制的适配

这是 OpenVLA 区别于标准视觉 - 语言模型的关键改造点,也是它能实现 “动作输出” 的核心技术支撑 ——LLM 本质是一个 “离散 Token 生成器”,但机器人的实际控制动作,是在连续空间内的数值(例如关节旋转角度、执行器移动距离);这就需要一个技术方案,将 LLM 的离散输出,映射为机器人的连续控制指令。

具体来说,这一环节的技术实现逻辑,分为三个关键步骤:

  1. 动作空间的离散化处理:机器人的每个连续动作控制维度(例如末端执行器的三维空间平移量、三维空间旋转量、以及夹持器的开合量),都会被独立地离散化为 256 个 bins—— 这个划分的依据,是所有训练数据中该维度动作的实际数值分布;在这个量化过程中,每个 bin 都会被设置成包含近似相等数量的训练样本 —— 这一设计,是为了保证模型在训练过程中,对每个 bin 的学习权重是均衡的,同时能让离散后的动作,尽可能保留原始连续动作的精度;
  1. 词表复用与 Token 映射:OpenVLA 没有选择对 Llama 2 自带的分词器词表进行扩展(这会导致模型的预训练能力损失),而是采用了一种更巧妙的 “覆盖式映射” 策略:它将分词器词表中使用频率最低的 256 个 BPE Token(这些 Token 对应的是日常文本中极少使用到的字符组合),直接覆盖为新的动作 Token。在训练阶段,每个离散化后的动作 bin,会被唯一映射为这 256 个动作 Token 中的一个;在推理阶段,模型输出的每个动作 Token,都会被反映射为对应的动作 bin 区间;随后,再根据训练数据中该 bin 对应的实际动作数值分布,将其转换为一个具体的连续控制量;
  1. 动作序列的生成逻辑:在实际执行过程中,机器人的一个完整控制动作,通常包含 7 个独立的自由度维度 —— 具体包括:末端执行器在三维空间内的 3 个平移自由度、3 个旋转自由度,以及夹持器的 1 个开合自由度。在生成动作序列时,模型会按预定义的顺序,为这 7 个自由度,分别生成一个对应的离散动作 Token—— 每个 Token,都对应一个自由度的控制量;这 7 个 Token 组合在一起,就构成了机器人执行机构的一个完整的动作指令。

这一 “动作 Tokenizer” 方案的核心设计逻辑,是在 “不破坏 Llama 2 预训练的语言表征能力” 的前提下,将机器人的动作控制,转化为一个标准的 “下一个 Token 预测” 任务 —— 这是 OpenVLA 能复用 LLM 原生能力生成机器人动作的关键前提,也是整个模型能被端到端训练的核心基础。

7.2 训练过程的关键优化细节

OpenVLA 的训练策略,是保证其多模态融合效果的另一个关键维度 —— 在这一环节中,开发团队采用了多个与传统视觉 - 语言模型不同的关键优化细节,来克服 “从 VLM 适配到 VLA 任务” 的技术挑战。

7.2.1 端到端的微调整体性策略

与传统 VLMs 训练中 “冻结视觉编码器、仅训练投影层和 LLM 骨干” 的标准做法不同,OpenVLA 采用了 “全参数端到端微调” 的训练策略:在训练过程中,视觉编码器、投影层和 Llama 2 骨干网络的所有可训练参数,都会被同步更新 —— 这意味着,整个模型的所有模块,都在随着训练的迭代,不断适配机器人操作任务的目标需求。

这一策略的技术选型依据,来自开发团队的对比消融实验:实测数据显示,在 VLA 任务中,“冻结视觉编码器参数” 的训练方式,会导致模型的端到端任务成功率出现大幅衰减;在部分需要高精度空间定位的任务中,甚至会下降到接近零的水平。而在完全相同的训练条件下,“微调视觉编码器所有参数” 的模型,平均任务成功率比 “冻结视觉编码器参数” 的模型高出了 33.3%—— 这一结果,直接证明了微调视觉编码器的必要性。

这一结论的技术逻辑在于,预训练的视觉编码器的特征,是为通用视觉 - 语言任务设计的,并没有针对机器人操作任务的 “精细空间特征提取需求” 做过适配;如果直接冻结它的参数,其提取到的特征,将无法支撑后续 Llama 2 骨干网络完成高精度的动作推理 —— 这也是为什么,传统的 VLM 训练策略,无法直接复用到 VLA 任务中的核心原因。

7.2.2 训练数据的精心筛选

OpenVLA 的训练数据规模,远大于多数 VLM 模型 —— 它的训练集,是在开源的 Open X-Embodiment 数据集的基础上,经过精心筛选和整合后构建而成的;这是一个包含了来自 70 多个不同机器人数据集、97 万条真实机器人操作轨迹的超大规模、多源混合训练数据集。

开发团队对原始数据集的筛选和整合目标,是为了保证训练数据在 “机器人形态、任务场景、任务类型” 这三个核心维度上的覆盖度,确保训练后的模型能在未知的机器人形态和任务场景下,具备足够的泛化能力。具体来说,这一筛选过程的关键步骤,包括以下三个环节:

  1. 数据过滤:首先,开发团队会从完整的 Open X-Embodiment 数据集中,筛选出符合 “单臂机器人操作、第三人称视角摄像头、仅包含基础操作任务” 这三个条件的子数据集;
  1. 数据去重:随后,在筛选出的子数据集中,开发团队会进一步去除重复的、与任务目标无关的无效轨迹数据 —— 这一步骤,是为了避免模型在训练过程中,被无效数据干扰,保证训练数据的整体质量;
  1. 数据混合加权:最后,将经过去重的多个子数据集,按一定的比例混合在一起,构建出最终的训练数据集。在这个混合过程中,每个子数据集的比例权重,是根据它的 “任务场景多样性、样本质量高低” 这两个指标, heuristically 确定的 —— 这一设计,是为了让模型在训练过程中,优先学习到更具泛化性的任务特征,避免在单一数据集上出现过拟合。

这一经过精心筛选和整合的训练数据集,是 OpenVLA 具备 “跨不同机器人形态泛化能力” 的核心支撑 —— 它的泛化性,远优于在单一机器人数据集上训练的模型。此外,为了进一步提升模型的泛化性,开发团队还在训练过程中,加入了标准的图像增强技术 —— 包括对输入图像进行随机裁剪、旋转、亮度调整、对比度调整等;这些技术,都在视觉特征层面,进一步强化了模型的泛化能力。

7.2.3 训练超参数的精准配置细节

OpenVLA 训练过程中的核心超参数,是经过大规模实验验证后,综合权衡性能和稳定性的最优选择 —— 这一环节的精准配置,是保证模型最终效果的关键前提。关于这些超参数的选择依据,官方技术论文中给出了详细的实验数据支撑:

  • 优化器与学习率配置:模型训练过程中,采用了 AdamW 优化器 —— 这是目前 LLM 和多模态模型领域最常用的优化器,它能在训练过程中,自动调整模型参数的学习步长,实现更稳定的收敛;并且,所有模块的参数,都采用了一个固定的、大小为 2e-5 的学习率 —— 这一数值,是开发团队在 1e-6 到 1e-3 的区间内,通过多轮超参数搜索实验后,找到的最优选择。此外,训练过程中没有采用学习率预热(Learning Rate Warmup)策略 —— 这是因为在实验中,这一策略并没有带来明显的泛化性能增益;
  • 训练轮次设置:与典型的 LLM 或 VLM 训练最多只需要 1-2 个 epoch 不同,OpenVLA 的完整训练,需要对整个训练数据集进行 27 轮完整遍历 —— 这一数值,是开发团队根据 “动作 Token 的训练准确率” 这一核心指标确定的:在实验中,当这一指标达到 95% 以上时,模型的实际机器人操作性能,才会达到一个稳定的最优水平;而在采用混合精度训练的情况下,遍历完整训练数据集 27 轮,是达到这一准确率阈值的最小区间;
  • 计算资源配置:模型的最终训练任务,是在一个由 64 张 NVIDIA A100 GPU 组成的大规模计算集群上完成的;整个训练过程,持续了整整 14 天,总共消耗了 21500 个 A100 GPU 计算小时数 —— 这是一个相当大的计算量,只有在超大规模 GPU 集群的支撑下,才能完成模型的训练工作;
  • 混合精度训练设置:为了在不损失模型精度的前提下,降低训练过程中的计算资源开销,OpenVLA 采用了标准的 “混合精度训练” 技术 —— 在训练过程中,模型的大部分中间层计算,会采用精度为 16 位的浮点数格式,而不是传统的 32 位浮点数格式;这一技术,能将训练过程中的显存占用量减少约 40%,计算吞吐量提升约 30%,且不会对模型的最终效果产生任何可感知的负面影响。

这些超参数的配置细节,在官方技术论文中,都有对应的实验数据支撑;每一个参数的选择,都是为了在 “模型收敛速度”“训练稳定性” 和 “模型最终泛化性能” 这三者之间,取得最优的平衡。

7.3 视觉与语言对齐的保证机制

为了保证视觉特征与语言特征在融合后的语义一致性,OpenVLA 除了在视觉编码器端采用了 “SigLIP+DINOv2” 的互补特征设计方案之外,还在整个架构中,采用了两个额外的关键技术支撑点,来强化这一对齐效果:

  • 预训练特征的继承性:两个视觉编码器的预训练权重,以及 Llama 2 的预训练权重,都是在大规模的公开数据集上预先训练得到的 —— 它们的特征空间,已经在海量预训练数据的支撑下,实现了初步的语义对齐;这为后续多模态微调阶段的特征对齐,提供了坚实的基础;
  • 投影层的适配性训练:在训练过程中,投影层的所有参数,会被端到端地微调 —— 这意味着,它的特征映射逻辑,会随着训练的迭代,不断学习如何更好地将视觉特征,映射到与语言特征对齐的嵌入空间中;这一过程,相当于在特征层面,对两种模态的特征进行了进一步的对齐;
  • 多模态注意力机制的强化作用:在 Llama 2 骨干网络中,视觉特征 Token 和语言指令 Token,会被输入到同一个多头注意力机制中;在这个机制的作用下,模型会在训练过程中,自动建立视觉特征和语言指令之间的语义关联,进一步强化跨模态特征的融合效果。

这一整套设计方案,保证了两种模态的特征,能在 Llama 2 的输入空间中,实现高度的语义对齐 —— 这是后续模型能正确理解 “视觉环境信息 + 语言指令”、并生成合理动作序列的核心前提。


8. 总结

OpenVLA 是一个将成熟的预训练视觉模型与语言模型有机结合的典型多模态工程应用案例 —— 它的核心技术架构,围绕 “复用基础模型能力” 和 “适配机器人动作任务需求” 两大核心目标展开设计与工程化实现。

核心技术架构回顾

它的整个技术架构,由三个高度解耦但又高效协同的核心模块串联组成:

  1. 双流视觉编码器:采用并行的 SigLIP 与 DINOv2 双编码器架构,分别提取与语言语义对齐的高层级视觉特征,以及对机器人操作至关重要的低层级精细空间特征;随后,这两组互补的特征向量,会沿通道维度直接拼接,生成融合后的视觉特征;
  1. 投影层:采用一个轻量级的两层 MLP,作为跨模态适配的核心桥梁 —— 它将融合后的视觉特征,精准映射到 Llama 2 骨干模型的输入嵌入空间维度,实现多模态特征的对齐;
  1. Llama 2 骨干网络:作为整个模型的推理核心,它接收投影后的视觉特征 Token 与语言指令 Token,将二者拼接为统一的多模态输入序列,再通过自回归的方式,生成对应机器人连续控制动作的离散 Token 序列。

关键设计逻辑与技术突破

OpenVLA 的设计,充分体现了 “没有最好的模型,只有最合适的模型” 的工程化原则 —— 它的核心技术创新点,并非在算法层面提出了革命性的多模态融合方案,而是在多模态融合层面,做出了多个经过实验验证的、高效且具备强落地性的关键设计决策:

  1. 双编码器的特征互补设计:放弃了 “单一视觉编码器兼顾语义和空间特征” 的常规方案,而是采用了 SigLIP 和 DINOv2 两个分别擅长不同方向的预训练编码器,实现了 “语言语义对齐” 和 “精细空间几何感知” 的双重提升;
  1. 简洁但高效的融合策略:没有采用复杂的多模态融合模块,而是选择了 “按通道维度直接拼接” 的简单方案 —— 在保证融合效果的前提下,将额外计算开销控制到了最低水平;
  1. 轻量化投影层适配设计:采用了轻量级的两层 MLP 作为跨模态桥梁,在以较低计算成本完成特征维度适配的同时,避免了对预训练模型原有特征的过度干扰;
  1. 骨干模型的能力复用:将多模态融合和动作生成的核心任务,交给了成熟的 Llama 2 模型 —— 将机器人动作生成任务,转化为一个标准的 “下一个 Token 预测” 任务,最大化复用了预训练语言模型的泛化能力;
  1. 离散动作的适配化设计:通过 “覆盖 Llama 词表中低频率 Token” 的巧妙方案,将连续的机器人动作,映射为离散的 Token 输出 —— 在不破坏预训练语言模型能力的前提下,实现了对机器人连续控制动作的适配;
  1. 端到端微调的训练策略适配:放弃了传统 VLM 任务中的 “冻结视觉编码器” 方案,转而采用了 “全参数端到端微调” 的训练策略 —— 让视觉编码器的特征提取逻辑,能更好地适配机器人操作任务的具体需求。

技术局限性

OpenVLA 虽然在技术层面取得了一定的突破,但作为一款 VLA 模型,它的技术架构和落地场景,仍然存在着一些明显的局限性,需要后续持续迭代来补足:

  • 依赖固定的输入分辨率:模型的输入分辨率,在训练阶段被固定为 224×224 像素;在实际部署时,如果遇到摄像头输入分辨率变化的情况,需要对图像进行额外的缩放处理 —— 这可能会导致部分视觉细节的丢失,进而影响到模型的泛化性能;
  • 视觉特征融合的潜力限制:采用了 “直接拼接” 的简单融合策略,这虽然在一定程度上保证了模型的推理效率,但在一些对视觉特征要求极高的场景下,可能无法充分发挥两个编码器的特征融合潜力;
  • 长序列动作生成的泛化性不足:Llama 2 的上下文窗口大小,限制了模型对长距离多模态依赖关系的建模能力 —— 这意味着,它在生成长序列、复杂机器人控制动作时,泛化性可能会出现明显衰减;
  • 单方向的多模态融合逻辑:模型的多模态融合逻辑,采用的是 “视觉特征输入到语言模型中” 的单方向方案 —— 这可能会导致在一些以视觉信息决策为主的任务中,模型无法充分利用视觉特征的丰富表征信息;
  • 训练成本相对较高:整个模型的端到端训练过程,需要消耗大量的 GPU 计算资源 —— 这对普通研究人员来说,是一个极高的技术门槛;
  • 动作输出的精度瓶颈:动作的离散化方案,存在着固有量化误差 —— 在部分需要极高操作精度的工业级机器人任务中,这一误差可能会超过任务要求的精度阈值,直接影响任务的完成质量。

技术意义与后续发展方向

OpenVLA 的技术架构,为后续开源 VLA 模型的发展,提供了一个成熟、可落地的基础技术范本 —— 它证明了,通过高效整合行业内成熟的预训练基础模型,可以以较低的技术成本,构建出具备强泛化能力的、可实际落地的视觉 - 语言 - 动作模型;并且,其性能可以比肩甚至超过闭源的商业级模型,为后续 VLA 模型的实用化,提供了一条可验证的技术路径。

从技术发展的角度来看,OpenVLA 的后续迭代优化方向,以及行业内对这类模型的技术优化方向,主要集中在以下几个维度:

  • 轻量化与推理加速:在保证泛化性能的前提下,对模型进行轻量化改造,减少参数规模、降低推理阶段的计算资源开销 —— 以实现它在边缘端低算力设备上的部署;
  • 多模态融合策略的升级:引入更先进的、计算开销可控的多模态融合策略,来替代当前的 “拼接 + MLP” 简单方案 —— 进一步提升跨模态特征的融合效果,强化模型的泛化性能;
  • 动作生成模块的改造:对动作生成模块进行针对性改造,将 “离散动作输出” 方案,升级为 “连续动作输出” 方案 —— 消除量化误差带来的精度瓶颈,获得更高的动作控制精度;
  • 长序列上下文建模能力的提升:采用更先进的位置编码技术、注意力机制优化方案,来提升 Llama 2 骨干网络对长距离多模态依赖关系的建模能力 —— 支撑模型完成更复杂的长序列任务;
  • 多视觉模态的支持:在现有 RGB 图像输入的基础上,扩展对其他视觉模态的支持能力 —— 通过多模态感官信息融合,进一步提升模型的环境感知能力;
  • 训练与推理效率的优化:通过引入更高效的注意力计算方法、模型量化技术,进一步提升模型的训练与推理效率,降低实际部署成本;
  • 泛化性的进一步提升:扩充训练数据的场景覆盖范围,引入更先进的、针对多模态和动作任务的增强技术 —— 进一步强化模型在未知场景下的泛化能力。

总的来说,OpenVLA 以一种相对简洁、但工程化思路非常成熟的架构,将视觉 - 语言模型技术与机器人动作控制任务进行了高效结合;它的出现,为通用机器人操作策略的发展,提供了一个性能强劲、完全开放、可落地的基础技术范本。


参考资料

  1. OpenVLA 官方论文:Kim et al., "OpenVLA: An Open-Source Vision-Language-Action Model", 2024. arXiv:2406.09246 [cs.RO]
  1. OpenVLA 官方开源代码仓库:GitHub - openvla/openvla: OpenVLA: An open-source vision-language-action model for robotic manipulation. · GitHub
  1. Prismatic VLM 框架官方技术文档:Karamcheti et al., "Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models", 2024. arXiv:2402.07865 [cs.CV]
  1. SigLIP 官方技术论文:Zhai et al., "Sigmoid Loss for Language Image Pre-Training", 2023. arXiv:2303.15343 [cs.CV]
  1. DINOv2 官方技术论文:Oquab et al., "DINOv2: Learning Robust Visual Features without Supervision", 2024. arXiv:2303.15343 [cs.CV]
  1. Open X-Embodiment 官方数据集文档:Padmakumar et al., "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", 2023. arXiv:2310.08864 [cs.RO]
  1. OpenVLA 技术深度解析文章:SignalBot AI, "OpenVLA: Technical Deep Dive", 2024. OpenVLA - Signalbotics Documentation
  1. Prismatic VLM 框架官方技术实现仓库:GitHub - TRI-ML/prismatic-vlms: A flexible and efficient codebase for training visually-conditioned language models (VLMs) · GitHub
  1. OpenVLA 模型架构官方总结文档:Hugging Face, "OpenVLA Model Card", 2024. https://huggingface.co/openvla/openvla-7b
  1. 具身智能领域 VLA 模型综述文章:Robotics Center, "VLA Models Comparison 2026", 2026. VLA Models Comparison 2026: Octo, OpenVLA, Pi0, GR00T, SmolVLA, and OpenPI | SVRC
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐