OmniVLA：面向机器人导航的全模态VLA基础模型

m0_65010824

577人浏览 · 2026-03-20 16:46:23

m0_65010824 · 2026-03-20 16:46:23 发布

论文《OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation》是 UC Berkeley 联合 Toyota、Princeton 推出的首个端到端全模态 VLA 导航基础模型。论文核心突破为统一语言、2D 位姿、自中心图像三大目标模态，用 9500 小时跨平台真实机器人数据训练，实现了单模型适配多模态指令、跨环境泛化、跨机型迁移，彻底解决传统导航策略单模态受限、泛化差的痛点。

原文链接：OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

代码链接：NHirose/OmniVLA: Official repository for OmniVLA training and inference code

沐小含持续分享前沿算法论文，欢迎关注...

1. 研究背景与动机

1.1 人类导航的天然多模态性

人类导航会灵活组合多种信息：

近距离用自然语言：「沿着建筑走到入口」
远距离用 GPS 坐标：精准定位目标位置
复杂场景用视觉地标：看到目标图像后导航

多模态信息互补，是完成复杂导航任务的核心。

1.2 现有机器人导航的核心痛点

传统导航策略存在三大致命缺陷：

单模态训练：仅支持语言 / 位姿 / 图像一种输入，无法融合多源信息
数据集割裂：只能用单一模态标注数据，无法利用海量多模态数据
泛化能力弱：对 unseen 环境、新模态、新机器人平台适配性差

1.3 研究核心目标

提出全模态视觉 - 语言 - 动作（OmniVLA）框架，实现：

单模型支持语言、2D 位姿、自中心图像及任意组合输入
利用 9500 小时跨平台数据，学习通用导航能力
强泛化： unseen 环境、稀缺模态、OOD 语言指令均能适配
可微调：快速适配新模态、新环境、新机器人

2. 相关工作梳理

论文从导航模态、VLA 模型、机器人基础模型三个维度对比现有工作：

2.1 面向导航任务的单模态目标指定方法

在机器人导航中，目标可通过自中心图像、2D 位姿、自然语言三种模态指定，而现有工作几乎均为单模态专用策略，无法组合多源信息，无法复用跨模态数据集，限制了真实场景的通用性。这也是 OmniVLA 要解决的核心痛点。

2.1.1 自中心图像条件导航（Egocentric Image-Conditioned Navigation）

核心定位：依赖视觉地标完成导航，适合室内无 GPS 环境。
现有工作特点：
1. 融合多机器人具身的公开数据集，训练通用导航策略；
2. 依赖丰富视觉信息，无法利用 GPS 等空间信号；
3. 代表工作：ViNT、NoMaD、GNM 等系列模型。
局限性：仅支持图像目标，无法融合语言或位姿指令。

2.1.2 2D 位姿条件导航（2D Pose-Conditioned Navigation）

核心定位：依赖 GPS 等空间坐标，适合室外长视野（long-horizon）导航。
现有工作特点：
1. 以 2D 坐标作为目标条件，在室外定位可靠的场景效果最优；
2. 代表工作：MBRA，提出基于模型的重标注（reannotation）方案，可利用大规模数据源完成更远距离的位姿条件导航。
局限性：仅依赖空间位置，缺乏视觉与语义理解。

2.2 语言条件导航（Language-Conditioned Navigation）

论文将语言导航单独作为重点子领域梳理，完整还原其发展脉络与瓶颈。

2.2.1 语言导航的价值

提供用户友好、灵活的交互接口；
可指导机器人到达指定物体 / 区域，支持长距离任务。

2.2.2 技术发展脉络

早期方法依赖预训练语言编码器，仅能处理简单物体指向类指令。
近期方法采用大规模VLM 主干，直接用于导航或在机器人数据上微调；引入反事实动作生成（counterfactual action generation）、非机器人数据提升训练稳定性与泛化性。
代表工作：LeLaN同时利用机器人与非机器人视频数据；基于模型生成反事实动作与 VLM 推导语言提示；支持可扩展训练，但合成标注的不准确性会成为性能瓶颈。

2.2.3 语言导航的核心局限

即便语言导航最先进的方法，仍只支持单一语言模态，无法与位姿、图像模态联合使用；且依赖特定格式指令，泛化性受限。

2.3 具身操作领域的机器人基础模型（Robotic Foundation Models in Manipulation）

论文强调：OmniVLA 的全模态 + Mask 训练思路并非凭空创新，而是受具身操作领域成功范式的启发，并首次迁移到导航领域。

2.3.1 核心思想

操作领域的机器人基础模型（RFM）旨在统一视觉、语言、动作以提升泛化能力，从早期多模态 Transformer 发展为大规模、面向真实部署的通用控制框架。

2.3.2 关键技术：多输入掩码训练

部分操作领域工作使用掩码（masking）机制处理训练时缺失的输入（语言、位姿等）；
证明同时训练多种输入类型能显著提升模型泛化性；
代表工作：Octo、 $\pi _0$ 等开源通用机器人策略。

2.3.3 与导航领域的鸿沟

操作领域的多模态 VLA 范式尚未被引入导航；
导航缺乏统一全模态架构、超大规模跨具身数据集；
导航任务的空间推理、长视野、环境分布复杂度远高于桌面操作。

2.4 本文创新点

基于以上梳理，论文给出 OmniVLA 的精准创新定位：

首次将操作领域的全模态 VLA 范式落地到机器人导航，统一图像、位姿、语言三大目标模态；
构建迄今最大规模的导航预训练数据集：近 10,000 小时真实机器人导航数据，覆盖 10 种具身平台；
用模态随机掩码策略解决模态不平衡与稀缺问题；
超越所有单模态专用导航模型，并具备基础模型的微调与泛化特性。

3. 核心技术原理

3.1 核心定位

OmniVLA 的核心定位：一个支持全模态目标条件的端到端视觉 - 语言 - 动作导航策略。它的设计严格遵循三大原则：

基座复用：基于成熟高容量 VLA 模型，继承互联网预训练视觉 - 语言先验与跨具身机器人动作先验；
模态统一：将语言、位姿、图像三种目标模态投影到共享Token空间，实现统一编码与融合；
模态鲁棒：用 ** 模态 Dropout（训练）+ 模态 Mask（推理）** 解决模态缺失、不平衡、稀缺问题。

最终输出：连续动作序列，直接控制机器人完成避障、路径跟随、目标到达等导航行为。

3.2 OmniVLA 网络架构

OmniVLA 包含两个版本，分别面向高性能与边缘部署。

3.2.1 基座模型选型

主模型：OmniVLA（7B 参数）
- 基座：OpenVLA（7B 参数 VLA 模型）
- 主干：Llama2-7B LLM + DINOv2+SigLIP 视觉编码器
- 能力：强泛化、支持 OOD 语言、长距离导航
轻量模型：OmniVLA-edge（50M 参数）
- 基座：ViNT（面向导航的轻量化 Transformer）
- 主干：EfficientNet-B0 视觉编码器 + CLIP 语言编码
- 能力：低算力、边缘端实时推理

3.2.2 全模态输入流水线

架构整体分为4 层：观测输入 → 多模态目标编码 → 共享令牌融合 → LLM 主干 → 动作输出。

（1）当前观测编码（Robot Current Observation）

输入：机器人自中心单目 RGB 图像 $I_c$
处理：视觉编码器（OpenVLA 用 DINOv2+SigLIP；OmniVLA-edge 用 EfficientNet-B0）
输出：固定维度的视觉观测特征，送入 LLM/Transformer

（2）三大目标模态编码（核心创新）

论文支持三种原生目标模态，将每种模态独立编码后投影到共享空间：

① 自中心目标图像模态（Egocentric Goal Image）

输入：目标位置的自中心图像 $I_g$
处理：目标图像编码器 + 线性投影器
作用：让机器人 “看目标去哪”，适合室内近距离、无 GPS 场景

② 2D 目标位姿模态（2D Goal Pose）

输入：2D 目标坐标 $p_g=(x,y)$ （GPS / 局部坐标系）
处理：专用位姿投影器（Pose Projector）
作用：将坐标映射为与视觉 / 语言兼容的特征向量，适合室外远距离导航

③ 自然语言指令模态（Language Prompt）

输入：文本指令 $l_g$ （如 “move along the wall”）
处理：语言编码器 / Tokenizer（OpenVLA 用 LLaMA-2 Tokenizer；edge 用 CLIP 文本编码器）
作用：提供语义约束，实现 “怎么去” 的行为控制

（3）共享Token空间与模态融合

所有模态编码后，统一投影到相同维度的Token空间
Token拼接后，作为条件输入送入 LLM 主干
关键：不区分模态类型，让模型学习统一的目标表示

（4）模态 Dropout / Mask 机制（论文核心技术）

这是 OmniVLA 能处理任意模态组合、缺失模态的关键：

训练阶段：Modality Dropout（随机模态丢弃）
- 对每个训练样本，独立随机采样可用的目标模态
- 未被采样的模态：输入置空 / 随机值，并生成注意力掩码屏蔽
- 效果：强制模型不依赖某一种模态，学习跨模态通用表示
推理阶段：Modality Mask（模态掩码）
- 用户提供哪些模态，就只启用哪些模态的通路
- 缺失模态直接被掩码屏蔽，不影响推理
- 效果：支持单模态、双模态、三模态任意组合输入

（5）动作输出头（Action Head）

结构：LLM 输出后接线性层动作头（遵循 OpenVLA-OFT 设计）
输出：N 步连续动作序列
动作定义：线速度 $v$ + 角速度 $\omega$ ，直接驱动机器人底盘

3.3 OmniVLA-edge 轻量化架构

为满足边缘部署，论文专门设计OmniVLA-edge，完全基于 ViNT 改造：

早期融合（Early Fusion）：模态令牌在送入 Transformer 前完成融合
时序输入：输入最近 M=5 帧 图像特征，保持运动时序一致性
多模态适配：
- 添加位姿投影器支持 2D Pose
- 用 ResNet+CLIP+FiLM 实现语言条件
Token 聚合：对 Transformer 输出取均值，送入动作头
参数规模：仅50M 参数，算力受限场景首选

3.4 训练方案

3.4.1 训练数据集

OmniVLA 使用迄今最大规模的导航预训练数据集：

总时长：9,500 小时
机器人平台：10 种（轮式、四足、无人车）
数据集：13 个公开数据集，合并为 4 大混合集：
1. GNM mixture（6 平台，62h）：越野、办公室、人行道
2. LeLaN mixture（3 平台，128.7h）：家庭、办公室、人行道
3. Frodobots-2K（1 平台，700h）：人行道
4. BDD-V（1 平台，8,680h）：城市道路（汽车数据）

3.4.2 数据重标注（解决 Embodiment Gap）

BDD-V 是汽车采集数据，与小型机器人存在巨大差异：速度快 40 倍、帧率 1Hz（其他 3Hz）、GPS 噪声大、画面含仪表盘等。论文通过如下方式进行数据重标注来匹配机器人训练场景：

基于MBRA训练专用重标注模型
仅在 GNM 数据上学习避障，BDD-V 只学习视觉分布
约束动作空间：线速度 0–0.5m/s，角速度 ±1.0rad/s
遵循双轴同轴机器人运动学模型，保证动作可执行

3.4.3 训练流程

批次构建
- 采样比例：LeLaN : GNM : Frodobots : BDD-V = 4:1:1:1
- 目的：平衡语言、位姿、图像三种模态的数据分布
模态随机选择
- 对每个样本，从可用模态中随机选取组合作为条件 tm
- 示例：GNM 可选择 Pose、Image、Pose+Image
注意力掩码生成
- 未选中模态被掩码，模型仅关注有效输入
梯度累积
- 8×H100，单卡 batch=7，累积 4 步 → 有效 batch=224
LoRA 微调
- 仅对 OpenVLA 主干使用，可训练参数≈5%
- 目的：增大有效 batch，稳定训练

3.5 损失函数

OmniVLA 使用多目标联合损失，目标函数为：

（1）主损失：动作模仿损失 $J_{il}$

作用：让模型输出动作逼近专家动作
公式：
：专家动作（人工 / 重标注）
：模型预测动作
$N$ ：动作 chunk 长度（论文固定 N=8）

（2）语言任务辅助损失 $J_{obj}$

作用：让语言导航任务最终动作靠近目标物体
公式：
$p_{obj}$ ：目标物体位姿
：模型第 N 步（最后一步）预测动作
$m_{obj}$ ：掩码系数 → LeLaN 数据为 1，其余为 0

（3）动作平滑损失 $J_{sm}$

作用：正则化，让动作序列更平滑、抖动更小
公式：

3.6 全模态条件推理机制

模型最终策略函数为：

各参数含义：

$I_c$ ：当前自中心图像
$I_g$ ：目标图像
$p_g$ ：2D 目标位姿
$l_g$ ：语言指令
$t_m$ ：当前启用的模态组合
$\pi _\theta$ ：全模态导航策略

策略支持的输入组合如下：

仅语言
仅 2D 位姿
仅目标图像
语言 + 2D 位姿
语言 + 目标图像
2D 位姿 + 目标图像
语言 + 2D 位姿 + 目标图像

3.7 核心技术创新总结

首次统一导航三大模态：语言、2D 位姿、自中心图像在一个 VLA 模型内
模态随机融合策略：用 Dropout/Mask 实现模态鲁棒性
最大规模导航预训练：9,500 小时跨具身数据
共享令牌空间：跨模态表示学习，提升泛化
双架构设计：7B 高性能版 + 50M 边缘版
可扩展基础模型：支持新模态、新环境、新机器人小数据微调

4. 实验设置

4.1 三大导航任务

语言指令导航
- 场景：40 个室内外环境，目标距离 5-30 米
- 测试：常规指令 + OOD 行为指令（如「沿墙走」）+ 障碍物场景
自中心图像导航
- 近距离：直接目标图像导航
- 远距离：拓扑记忆图扩展到远程目标
2D 位姿导航
- 室外 GPS 场景，目标距离 25-100 米，抗 GPS 抖动

4.2 机器人平台

主平台：FrodoBots ERZ（带 GPS、相机、IMU）
跨机型测试：VizBot 轮式机器人、Unitree Go1 四足机器人

4.3 对比基线

7 个 SOTA 基线：

单模态专用：CoW、LeLaN、MBRA-pose/image、NoMaD、ViNT
VLA 模型：CounterfactualVLA、MiniVLA、SmolVLA

5. 实验结果与分析

5.1 核心研究问题

论文围绕 3 个核心问题展开实验：

全模态预训练是否优于单模态专用模型？
模型能否处理多模态组合指令？
能否快速适配新模态、环境、机型？

5.2 单模态性能对比（表 II）

关键结论：

OmniVLA 全面超越所有单模态基线
- 语言任务：成功率 73%，OOD 行为遵循 65%，远超 LeLaN（43%/15%）
- 2D 位姿：成功率 95%，比 MBRA-pose 提升 9%
- 图像任务：100% 成功率，追平最优专用模型
模型规模至关重要
- 7B OmniVLA >> 50M OmniVLA-edge >> 小 VLA（Mini/SmolVLA）
- 大模型继承的视觉 - 语言先验是语言任务提升核心
轻量版性价比极高
- OmniVLA-edge 仅 50M 参数，图像 / 位姿性能接近大模型，适合边缘部署

5.3 多模态训练消融（表 III）

关键结论：

全模态训练远优于单模态训练
- 语言：60% vs 单模态 43%
- 卫星图像：57% vs 单模态 19%
- 位姿 / 图像：保持最优性能
跨模态知识迁移：模型从多模态数据中学习通用导航表示，泛化到未见过的卫星模态

5.4 多模态组合导航（表 IV）

任务定义：同时输入2D 目标位姿（去哪）+ 语言行为指令（怎么去），如「去 GPS 目标点，同时沿草地走」。

关键结论：

OmniVLA 唯一能完成复合任务
- 成功率 80%，行为遵循 60%
- 基线仅能完成位姿导航，无法遵循语言约束
模型能同时关注多模态信息，实现「目标位置 + 行为约束」的复杂导航

可视化结果：

5.5 新模态 / 环境 / 机型适配

5.5.1 新模态适配（卫星图像）

预训练无卫星模态，仅替换编码器微调
成功率从 19% 提升至 62%，快速适配新模态

5.5.2 新环境微调（表 V）

仅用 1.2 小时小数据微调
卫星图像：57%→83%；2D 位姿：81%→86%
小数据快速适配新环境

5.5.3 跨机型迁移

零样本部署到 VizBot 轮式、Go1 四足机器人
直接完成语言指令导航，能进行跨机型泛化

6. 结论与展望

6.1 核心贡献

首个全模态 VLA 导航模型：统一语言、位姿、图像三大模态
最大规模导航预训练：9500 小时跨平台数据，强泛化
优异性能：全面超越单模态基线，支持多模态组合
基础模型特性：快速适配新模态、环境、机器人

6.2 未来方向

扩大语言导航数据集，提升复杂指令遵循能力
扩展更多模态（如卫星图像、点云）
进一步优化轻量版，适配更低算力边缘设备

7. 全文总结

OmniVLA 是机器人导航领域的里程碑工作，首次将全模态 VLA 架构引入导航，打破了单模态模型的局限。

它证明了：用统一模型学习多模态导航表示，能获得比专用模型更强的泛化性与灵活性，为通用机器人导航基础模型提供了可复制的技术路线。

无论是学术研究还是工业落地，OmniVLA 的全模态设计、大规模训练、跨域迁移思路，都将成为未来机器人导航的核心范式。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI修炼记3-RAG

AtomGit开源社区

在海量素材里3秒找到想要的镜头？易元AI语义检索也太恐怖了

简单来说，不用再死记复杂的文件名，不用逐段翻看视频素材，只要输入你想要的画面文字描述，系统就能瞬间从海量素材里，精准定位到对应的镜头。易元AI语义检索，本质是帮团队搭建高效的镜头调用能力，让现有素材不再沉睡，实现快速识别、精准匹配、反复复用，直接带动团队整体产能提升，也让后续的批量剪辑、智能匹配、版本生成真正落地运行。语义检索解决的，正是素材资产化的第一步，彻底盘活沉睡的素材库：过往的产品镜头能适

AtomGit开源社区

蒙特卡洛风光场景并通过削减法聚类法得到几个典型场景（包含Matlab代码和Python代码实现）

蒙特卡洛方法是一种基于随机抽样的数值计算方法，通过多次随机抽样来估计系统的行为，从而得到系统的统计性质。在风光模型中，蒙特卡洛方法可以用来模拟风速、风向和太阳光照的变化，进而评估风力和太阳能系统在不同条件下的性能。

AtomGit开源社区

所有评论(0)

查看更多评论

m0_65010824

@m0_65010824

已为社区贡献8条内容

OmniVLA：面向机器人导航的全模态VLA基础模型

m0_65010824

1. 研究背景与动机

1.1 人类导航的天然多模态性

1.2 现有机器人导航的核心痛点

1.3 研究核心目标

2. 相关工作梳理

2.1 面向导航任务的单模态目标指定方法

2.1.1 自中心图像条件导航（Egocentric Image-Conditioned Navigation）

2.1.2 2D 位姿条件导航（2D Pose-Conditioned Navigation）

2.2 语言条件导航（Language-Conditioned Navigation）

2.2.1 语言导航的价值

2.2.2 技术发展脉络

2.2.3 语言导航的核心局限

2.3 具身操作领域的机器人基础模型（Robotic Foundation Models in Manipulation）

2.3.1 核心思想

2.3.2 关键技术：多输入掩码训练

2.3.3 与导航领域的鸿沟

2.4 本文创新点

3. 核心技术原理

3.1 核心定位

3.2 OmniVLA 网络架构

3.2.1 基座模型选型

3.2.2 全模态输入流水线

（1）当前观测编码（Robot Current Observation）

（2）三大目标模态编码（核心创新）

① 自中心目标图像模态（Egocentric Goal Image）

② 2D 目标位姿模态（2D Goal Pose）

③ 自然语言指令模态（Language Prompt）

（3）共享Token空间与模态融合

（4）模态 Dropout / Mask 机制（论文核心技术）

（5）动作输出头（Action Head）

3.3 OmniVLA-edge 轻量化架构

3.4 训练方案

3.4.1 训练数据集

3.4.2 数据重标注（解决 Embodiment Gap）

3.4.3 训练流程

3.5 损失函数

（1）主损失：动作模仿损失

（2）语言任务辅助损失

（3）动作平滑损失

3.6 全模态条件推理机制

3.7 核心技术创新总结

4. 实验设置

4.1 三大导航任务

4.2 机器人平台

4.3 对比基线

5. 实验结果与分析

5.1 核心研究问题

5.2 单模态性能对比（表 II）

关键结论：

5.3 多模态训练消融（表 III）

关键结论：

5.4 多模态组合导航（表 IV）

关键结论：

5.5 新模态 / 环境 / 机型适配

5.5.1 新模态适配（卫星图像）

5.5.2 新环境微调（表 V）

5.5.3 跨机型迁移

6. 结论与展望

6.1 核心贡献

6.2 未来方向

7. 全文总结

所有评论(0)

温馨提示：您尚未绑定手机号

m0_65010824

（1）主损失：动作模仿损失 $J_{il}$

（2）语言任务辅助损失 $J_{obj}$

（3）动作平滑损失 $J_{sm}$