一、《PROSPECT: Unified Streaming Vision-Language Navigation via Semantic–Spatial Fusion and Latent Predictive Representation》

这篇论文核心解决了流式视觉语言导航中空间感知弱、长线程鲁棒性差、预测冗余等痛点,提出融合语义空间和隐式预测的统一智能体,在仿真与真实机器人上都达到 SOTA。

首先,先明确流式视觉语言导航的概念,所谓streaming VLN,就是让机器人像人一样,能够看懂连续视频流导航,而不是看静态照片。流式视觉语言导航的智能体保留长时间历史上下文,有着持续在线推理的能力,对于处理长程任务更加稳定

现有技术只用2D语义编码器,看不懂3D结构与尺寸,缺乏空间智能;并且泛化能力差、预测太冗余,流式上下文利用不足,容易内存溢出。

本文的核心贡献如下:
1、提出了统一流式VLA(视觉-语言-动作)和隐空间预测框架,该框架训练用预测塑性表征,推理基本无开销
2、采用CUT3R流式3D编码器,输出绝对尺寸空间特征,长程任务运行稳定,内存基本不溢出
3、采用流查询令牌和流式因果掩码,主要用来解耦2D/3D预测,防止信息泄露
4、进行了真实机器人部署,在室内外、强弱光下都能实现约4Hz的高频控制,并且表现出很棒的鲁棒性

机器人实际导航时的流程为:首先机器人会接收两样东西,一个是人类给的语言指令,一个是自己摄像头拍的连续RGB视频流,然后视频流同时进入两个编码器,一个是SigLIP(2D语义编码器),该编码器帮助机器人看懂画面里是什么,比如识别门、走廊和一些障碍物,另外一个是CUT3R(3D空间编码器),该编码器帮助机器人看懂画面中的物体在哪里,有多远,路能不能走等,比如机器人计算出“门在前方3米,走廊宽度足够通行,前面的障碍物离我有1米”,之后将这两个编码器的输出信息融合在一起,让模型将人类指令和视觉信息融合在一起,比如“指令里说的走廊尽头,就是视频里那个刚好能通行的通道”。之后交予LLM进行决策,指出智能体应该如何行进。最后将决策结果变成机器人能够执行的指令,机器人就可以开始运动了。

由此可看出,这两个编码器比VGGT(视觉几何基础Transformer,是一个专门从视频/图片提取3D结构的大模型,能直接计算出深度、相机位姿、点云和3D轨迹)更节省显存,长线程更加稳定。两编码器的融合策略采用交叉注意力融合,就是把2D语义与3D空间特征做跨模态融合,让模型既懂语义又能理解空间。

在模型训练阶段,采用了流查询令牌,是一个辅助任务工具,作用是让模型学会预测未来,从而更懂环境的动态变化,它不是推理时必须的,推理时会被直接删除掉,不会拖慢机器人的运行速度,具体操作是训练时加入可学习令牌<q_2D>、<q_3D>,这两个令牌是模型里的特殊占位符,用来对2D语义和3D空间提问和预测,它们会回看前面所有帧的2D/3D特征,即反向查询上下文,然后预测出下一个时刻的2D/3D隐特征(隐特征既不是画面里的像素也不是深度图,而是预测画面在模型内部的抽象表示,不生成图像,更节省内存资源且不容易过拟合)。对于2D损失函数,为了贴合编码器特性采用预先损失,让预测和真实特征方向一致,对于3D损失函数,采用MSE损失(均方误差损失),让预测的数值和真实误差最小

流式因果掩码是专门为为流式 VLN 导航设计的掩码,核心目标有两个:
1、保证模型的行为和真实导航一样
2、让 <q_2D> 和 <q_3D> 两个令牌各司其职,不互相干扰
它有3条规则,就是实现这两个目标的具体方法:
1、因果性:模型在第 t 帧做决策时,只能看到第 1 帧到第 t 帧的画面,绝对不能看到第 t+1 帧及以后的画面。这样是逼迫模型只能从历史画面里学习导航策略,避免胡编乱造出一个画面学习
2、轮次隔离:每一次预测未来特征的查询(也就是 <q_2D>、<q_3D> 做的事),只能看它自己这一轮的上下文,不能看别的轮次的查询令牌。这样能防止不同轮次的任务互相干扰,让模型专注于当前轮次的上下文
3、模态解耦:<q_2D> 这个专门预测 2D 语义特征的令牌,看不到 <q_3D> 这个预测 3D 空间特征的令牌;反之亦然。首先,2D和3D的任务目标就不同,如果让它们互相看到,模型的学习能力会欠佳。

训练时,模型采用VLA动作分支和隐特征预测分支一起训练的策略,这样VLA动作分支在训练时,隐特征预测分支会起到辅助作用,帮助VLA学到更准确的环境理解能力,从而在导航任务上表现更好,在推理时,模型会把隐特征预测分支删掉,因为VLA已经训练好,不再需要隐特征来辅助,这样VLA又回到了一开始的计算水平,节省了资源,提高了相应速度。

该论文的局限性是:

1、极端复杂户外场景没有充分验证,该论文的机器人实验的主要场景都在室内、半室内状态,对于复杂地形、动态人流密集场所的鲁棒性没有得到验证
2、极端光照/天气仍然有挑战,虽然实际部署结果反映暗光表现优于基线,但对于逆光、强反光、雨雪、大雾等极端天气,仍可能出现特征提取失效、空间感知失灵的问题。
3、模型本身依赖冻结的预训练编码器,它的 2D 语义(SigLIP)和 3D 空间(CUT3R)编码器都是冻结的,无法针对导航任务做端到端的联合优化。如果编码器本身的偏差或失效,会直接传导到导航决策上。
4、动作空间简单,无法处理复杂交互输出仍是离散 / 简单连续动作(前进、左转、右转、停止),无法处理需要精细控制或环境交互的场景,比如开门、避障、爬楼梯等。
5、流式长流程记忆仍然有上限,对于超长时间、超复杂场景的导航,模型的上下文窗口和记忆容量仍是瓶颈。
6、部署成本偏高,真实机器人实验用的是 ARX-Lift2 平台,算力和传感器配置固定,没有在小型移动机器人上验证性能,部署成本仍偏高。
7、依赖单目RGB相机,完全依赖单目视觉,在纹理缺失、低纹理场景(白墙、空旷走廊)中,空间感知的可靠性仍会下降,没有利用深度传感器等辅助信息。

针对以上局限,未来研究方向可聚焦:
1、端到端联合优化编码器,不再冻结 SigLIP 和 CUT3R,而是让它们和 LLM 一起微调,针对导航任务优化语义和空间特征,提升跨模态对齐的精度。
2、轻量化流式 3D 编码器,针对机器人部署场景,优化 CUT3R 这类流式 3D 模型的参数量和推理速度,降低显存占用,让模型能在边缘设备上运行
3、加入更强的长程记忆机制,引入外部记忆库、记忆蒸馏等方法,突破 Transformer 上下文窗口的限制,支持超长时间、超远距离的导航任务
4、结合单目相机、深度相机、IMU、轮式里程计等多模态信息,在视觉失效场景下也能保持稳定导航
5、极端场景与动态环境适配,针对极端光照、天气、动态障碍物、人流密集场景,设计专门的鲁棒训练策略和安全控制模块。
6、提升模型在不同机器人平台、不同环境类型之间的零样本或少样本泛化能力
7、从纯文本指令扩展到语音、图像、多轮对话式指令,让机器人能处理模糊、不完整、有歧义的指令

二、《DyGeoVLN: Infusing Dynamic Geometry Foundation Model into Vision-Language Navigation》

这篇论文核心解决动态真实场景下的视觉语言导航(VLN) 难题,提出DyGeoVLN框架,把动态几何基座模型(DGFM) 融入 VLN,搭配自适应空间令牌裁剪,实现静态 + 动态环境 SOTA,还能落地真实机器人。

目前VLN方法有两个致命短板:
1、3D空间推理能力弱,依赖2D 图文预训练,缺乏全局一致的 3D 几何能力,动态场景运行不稳定
2、长程处理能力不够,导航时视觉序列越长,令牌越多,推理变慢,还会丢失关键时空信息

本文的贡献有:
1、解决了动态场景失效问题本文通过 DGFM 专门优化了动态物体的 3D 重建与感知,是首个在动态真实场景里实现高成功率的单目 VLN 框架。
2、解决了单目输入下的3D空间推理短板,本文提出的零均值卷积注入方法,在不破坏预训练权重的前提下,给 2D 模型注入了精准的 3D 空间感知能力,让单目相机也能实现媲美多传感器的导航效果。
3、解决了长程导航的效率瓶颈,本文的自适应令牌裁剪方法,通过体素分组、占用感知和重要性补全,在大幅压缩令牌数量的同时,保证了关键时空信息不丢失,让长程导航的效率和精度兼得。
4、提出零均值卷积注入机制,实现了 3D 几何信息与 2D 预训练模型的无损融合
5、配套构建了 DyHM3D 数据集,为动态 VLN 研究提供了专用训练数据
6、首次在宇树 Go1 四足机器人上实现了动态室内场景的稳定导航,仅用单目相机就能完成走廊、大厅、拥挤室内等复杂场景的导航任务,仿真场景全面SOTA

作者提出的DyGeoVLN这个框架流程由5步组成:

1、输入阶段:机器人接收语言指令和连续单目RGB图像,这是整个框架的起点,给模型提供所有原始信息
2、感知阶段:这也是DGFM所在的关键步骤,DGFM把输入的两种信息,转换成模型能够处理的特征令牌,分为2D语义分支和3D几何分支,对于2D语义分支,处理的是连续RGB图像,作用是提取图像里的语义信息,生成2D语义令牌,而3D几何分支在处理连续RGB图像的基础上,还处理了Depth Anything 预测的深度图,生成了3D几何令牌,包含场景的空间信息
3、跨分支融合:把上一步的两个信息合二为一,让每个令牌都同时拥有语义和空间信息,用到的也是交叉注意力机制
4、令牌裁剪:压缩历史冗余令牌,解决长程导航的效率问题,用自适应的方法裁剪令牌,保留最新、最关键的令牌,远景用更少的令牌表示,近景保留细节,删除重复或对决策没用的信息
5、大模型决策:LLM接收融合令牌和人类指令,转化成机器人能够看懂的指令,并输出给机器人

局限:
1、动态场景仍然有限,只能处理少量行人的场景,复杂场景的鲁棒性不足,此外,模型对动态物体的类别感知还比较单一,主要优化了 “人”,对其他动态障碍物(宠物、家具移动)的处理能力较弱,主要是因为训练数据集 DyHM3D 里的动态样本以人为主,且运动模式相对简单;DGFM 的动态重建模块对复杂运动轨迹的建模能力有限
2、单目深度依赖与误差问题,框架依赖 Depth Anything 预测的深度图来生成 3D 点云,而单目深度估计本身就存在误差,这些误差会直接传导到 3D 几何令牌和后续导航决策中,可能导致定位漂移、误判距离
3、自适应令牌裁剪策略虽然解决了令牌爆炸问题,但这个问题本质还是个效率与质量的平衡问题,如果裁剪过狠,会丢失关键的历史空间信息,如果裁剪不足,令牌数量还是会随着导航距离增加而线性增长,推理速度下降明显。对于超远距离、跨房间、楼层的长程导航,模型仍会出现信息遗忘和效率瓶颈
4、最终的动作决策依赖 LLM,虽然灵活性高,但决策过程是不可解释的,无法像传统规划方法那样追溯原因,一旦出错很难定位是语义理解、空间感知还是融合环节的问题,同时,LLM 的输出稳定性受 prompt、指令表述影响较大,对模糊、口语化的指令处理能力有限
5、真实场景部署仍有工程限制,没有考虑机器人运动带来的剧烈相机抖动、运动模糊,极端光照和视角遮挡以及低算力边缘设备上的推理延迟问(LLM加上双分支推理算力开销仍然很大)

三、《ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation》

篇是阿里高德CV Lab在2026年2月放出的技术报告,核心是提出一个模型,能够处理5大类具身导航任务。

当前行业痛点是任务碎片化,PointGoal、ObjectGoal、指令跟随、POI、跟人,过去都是专用模型,不通用,泛化也差,智能适用于特定场景和任务,换了环境后就无法高效运行,并且推理与动作两者是没有融合的,LLM只会推理但不会执行动作,运动模型会执行动作但不会推理,所以研究人员提出ABot-N0,目标就是做一个通用的具身导航框架,一个模型、一套接口,搞定所有导航任务。

ABot-N0核心架构为Brain-Action,由三层组成。

第一层,即输入层,名为通用多模态编码器,在视觉上支持全景或前视,用ViT编码(ps:ViT(Vision Transformer)是现在主流的图像编码器,作用就是:把一整张图像,切成很多小 patch,再转换成一串向量,也就是 LLM 里的 “视觉 token”,让大模型能看懂图像里的内容,比如 “前面有个门、左边是桌子、远处有人”),还会保留一段时间的视觉记忆。此外编码器会把目标编码分为两种:文本目标和坐标目标,用不同方式转换成统一的token。对于文本目标,直接输入给LLM,把这些文本直接用 LLM 自带的词表,转换成词嵌入向量,和视觉 token 拼在一起;对于坐标目标,把数字变成伪token,这样LLM也能看懂坐标。此外,还会将几个导航任务进行编码,这样LLM在执行任务前会知道这是什么类型的导航任务

第二层为推理层,研究人员称之为认识大脑,这一层就是真正的决策者,它基于上一层的输入,一边做场景推理,一边给后面的动作层发指令,是整个模型的中枢系统,推理层的大模型基座是Qwen3-4B,这是阿里通义千问的最新大模型系列,4B 表示它的参数量约为 40 亿,它的语言理解、常识推理能力足够强,能处理复杂的导航逻辑,并且4B 的参数量足够小,可以部署在机器人的嵌入式设备(比如Jetson Orin)上,满足实时导航的低延迟要求,不会像 7B/14B 模型那样跑不动。与其他LLM做导航的方案不同的是,推理层把LLM分成两个子脑,一个子脑负责做场景理解、目标定位,名为推理头,另外一个负责给下面的动作层输出条件上下文,称为动作头,需要注意的是,动作头并非直接输出动作,而是结构化指令。此外,推理层还采用任务条件分支,它的做法是并行、条件化的分支推理,根据不同的任务编码,直接走对应的推理分支。

第三层为控制层,研究人员称之为动作专家,核心技术是采用了Flow Matching,所谓Flow Matching,可以把它理解成给动作和路径建模的概率分布,而不是只输出一个固定值,这与传统的导航模型不同,传统导航模型,会直接让网络回归出一个动作(比如速度、转向角)或者航点,本质是在做单模态回归,鲁棒性差,而Flow Matching它天生支持多模态输出,也就是同一个场景下,多条合理的路径,比如绕障可以左绕也可以右绕,它能同时生成这两种可能,而不是取中间值,动作专家会输出局部 BEV(鸟瞰图)下连续5个航点(x,y,θ),用局部 BEV 的好处是坐标永远以机器人当前位置为原点,不用管世界坐标系的定位误差,直接在机器人视角下规划路径,更简单、更鲁棒。这些技术能够让智能体进行高精度连续控制,且能建模多模态分布。

除开核心技术之外,该文献还有一个亮点就是其数据来源,研究人员收集了7802个,总面积为10.7km2的3D场景,轨迹数据1690万个,覆盖5大任务,推理数据有500万个,用来训练LLM。场景生态包含室内室外诸多场景,且场景是全部标注可通行的导航图,保证轨迹无碰撞。对于5大任务数据轨迹,PointGoal有400 万(主要是视频伪轨迹、3D合成和真实机器人组成的轨迹)、指令跟随有280万个(主要是门穿越、短距指令和找人任务)、物体目标有360万个、POI目标为250万个、跟随人类目标为400万个。

训练流程有3个阶段,1阶段为训练认知,只训练LLM,冻结了推理层和动作层,先让模型认识世界;2阶段是统一感知动作,用混合轨迹和推理数据训练,主要训练推理层和动作层,让大脑指挥动作专家执行动作,用文本生成loss和Flow Matching loss联合优化;3阶段为SAFE-GRPO价值对齐,冻结推理层,只微调动作层,主要是对智能体的社会合规性进行调整,让它不要走草坪、撞行人、闯红灯,符合社会规矩。

此外,研究人员还研究了落地系统,将这个框架部署到了宇树 Go2四足机器人上,计算采用NVIDIA Jetson Orin NX,传感器为3 目 RGB(270°)+LiDAR和RTK,效果是室内外长距离、复杂任务、动态环境稳定运行。

第二个方向是系统效率与部署方向,主要侧重的方面是如何在保证性能的情况下同时实现轻量化、实时部署

四、《LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments》

这篇论文提出了LaViRA,一个纯零样本、分层级的连续环境视觉语言导航(VLNCE)框架,核心是把导航动作从粗到精拆解为语言→视觉→机器人三级,彻底摆脱预训练路点预测器,充分发挥多尺度多模态大模型(MLLM)的推理与感知能力,在标准基准上刷新了零样本 SOTA。

任务背景时在连续环境下的视觉语言导航任务,现在基本要求零样本,不做环境专属训练,直接在陌生场景运行,但现有方法有2个致命矛盾,第1个是路点预测模模式,大模型做规划,但依赖预训练路点生成器,泛化差;第2个是价值映射模式,不用路点器,但大模型只做离线指令解析,在线推理被浪费,所以本文的目标就孕育而生能不能做一个纯零样本、不用预训练路点器、全程在线用好大模型推理的 VLNCE 框架,因此,作者提出LaViRA 三级动作分解

LaViRA 的灵魂是粗到精的三级翻译:语言动作→视觉动作→机器人动作,每一层用最匹配的模型,各司其职

对于语言动作,即高层规划,作用是充当全局导航规划器,用到的模型是MLLM(GPT4o / Gemini2.5Pro),输入指令、全局图和导航历史,输出进度评估和高层指令(前进、后退左转、右转等)

对于视觉动作,即中层感知落地,作用是把高层规划落实到视觉目标,模型采用轻量高效 MLLM(Qwen2.5VL32B),输入指令、进度评估和目标方向视觉图,输出目标2D框架图和文字描述

对于机器人动作,即底层控制,作用是结合前两层的描述和动作指令,找到目标并执行动作,流程是先取框底中心点,用内参和深度投影到3D,然后转到世界坐标系,用FFM规划短路径,同时用规则控制器进行避障,这样做的优点是可移植到不同的机器人上,因为上两层是独立运行的,只需要更换底层设施即可实现迁移。

研究人员进行真机实验,用宇树 Go1 四足机器人和Agilex Cobot Magic 轮式机器人进行部署,只对底层机器人进行改动,测试泛化能力,结果是在真实办公环境成功执行复杂指令且更换底层机器人后性能依旧优秀,证明了有极强的simtoreal能力

但文献也有几点局限,首先智能体过度依赖闭源MLLM API,延迟和成本都是不稳定因素;对于模糊指令、大区域场景,动作容易出错;真实世界有很多噪声、动态障碍等问题

未来的研究方向可以朝着开源MLLM并加缓存与自适应以降低成本、融合SAM等开放词汇分割提升大区域定位的方向努力

五、《UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model》

这篇论文提出UNeMo框架,核心解决大模型驱动的视觉语言导航两大痛点:纯文本推理、缺视觉前瞻、推理模块与导航策略分开优化、目标冲突,用多模态世界模型和分层预测反馈实现端到端协同优化。

现有方法基本是由LLM主导方法,但LLM只做语言模态处理,并没有视觉状态推理,这与上面说到的是一个问题,且推理模块在训练导航策略时被冻结,优化目标不兼容,无法动态迭代,只看当前视觉,不预测下一步的环境变化,长路径导航容易出错。

故而作者提出UNeMo模块,整体构架以NavGPT2 为基线,新增两大关键模块:
1、多模态世界模型MWM:预测下一步视觉状态
2、分层预测反馈导航器 HPFN:进行精细化决策闭环优化

对于MWM,作用是输入当前视觉、语言指令、候选动作,预测执行动作后的未来视觉状态,采用的是条件变分自编码器 CVAE,编码器用交叉注意力融合视觉局部特征和语言指令特征,输出未来状态分布,解码器则重参数化采样,预测完整视觉嵌入。

而HPFN则是把 MWM 的前瞻视觉信息融入导航决策,形成粗预测到世界模型反馈再到精决策闭环优化,粗动作预测是用当前视觉和语言,对候选节点进行初步打分;MWM推理则是预测走到目标节点后的视觉状态;而精动作决策用交叉注意力把未来视觉特征注入节点表示,输出最终动作。优化策略采用的是双向优化,导航决策反馈优化MWM预测精度,然后MWM推理持续优化导航策略。

整体的方法步骤为:
1、输入视觉图像和语言指令,视觉图像由ViT提取特征,语言指令由预训练LLM编码
2、拓扑图构建,记录已访问和可访问的节点和连接关系
3、MWM基于当前视图和指令,生成下一步全景视觉特征
4、HPFN先用下一步全景视觉特征更新节点,然后再输出导航动作
5、进行损失计算,使用行为克隆、DAgger和MWM重建损失,联合优化

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐