【第三十八周】VLN文献阅读

长桥夜波

367人浏览 · 2026-05-03 18:46:31

长桥夜波 · 2026-05-03 18:46:31 发布

《ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation》

这篇是阿里高德CV Lab在2026年2月放出的技术报告，核心是提出一个模型，能够处理5大类具身导航任务。

当前行业痛点是任务碎片化，PointGoal、ObjectGoal、指令跟随、POI、跟人，过去都是专用模型，不通用，泛化也差，智能适用于特定场景和任务，换了环境后就无法高效运行，并且推理与动作两者是没有融合的，LLM只会推理但不会执行动作，运动模型会执行动作但不会推理，所以研究人员提出ABot-N0，目标就是做一个通用的具身导航框架，一个模型、一套接口，搞定所有导航任务。

ABot-N0核心架构为Brain-Action，由三层组成。

第一层，即输入层，名为通用多模态编码器，在视觉上支持全景或前视，用ViT编码（ps：ViT（Vision Transformer）是现在主流的图像编码器，作用就是：把一整张图像，切成很多小 patch，再转换成一串向量，也就是 LLM 里的 “视觉 token”，让大模型能看懂图像里的内容，比如 “前面有个门、左边是桌子、远处有人”），还会保留一段时间的视觉记忆。此外编码器会把目标编码分为两种：文本目标和坐标目标，用不同方式转换成统一的token。对于文本目标，直接输入给LLM，把这些文本直接用 LLM 自带的词表，转换成词嵌入向量，和视觉 token 拼在一起；对于坐标目标，把数字变成伪token，这样LLM也能看懂坐标。此外，还会将几个导航任务进行编码，这样LLM在执行任务前会知道这是什么类型的导航任务

第二层为推理层，研究人员称之为认识大脑，这一层就是真正的决策者，它基于上一层的输入，一边做场景推理，一边给后面的动作层发指令，是整个模型的中枢系统，推理层的大模型基座是Qwen3-4B，这是阿里通义千问的最新大模型系列，4B 表示它的参数量约为 40 亿，它的语言理解、常识推理能力足够强，能处理复杂的导航逻辑，并且4B 的参数量足够小，可以部署在机器人的嵌入式设备（比如Jetson Orin）上，满足实时导航的低延迟要求，不会像 7B/14B 模型那样跑不动。与其他LLM做导航的方案不同的是，推理层把LLM分成两个子脑，一个子脑负责做场景理解、目标定位，名为推理头，另外一个负责给下面的动作层输出条件上下文，称为动作头，需要注意的是，动作头并非直接输出动作，而是结构化指令。此外，推理层还采用任务条件分支，它的做法是并行、条件化的分支推理，根据不同的任务编码，直接走对应的推理分支。

第三层为控制层，研究人员称之为动作专家，核心技术是采用了Flow Matching，所谓Flow Matching，可以把它理解成给动作和路径建模的概率分布，而不是只输出一个固定值，这与传统的导航模型不同，传统导航模型，会直接让网络回归出一个动作（比如速度、转向角）或者航点，本质是在做单模态回归，鲁棒性差，而Flow Matching它天生支持多模态输出，也就是同一个场景下，多条合理的路径，比如绕障可以左绕也可以右绕，它能同时生成这两种可能，而不是取中间值，动作专家会输出局部 BEV（鸟瞰图）下连续5个航点(x,y,θ)，用局部 BEV 的好处是坐标永远以机器人当前位置为原点，不用管世界坐标系的定位误差，直接在机器人视角下规划路径，更简单、更鲁棒。这些技术能够让智能体进行高精度连续控制，且能建模多模态分布。

除开核心技术之外，该文献还有一个亮点就是其数据来源，研究人员收集了7802个，总面积为10.7km2的3D场景，轨迹数据1690万个，覆盖5大任务，推理数据有500万个，用来训练LLM。场景生态包含室内室外诸多场景，且场景是全部标注可通行的导航图，保证轨迹无碰撞。对于5大任务数据轨迹，PointGoal有400 万（主要是视频伪轨迹、3D合成和真实机器人组成的轨迹）、指令跟随有280万个（主要是门穿越、短距指令和找人任务）、物体目标有360万个、POI目标为250万个、跟随人类目标为400万个。

训练流程有3个阶段，1阶段为训练认知，只训练LLM，冻结了推理层和动作层，先让模型认识世界；2阶段是统一感知动作，用混合轨迹和推理数据训练，主要训练推理层和动作层，让大脑指挥动作专家执行动作，用文本生成loss和Flow Matching loss联合优化；3阶段为SAFE-GRPO价值对齐，冻结推理层，只微调动作层，主要是对智能体的社会合规性进行调整，让它不要走草坪、撞行人、闯红灯，符合社会规矩。

此外，研究人员还研究了落地系统，将这个框架部署到了宇树 Go2四足机器人上，计算采用NVIDIA Jetson Orin NX，传感器为3 目 RGB（270°）+LiDAR和RTK，效果是室内外长距离、复杂任务、动态环境稳定运行。

《LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments》

这篇论文提出了LaViRA，一个纯零样本、分层级的连续环境视觉语言导航（VLNCE）框架，核心是把导航动作从粗到精拆解为语言→视觉→机器人三级，彻底摆脱预训练路点预测器，充分发挥多尺度多模态大模型（MLLM）的推理与感知能力，在标准基准上刷新了零样本 SOTA。

任务背景时在连续环境下的视觉语言导航任务，现在基本要求零样本，不做环境专属训练，直接在陌生场景运行，但现有方法有2个致命矛盾，第1个是路点预测模模式，大模型做规划，但依赖预训练路点生成器，泛化差；第2个是价值映射模式，不用路点器，但大模型只做离线指令解析，在线推理被浪费，所以本文的目标就孕育而生能不能做一个纯零样本、不用预训练路点器、全程在线用好大模型推理的 VLNCE 框架，因此，作者提出LaViRA 三级动作分解

LaViRA 的灵魂是粗到精的三级翻译：语言动作→视觉动作→机器人动作，每一层用最匹配的模型，各司其职

对于语言动作，即高层规划，作用是充当全局导航规划器，用到的模型是MLLM（GPT4o / Gemini2.5Pro），输入指令、全局图和导航历史，输出进度评估和高层指令（前进、后退左转、右转等）

对于视觉动作，即中层感知落地，作用是把高层规划落实到视觉目标，模型采用轻量高效 MLLM（Qwen2.5VL32B），输入指令、进度评估和目标方向视觉图，输出目标2D框架图和文字描述

对于机器人动作，即底层控制，作用是结合前两层的描述和动作指令，找到目标并执行动作，流程是先取框底中心点，用内参和深度投影到3D，然后转到世界坐标系，用FFM规划短路径，同时用规则控制器进行避障，这样做的优点是可移植到不同的机器人上，因为上两层是独立运行的，只需要更换底层设施即可实现迁移。

研究人员进行真机实验，用宇树 Go1 四足机器人和Agilex Cobot Magic 轮式机器人进行部署，只对底层机器人进行改动，测试泛化能力，结果是在真实办公环境成功执行复杂指令且更换底层机器人后性能依旧优秀，证明了有极强的simtoreal能力

但文献也有几点局限，首先智能体过度依赖闭源MLLM API，延迟和成本都是不稳定因素；对于模糊指令、大区域场景，动作容易出错；真实世界有很多噪声、动态障碍等问题

未来的研究方向可以朝着开源MLLM并加缓存与自适应以降低成本、融合SAM等开放词汇分割提升大区域定位的方向努力

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

筛Agent实习简历有感(加分项与槽点)

AtomGit开源社区

AI 代码审查与质量保障 — 主流 AI 应用方向深度调研

AtomGit开源社区

yolov5 train.py参数解释

• --exist-ok：如果保存的目录已经存在，不会自动新建带编号的文件夹（如 exp1），而是直接覆盖，常用于重跑某个实验。• --sync-bn：同步批归一化，只有多卡分布式训练（DDP 模式）时有效，能让 BN 统计跨 GPU 同步，提升精度。• --cache-images：将图片缓存在内存或磁盘，减少反复读图的 IO 时间，加快训练，但会占用更多系统内存。• --image-weigh