浙大高飞团队提出PathPainter:用生成式模型重新定义了BEV导航,域外成功率94.9%!

「把生成模型的泛化能力,装进具身导航」
目录
在具身导航领域,BEV凭借全局视野,一直是机器人获取环境拓扑、障碍物分布等全局先验的核心载体。
但长期以来,两大痛点始终制约其落地:一是传统方法将BEV压缩为语义图或拓扑节点,会丢失道路边界、通行宽度等关键几何细节;二是依赖道路等预设语义类别判断可通行区,在荒野、广场等开放场景中极易失效。
与此同时,图像生成模型在空间理解、常识推理上的泛化能力持续突破,却始终难以与机器人导航的实际需求精准对接。
浙江大学高飞团队最新提出的PathPainter的出现,正是为了打通这一壁垒:将图像生成模型的世界理解能力,迁移到基于BEV的具身导航中,用生成式思路解决全局先验利用与长距离定位的双重难题。
01 核心逻辑:把导航规划变成图像生成任务
PathPainter的核心创新,是跳出传统导航“特征提取-地图构建-路径搜索”的范式,将BEV导航重构为图像生成问题。整个系统分为高层生成式规划与低层运动执行两大模块,前者负责从BEV和自然语言指令中输出全局路径,后者通过跨视图定位与局部规划完成实时避障,形成“全局生成、局部执行”的分层架构。

图| 导航系统整体流程图
1. 生成式全局规划:语言指令到可通行掩码
高层规划的核心是让图像生成模型理解BEV地图与自然语言指令,输出目标区域与可通行掩码,核心流程分为三步:

图| PathPainter 生成式规划工作流(语言指令→掩码→路径)
- 目标定位:在BEV地图上标注机器人起点(绿色星标),输入自然语言指令(如“去公园另一侧的入口”),生成模型直接在图中标注目标区域;
- 可通行掩码生成:通过精心设计的提示词,引导模型输出二值化掩码——白色代表道路、人行道、广场等可通行区域,黑色代表建筑、植被等障碍。关键是模型能基于全局上下文,补全树木遮挡下的连续道路,解决传统分割方法的碎片化问题;
- 全局路径搜索:在可通行掩码上运行A*算法。为让路径更安全,在代价函数中加入边界距离惩罚项,让路径远离障碍边缘,最终输出平滑、可执行的全局路径。
2. 跨视图定位:解决长距离里程计漂移
仅靠全局路径无法落地,机器人局部里程计(如LiDAR里程计)的长时漂移,会导致自身位姿与BEV地图严重错位。PathPainter引入跨视图定位模块,核心是对齐地面局部观测与BEV全局特征:
- 从RGB-D相机获取地面局部点云,提取局部特征;
- 与BEV地图的全局特征匹配,估计机器人在BEV坐标系中的位姿;
- 通过坐标变换,将全局路径转换为局部坐标系下的短距离目标,供局部规划器执行。
该模块以1Hz频率运行,专门修正长时漂移;而局部规划器以10Hz频率工作,兼顾实时避障与轨迹跟踪,实现“低频全局校准、高频局部执行”的高效协同。
02 实验验证:生成模型凭什么赢?
PathPainter在公开基准与真实场景中均完成验证,核心结论是:图像生成模型在跨域泛化、遮挡推理上,显著优于传统分割与拓扑方法。
1. 公开基准测试:跨域鲁棒性碾压
实验在可见道路分割与下游路径规划两类任务中展开,对比SAM 3.1、RNGDet++、SAMRoad等主流模型:
- 分割任务:在DeepGlobe、UAVid等数据集上,Gemini(生成模型)的召回率显著更高,能生成更连续的道路区域,适合后续路径搜索;SAM 3.精度高但偏保守,易丢失窄路与遮挡路段;

图| 可见道路分割基准测试结果
- 路径规划任务:在CityScale(域内)与GlobalScale(域外)数据集上,Gemini的域外成功率达94.9%,远超RNGDet++(25.2%)与SAM 3.1(4.2%)。核心原因是生成模型能推理未标注的连通道路,而传统方法依赖人工标注,易出现断连。

图| 路径规划下游任务基准测试结果
2. 真实场景测试:无人机160米长距导航
硬件平台采用搭载Livox Mid-360 LiDAR、Intel RealSense D455相机的四旋翼无人机,限定1米近地高度,模拟地面机器人视角;BEV地图由航拍影像生成,系统部署于NVIDIA Orin NX边缘平台。

图| 分布外真实场景测试对比图
在7类场景、21条路线中,系统端到端成功率达71.4%:
- 公园导航:无标注路径的公园中,仅靠自然语言指令(如“去最近的湖边小路”),无人机能避开植被,沿规划路径飞行;

图| 公园导航实验
- 工业园区导航:GPS信号波动环境下,跨视图定位持续修正漂移,完成160米长距导航;

图| 工业园区导航实验
- 失效案例:主要因可通行掩码断连(2例)或跨视图定位误差(4例),集中于纹理稀疏区域。
03 核心价值与中立审视
1. 三大核心突破
- 范式革新:首次将图像生成模型完整融入BEV导航,用生成式掩码替代传统语义分割,打通生成模型与具身导航的迁移路径;
- 泛化能力跃迁:无需场景微调,就能适配道路、荒野、园区等多场景,解决传统导航“场景定制、泛化弱”的痛点;
- 低成本落地:仅用常规局部规划器,无需高精度GPS/RTK,降低长距导航硬件门槛。

2. 不可忽视的局限
- 依赖BEV质量:地图错位、非正射投影会直接导致定位与规划失效;
- 2D信息缺陷:BEV为二维图像,无法反映地形起伏、多层建筑等三维结构,复杂地形易出现通行歧义;
- 实时性瓶颈:跨视图定位仅1Hz,高速运动场景下校准滞后,可能引发跟踪误差。
04 行业启示:生成模型正在重塑导航边界
PathPainter的价值,不止是提出一种新导航算法,更揭示了具身导航的新方向:当传统几何方法遇到泛化天花板,生成式世界模型将成为破局关键。
此前,生成模型已在视频预测、VLA(视觉语言动作)模型中展现物理理解能力,而PathPainter进一步证明:生成模型的空间常识、遮挡推理、跨域泛化能力,能直接转化为导航所需的全局先验。未来,随着生成模型精度提升、三维信息融合、定位效率优化,这类“生成式导航”或将从实验室走向大规模落地,尤其在野外搜救、园区巡检等无GPS、场景多变的场景中,潜力巨大。
但需清醒认识,PathPainter仍是阶段性成果:生成模型的“幻觉”问题(误判可通行区)、三维场景理解缺失、边缘设备部署成本等,仍是横亘在落地前的障碍。不过可以确定,把生成模型的泛化能力注入具身智能,已从“可选项”变成“必答题”,而PathPainter正是这条路上的关键一步。
Ref
论文标题:PathPainter: Transferring the Generalization Abilityof Image Generation Models to Embodied Navigation
论文链接:https://arxiv.org/pdf/2605.07496
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)