浙大高飞团队提出PathPainter：用生成式模型重新定义了BEV导航，域外成功率94.9%！

PathPainter的核心创新，是跳出传统导航“特征提取-地图构建-路径搜索”的范式，将BEV导航重构为图像生成问题。整个系统分为高层生成式规划与低层运动执行两大模块，前者负责从BEV和自然语言指令中输出全局路径，后者通过跨视图定位与局部规划完成实时避障，形成“全局生成、局部执行”的分层架构。

图| 导航系统整体流程图

1. 生成式全局规划：语言指令到可通行掩码

高层规划的核心是让图像生成模型理解BEV地图与自然语言指令，输出目标区域与可通行掩码，核心流程分为三步：

图| PathPainter 生成式规划工作流（语言指令→掩码→路径）

目标定位：在BEV地图上标注机器人起点（绿色星标），输入自然语言指令（如“去公园另一侧的入口”），生成模型直接在图中标注目标区域；
可通行掩码生成：通过精心设计的提示词，引导模型输出二值化掩码——白色代表道路、人行道、广场等可通行区域，黑色代表建筑、植被等障碍。关键是模型能基于全局上下文，补全树木遮挡下的连续道路，解决传统分割方法的碎片化问题；
全局路径搜索：在可通行掩码上运行A*算法。为让路径更安全，在代价函数中加入边界距离惩罚项，让路径远离障碍边缘，最终输出平滑、可执行的全局路径。

2. 跨视图定位：解决长距离里程计漂移

仅靠全局路径无法落地，机器人局部里程计（如LiDAR里程计）的长时漂移，会导致自身位姿与BEV地图严重错位。PathPainter引入跨视图定位模块，核心是对齐地面局部观测与BEV全局特征：

从RGB-D相机获取地面局部点云，提取局部特征；
与BEV地图的全局特征匹配，估计机器人在BEV坐标系中的位姿；
通过坐标变换，将全局路径转换为局部坐标系下的短距离目标，供局部规划器执行。

该模块以1Hz频率运行，专门修正长时漂移；而局部规划器以10Hz频率工作，兼顾实时避障与轨迹跟踪，实现“低频全局校准、高频局部执行”的高效协同。

02 实验验证：生成模型凭什么赢？

PathPainter在公开基准与真实场景中均完成验证，核心结论是：图像生成模型在跨域泛化、遮挡推理上，显著优于传统分割与拓扑方法。

1. 公开基准测试：跨域鲁棒性碾压

实验在可见道路分割与下游路径规划两类任务中展开，对比SAM 3.1、RNGDet++、SAMRoad等主流模型：

分割任务：在DeepGlobe、UAVid等数据集上，Gemini（生成模型）的召回率显著更高，能生成更连续的道路区域，适合后续路径搜索；SAM 3.精度高但偏保守，易丢失窄路与遮挡路段；

图| 可见道路分割基准测试结果

路径规划任务：在CityScale（域内）与GlobalScale（域外）数据集上，Gemini的域外成功率达94.9%，远超RNGDet++（25.2%）与SAM 3.1（4.2%）。核心原因是生成模型能推理未标注的连通道路，而传统方法依赖人工标注，易出现断连。

图| 路径规划下游任务基准测试结果

2. 真实场景测试：无人机160米长距导航

硬件平台采用搭载Livox Mid-360 LiDAR、Intel RealSense D455相机的四旋翼无人机，限定1米近地高度，模拟地面机器人视角；BEV地图由航拍影像生成，系统部署于NVIDIA Orin NX边缘平台。

图| 分布外真实场景测试对比图

在7类场景、21条路线中，系统端到端成功率达71.4%：

公园导航：无标注路径的公园中，仅靠自然语言指令（如“去最近的湖边小路”），无人机能避开植被，沿规划路径飞行；

图| 公园导航实验

工业园区导航：GPS信号波动环境下，跨视图定位持续修正漂移，完成160米长距导航；

图| 工业园区导航实验

失效案例：主要因可通行掩码断连（2例）或跨视图定位误差（4例），集中于纹理稀疏区域。

03 核心价值与中立审视

1. 三大核心突破

范式革新：首次将图像生成模型完整融入BEV导航，用生成式掩码替代传统语义分割，打通生成模型与具身导航的迁移路径；
泛化能力跃迁：无需场景微调，就能适配道路、荒野、园区等多场景，解决传统导航“场景定制、泛化弱”的痛点；
低成本落地：仅用常规局部规划器，无需高精度GPS/RTK，降低长距导航硬件门槛。

2. 不可忽视的局限

依赖BEV质量：地图错位、非正射投影会直接导致定位与规划失效；
2D信息缺陷：BEV为二维图像，无法反映地形起伏、多层建筑等三维结构，复杂地形易出现通行歧义；
实时性瓶颈：跨视图定位仅1Hz，高速运动场景下校准滞后，可能引发跟踪误差。

04 行业启示：生成模型正在重塑导航边界

PathPainter的价值，不止是提出一种新导航算法，更揭示了具身导航的新方向：当传统几何方法遇到泛化天花板，生成式世界模型将成为破局关键。

此前，生成模型已在视频预测、VLA（视觉语言动作）模型中展现物理理解能力，而PathPainter进一步证明：生成模型的空间常识、遮挡推理、跨域泛化能力，能直接转化为导航所需的全局先验。未来，随着生成模型精度提升、三维信息融合、定位效率优化，这类“生成式导航”或将从实验室走向大规模落地，尤其在野外搜救、园区巡检等无GPS、场景多变的场景中，潜力巨大。

但需清醒认识，PathPainter仍是阶段性成果：生成模型的“幻觉”问题（误判可通行区）、三维场景理解缺失、边缘设备部署成本等，仍是横亘在落地前的障碍。不过可以确定，把生成模型的泛化能力注入具身智能，已从“可选项”变成“必答题”，而PathPainter正是这条路上的关键一步。

Ref

论文标题：PathPainter: Transferring the Generalization Abilityof Image Generation Models to Embodied Navigation

论文链接：https://arxiv.org/pdf/2605.07496

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现）

可再生能源（RES）和储能系统（ESS）在微电网中的集成为最终用户和系统运营商提供了潜在的利益。然而，对于微电网的经济运行，需要对可再生能源的间歇性问题和ESS的高成本进行审查。本文提出了一种由电池和超级电容器组成的混合ESS微电网的两层预测能量管理系统（EMS）。考虑到混合ESS在充电深度（DOD）和寿命方面的退化成本，电池和超级电容器的长期成本被建模并转化为与实时操作相关的短期成本。

AtomGit开源社区

ICRA2026 最佳论文风向风向——具身智能拐点：世界模型、多模态融合与灵巧操作技术革命

AtomGit开源社区

发电机故障暂态仿真及电压电流变化特性研究（Simulink仿真实现）

同步发电机作为电力系统的核心发电设备，其运行稳定性直接决定电网供电可靠性。电网运行过程中各类短路、接地故障会引发发电机电磁暂态过程，造成机端电压、定子电流等电气参数剧烈波动，极易导致机组失稳、设备损毁甚至大面积停电事故。为系统探究发电机故障状态下的电气量演化规律，本文搭建标准化发电机电磁暂态仿真模型，模拟单相接地短路、两相短路、三相短路三类典型故障工况，通过仿真观测不同故障发生、发展及恢复全过程中