AAAI 2026论文分享｜使用潜世界模型WorldRFT实现更安全的端到端自动驾驶

audyxiao001

505人浏览 · 2026-05-07 17:13:20

audyxiao001 · 2026-05-07 17:13:20 发布

本文介绍AAAI 2026会议收录的一篇端到端自动驾驶领域的论文《WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving》。该论文针对现有潜世界模型中，面向重建的表示学习与规划任务需求错位这一根本性问题，提出了一个全新的规划导向型框架WorldRFT。该框架通过空间几何先验融合、层次化规划任务分解与局部迭代细化，以及带有安全意识的强化学习微调，系统性地弥合了场景表示与驾驶规划之间的鸿沟。在nuScenes与NavSim两大基准测试中，WorldRFT取得了令人瞩目的结果，在开环nuScenes评估中，碰撞率降低了83%；在基于摄像头的闭环NavSim评估中，更是取得了与基于激光雷达的SOTA方法相媲美的性能，展现出卓越的安全性与规划能力。

原文链接：https://arxiv.org/abs/2512.19133

项目链接：https://github.com/pengxuanyang/WorldRFT

本推文由龚裕涛撰写，审核为王一鸣和黄忠祥

会议介绍

AAAI Conference on Artificial Intelligence是人工智能领域的顶级国际会议之一，由国际人工智能促进协会主办。AAAI被中国计算机学会（CCF）推荐为A类会议，其征稿范围几乎覆盖了人工智能的所有子领域，包括但不限于机器学习、计算机视觉、自然语言处理和机器人学。每年的AAAI会议都是全球AI研究者展示和探讨最前沿技术与思想的核心舞台。

一、研究背景和主要贡献

端到端自动驾驶系统的发展正经历着范式变迁。传统方法依赖于对检测、跟踪、建图等感知任务的显式监督，而新兴的潜世界模型以其无需感知标注的自监督学习特性，被视为更简洁、更具潜力的新范式。然而现有潜世界模型的核心目标通常是准确地重建未来场景，这种“重建导向”与“规划需求”之间存在着根本性的错位，具体表现为三大挑战。一是缺乏对规划至关重要的3D空间理解；二是简单的全局规划查询无法有效捕捉局部细节，导致交互效率低下；三是对安全性的感知不足，仅靠模仿学习难以主动避障。

论文主要贡献：

(1)提出首个规划导向的潜世界建模范式
论文创新性地提出了WorldRFT框架，通过空间几何先验融合和层次化规划交互，深度对齐了场景表示学习与规划任务。它不再仅仅追求重建精度，而是让世界模型直接为规划服务。

(2)设计层次化规划与局部迭代细化机制
为解决全局规划查询的局限性，WorldRFT将复杂的端到端规划分解为目标区域定位、空间路径规划和时序轨迹预测三个平行的子任务，并设计了局部感知的迭代细化模块，动态采样与规划高度相关的局部特征，实现了“全局一致”与“局部精准”的统一。

(3)引入安全导向的强化学习微调
论文设计了一种基于组相对策略优化（Group Relative Policy Optimization，简称为GRPO）的强化学习微调方法，通过将确定性轨迹输出建模为高斯分布以鼓励探索，并设计碰撞感知的奖励函数，使模型从被动的行为克隆转变为主动的碰撞避免，系统性地提升了规划的安全性。

(4)在开环与闭环基准上取得SOTA性能
WorldRFT在权威的nuScenes（开环）和NavSim（闭环）平台上进行了全面验证。结果证明，模型在显著降低碰撞率的同时保持了高准确性，并且在纯视觉输入的闭环测试中，达到了超越多数多模态方法、逼近激光雷达SOTA方法的优异成绩。

二、研究方法

2.1框架概览

如图1所示，WorldRFT框架由三个协同工作的核心模块构成。首先，空间感知世界编码器（Spatial-aware World Encoder，简称为SWE）以环视RGB图像为输入，利用视觉几何基础模型VGGT构建蕴含3D空间先验的潜世界表征，解决了传统潜世界模型缺乏景深与空间结构理解的根本缺陷。随后，层次化规划细化模块（Hierarchical Planning Refinement，简称为HPR）在潜世界中实施精细的规划交互：它将轨迹生成任务分解为三个并行的层次化子任务，并通过统一的查询交互框架和局部感知迭代细化的循环机制，从全局表征中动态提取与规划决策最关键相关的局部特征，实现层层递进的轨迹精修。最后，安全感知的强化学习微调阶段（Reinforcement Fine-Tuning，简称为RFT）引入显式的碰撞感知奖励函数，将确定性轨迹预测重铸为高斯概率分布以鼓励安全探索，通过GRPO算法对策略进行优化，引导模型从被动地模仿专家轨迹，转向主动学习碰撞避免的内在安全逻辑。三个模块各司其职又紧密耦合，共同实现了高质量的端到端自动驾驶规划。

图1 WorldRFT框架概览

2.2空间感知世界编码器

该模块旨在从根本上解决潜世界模型缺乏3D空间认知这一瓶颈。传统的潜世界模型虽能通过自监督方式重建未来场景，但其学习到的表征往往停留在2D外观层面，难以有效捕捉规划任务所必需的深度信息、空间结构与几何关系。WorldRFT借鉴并超越了前人思路，创新性地引入了一个预训练好且冻结参数的视觉几何基础模型VGGT作为3D空间先验的来源。VGGT基于海量多样化数据训练，具备优雅的前馈式推理架构，能够从多视角2D图像中直接推理出多视角一致的、富含几何信息的3D令牌。

具体而言，如图2所示，SWE首先从多视角输入图像中提取基础的2D视觉特征。与此同时，将同一组环视图像送入冻结的VGGT模型，从其最终层提取出三类信息令牌：相机令牌、注册令牌及3D令牌，其中3D令牌编码了场景的三维几何先验。随后，SWE设计了一个轻量级的交叉注意力融合模块：以2D视觉特征作为查询，以VGGT输出的3D令牌作为键和值，执行一次高效的交叉注意力计算。这一操作使得2D特征中的每个空间位置能够自适应地从3D令牌中聚合几何信息。经过融合后输出的统一潜空间视觉表征，不仅保留了丰富的纹理和语义信息，更被注入了精准的3D空间感知能力，这一切均无需任何显式的深度图监督或激光雷达点云数据，充分体现了方法的简洁性与实用性。

图2 感知世界编码器示意图

2.3层次化规划细化模块

HPR是WorldRFT架构的核心创新，负责在SWE构建的潜世界表征基础上实施精确的规划。针对传统方法使用单一全局查询而导致的注意力分散与局部信息丢失问题。

（1）层次化任务分解与统一查询交互框架

HPR首先将复杂的端到端规划任务解耦为三个维度互补、监督明确的并行子任务，具体描述如下：

(a)目标区域定位

传统方法通常预测一个确定的未来目标点作为导航引导，然而真实驾驶中可行的目标点天然具有不确定性，例如，前车突然减速时，自车可以有不同的跟车距离。为此，WorldRFT创造性地将目标建模为一个概率性的拉普拉斯分布区域。具体地，通过一个MLP网络从目标查询向量解码出区域的中心坐标μ和尺度参数b，后者自然地量化了场景的复杂度和预测的不确定性。在高度交互或模糊的路口，b值较大，表示模型认为目标区域更广，态度更谨慎。训练时，该分布通过拉普拉斯分布的负对数似然损失进行监督。

(b)空间路径规划

该子任务生成一条与时间解耦的空间几何路径，由N个在空间上等距采样的路径点构成。它只关注“车辆应从哪些几何位置经过”的静态路径形态，使模型能够专注于空间坐标的学习。

(c)时序轨迹预测

在空间路径的几何指导下，该子任务进一步生成富含动态信息的未来时序轨迹。轨迹由T个按固定时间间隔采样的轨迹点组成，每个点包含速度和加速度信息，完整刻画了车辆未来的运动意图。

为了实现三个子任务之间的信息互通与规划协同，HPR设计了一个统一的查询交互框架。每个子任务分别初始化专属的可学习查询向量，它们首先通过交叉注意力从潜世界表征中独立聚合任务相关特征，然后将三类查询拼接后送入自注意力模块，使得目标区域、空间路径和时序轨迹的规划意图能够充分交互、达成一致。例如，目标区域的位置会引导空间路径的大致走向，而路径的几何约束又会影响时序轨迹的动态生成。

（2）局部感知迭代细化模块

上述过程得到的是初步的规划结果。为了进一步提升轨迹的局部精确性和对环境的适应性，HPR引入了一个循环K次的局部感知迭代细化机制，以时序轨迹的细化为例，每轮迭代均包含以下关键步骤。

(a)状态编码

将当前轮次的规划结果——目标区域参数、空间路径点和时序轨迹点，通过MLP编码为一个统一的全局规划状态向量。

(b)局部特征采样

利用相机投影矩阵，将当前轮次的时序轨迹点投射到潜空间特征图上，精确定位轨迹点在特征图中的空间对应位置。然后，以这些位置为参考点，利用可变形卷积自适应地在周围局部区域采样特征，从而获取与当前轨迹形态高度相关的局部场景信息，如路沿、车道线、动态障碍物等。

(c)不确定性引导融合

将从目标区域定位任务中得到的不确定性信号b通过MLP编码后，作为条件信号参与到局部特征与全局特征的融合过程中。这意味着，当场景高度不确定时，模型会让轨迹更多地参考局部采样的实时信息，从而做出更保守、更安全的微调。

(d)残差更新输出

融合后的特征通过一个轻量预测头生成当前轮次的轨迹偏移量，并利用残差连接以较小的步长对轨迹进行增量更新。经过K次迭代后，轨迹从粗略的初始形态逐渐被精修为一条既符合全局导航意图，又精准贴合局部道路结构且安全避开动态障碍物的高质量轨迹。

图3 层次化规划细化与局部感知迭代细化模块架构

2.4安全导向的强化学习微调

基于模仿学习的预训练模型往往倾向于复现训练数据中的平均行为，导致在遭遇训练分布之外的、需要主动避让的危险场景时表现不佳。RFT阶段的目标正是赋予模型主动的、原则性的碰撞避免能力，使其超越表面的行为模仿。

（1）从确定性预测到概率性探索

强化学习要求策略能够输出动作的概率分布并进行采样探索，而原模型的轨迹预测是确定性的回归值。为此，WorldRFT首先对规划策略进行概率化改造：将预训练模型输出的时序轨迹作为高斯分布的均值，同时引入一个轻量的辅助方差网络，自适应地估计每个预测时间步上的协方差矩阵，从而将轨迹建模为一个完整的高斯分布。这一设计使得模型能够在训练轨迹周围进行可控的随机采样，既保留了基础驾驶能力，又为安全探索提供了可能。

（2）简洁高效的碰撞感知奖励设计

WorldRFT采用了一个极简而直接的奖励函数：在整个规划时域内，如果自车的边界框与任何周围智能体的边界框发生重叠，即碰撞，则给予-1的负面奖励；若无碰撞发生，则给予0奖励。这种二值化的稀疏奖励设计不仅易于计算，无需任何人工调节的精细距离度量，而且目标明确——直接最小化碰撞事件的发生概率。

（3）GRPO策略优化流程

具体优化采用GRPO策略。在每一次训练迭代中，对于给定的输入场景，当前策略（即微调中的模型）会独立采样G条轨迹形成一组。对于组内的每条轨迹，计算其在每个未来时间步上的原始奖励值。然后，按照GRPO的核心思想使用组内的相对表现来评估策略：将每条轨迹的奖励值减去组内均值并除以标准差进行标准化，得到相对奖励。这种组内互评机制消除了场景本身难度差异带来的奖励波动，使优势估计更稳定、更具区分度。

进而，对于每个时间步j，定义其优势函数为从j时刻起到规划终点的累积相对奖励之和，以捕捉当前动作对后续所有时刻的长远影响。策略优化的目标函数采用GRPO的裁剪机制，在限制新旧策略差异的前提下最大化优势期望，确保优化过程平稳可控。同时，除了GRPO目标外，损失函数中还额外引入了两项辅助约束：一是对轨迹均值的L2参考损失，防止模型偏离原始合理行为过远；二是最大熵损失，鼓励协方差保持适度大小，防止策略过早确定性地收敛而丧失探索能力。

通过RFT阶段，模型从“追求与专家轨迹的最小偏差”的行为克隆范式，转变为“在保持合理性的前提下最大化碰撞避免”的主动安全策略，从而在开环与闭环测试中均展现出前所未有的低碰撞率。

三、实验结果

3.1实验设置

(1) 数据集与基准

论文在两个权威数据集上进行了全面的开环与闭环评估。

(a)nuScenes数据集(开环)

该数据集包含1000个真实驾驶场景，评估预测轨迹与真实轨迹的L2位移误差及其碰撞率。

(b)NavSim数据集(闭环)

该数据集使用基于OpenScene数据集的仿真器，综合评估规划的安全性、舒适度及通行效率，其核心指标为PDMS。

(2) 评价指标

(a)L2 Error(m)

预测轨迹与真实轨迹间的平均欧几里得距离，越小越好。

(b)Collision Rate(%)

规划轨迹导致与其他道路参与者碰撞的频率，是衡量安全性的核心指标。

(c)PDMS

闭环评估下的综合得分，以乘法和加权求和的方式融合了无责碰撞(NC)、可行驶区域合规性(DAC)、碰撞时间(TTC)、舒适度(Comf.)和自车进度(EP)五项指标。

3.2对比实验

如表1及表2所示，在nuScenes开环测试中，WorldRFT在同类型方法中取得了最佳的L2误差和极低的碰撞率。特别是碰撞率，较其强大的基线LAW降低了惊人的83%，甚至超越了所有需要感知标注的方法。

在NavSim闭环测试中，纯视觉输入的WorldRFT取得了87.8的PDMS，这不仅是纯视觉方案中的最佳成绩，更超越了多数依赖激光雷达的方法，与SOTA方法DiffusionDrive的差距仅有0.3分。其在“可行驶区域合规性”上取得的96.8最高分，充分证明了引入3D几何先验后的卓越空间理解能力。

表1在nuScenes基准上与其他SOTA方法的定量对比

表2 在NavSim闭环基准上与其他SOTA方法的定量对比

3.3消融实验

论文通过详尽的消融实验验证了各组件的有效性。如表3所示，分别引入VGGT空间编码、层次化规划任务和局部迭代细化模块，均能在L2误差和碰撞率上带来持续且一致的提升。尤其重要的是，对不同优化方式的对比显示，监督微调（Supervised Fine-Tuning，简称为SFT）和强化学习微调（Reinforcement Fine-Tuning，简称为RFT）尽管取得了接近的L2误差，但RFT将碰撞率进一步降低了50%，强有力地证明了通过强化学习主动探索，能够学到比被动模仿更深刻的安全策略。

表3 网络架构消融实验分析

四、总结

本推文介绍了端到端自动驾驶领域的一种规划导向的新框架WorldRFT。该框架通过引入几何先验增强了空间感知。同时，它使用层次化分解与迭代优化提升了规划质量。此外，该框架通过强化学习微调实现了主动安全。WorldRFT不仅在多个权威基准上取得了卓越的性能，更重要的是，它实现了自动驾驶世界模型研究范式的一次重要转变，即从单纯追求场景理解转向深度结合决策需求。该框架为实现更安全、更高效、更鲁棒的端到端自动驾驶系统提供了一条充满潜力的全新路径。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

收藏！AI时代程序员薪资分化严重？3个月转型AI工程，求职成功率提升60%！

AtomGit开源社区

从4篇到40篇：我用AI自动化管道把Wordpress博客产量翻了10倍，顺便治好了颈椎病

AtomGit开源社区

Containerd 容器技术详解

本文完整覆盖原文安装、配置、镜像、容器、任务、插件、命名空间OCI/CRI 生态关系Runtime v2 + Shim 高可用原理生产配置与安全基线常见问题排障ctr/crictl/nerdctl 定位区别Containerd 是云原生底层基石，掌握它可彻底理解容器运行机制，为 K8s 运维、性能调优、安全加固打下坚实基础。