自动驾驶大模型---RAD（Reinforced Autonomous Driving）

智能汽车人

381人浏览 · 2026-04-29 07:30:00

智能汽车人 · 2026-04-29 07:30:00 发布

1 前言

在前面的博客中，笔者写了大量的文章，去介绍普及自动驾驶端到端相关的内容，包括VLM/VLA或者VA等架构。本篇博客笔者主要介绍很多车企都在使用的世界模型生成方案---3DGS。

当下主流端到端智驾模型多采用模仿学习范式，但该范式在实际应用中存在难以解决的关键问题，这也成为 RAD（Reinforced Autonomous Driving）范式提出的核心动因：

因果混淆问题：模仿学习本质是拟合人类驾驶轨迹的相关性而非因果关系，模型易出现捷径学习。例如仅靠历史轨迹外推未来轨迹，而非基于障碍物、交通规则等真实因果因素做决策，且训练数据以常规驾驶行为为主，导致模型对碰撞等安全关键事件不敏感。
开环闭环差异问题：模仿学习以开环方式训练，而真实驾驶是闭环过程。单步微小的轨迹误差会随时间累积，使车辆陷入训练数据外的场景，此时仅靠模仿学习训练的模型极易失效。
传统闭环训练不可行：若直接在真实道路开展闭环强化学习训练，会面临极高的安全风险与运营成本；而基于游戏引擎的仿真环境，又无法提供逼真的传感器模拟结果，难以匹配真实驾驶场景的需求。

2 RAD 架构

该论文由华中科技大学与地平线团队联合提出，核心是打造了名为 RAD（Reinforced Autonomous Driving）的端到端自动驾驶训练范式。它创新性地结合 3D 高斯溅射（3DGS）技术构建数字孪生世界，用强化学习后训练突破传统模仿学习的瓶颈，既弥补了模仿学习在安全性和因果推理上的缺陷，又通过模仿学习正则化保证驾驶行为贴合人类习惯，大幅提升了自动驾驶策略的安全性与泛化能力。如下图所示：

2.1 总体架构

总体架构中主要包括两个方面的内容：

（1）VA端到端架构---下图中的上半部分；

VA端到端架构通过sensor获取图像信息，通过BEV Encoder得到BEV features，然后通过Perception Head进行解码，得到环境特征；同时Image Encoder通过 sensor获取原始的图像特征，然后再结合Perception Head解码得到的环境特征，输出最终的trajectory或者action。

（2）训练范式---下图中的下半部分；

训练主要分为三个阶段：

感知预训练；
规划预训练；
强化学习后训练；

2.2 训练流程

RAD 包括三阶段训练范式，整体设计兼顾感知精度与训练效率，具体如下：

模块 / 阶段	核心构成与操作	关键作用
感知预训练	由真值标签监督地图头和智体头，使其输出准确的地图元素与交通参与者运动信息，仅更新 BEV 编码器、地图头和智体头的参数。	让模型提前掌握高级感知能力，为后续规划任务奠定基础，避免感知与规划的参数优化冲突
规划预训练	采用模仿学习，基于人类专家驾驶数据初始化模型的动作概率分布，此阶段仅更新图像编码器和规划头参数，冻结感知相关模块参数。	解决强化学习训练的冷启动问题，让模型先掌握基础的类人驾驶能力
强化后训练	设置多个并行训练单元，每个单元随机采样 3DGS 场景开展交互训练，生成的训练数据存入缓冲区。训练中用近端策略优化（PPO）算法微调模型，通过广义优势估计（GAE）传播奖励，同时将模仿学习作为正则约束模型行为。	通过与数字孪生环境的交互，让模型学习因果关系，提升对罕见危险场景的应对能力，最终形成安全可靠的驾驶策略

2.3 实验

实验设置：构建了由未见过的 3DGS 场景组成的闭环评估基准，将 RAD 与传统模仿学习方法在该基准上进行对比测试，重点评估碰撞率等核心安全指标。同时将 RAD 的端到端策略与主流模块化方案开展闭环性能比对。
关键结果：RAD 的综合性能显著优于传统模仿学习方法，其中碰撞率相比后者降低 3 倍，能有效应对无保护左转、行人突发横穿等危险场景。此外，其在轨迹平滑度、与人类驾驶行为的一致性等指标上也表现优异，验证了该范式在安全性和实用性上的优势。

3 总结

局限性与未来方向该范式目前仍存在部分待优化点：一是 3DGS 环境中其他交通参与者的行为基于场景回放生成，缺乏实时交互响应能力；二是在低光照、欠观测视角等场景下，3DGS 的场景重建效果还有提升空间。后续研究将聚焦提升数字孪生世界的交互真实性，同时探索进一步拓展强化学习的规模效应，持续突破端到端自动驾驶的能力边界。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【轴承故障诊断】一种用于轴承故障诊断的稀疏贝叶斯学习（SBL），两种群稀疏学习算法来提取故障脉冲，第一种仅利用故障脉冲的群稀疏性，第二种则利用故障脉冲的额外周期性行为（Matlab代码实现）

在强背景噪声和/或多重干扰下提取故障脉冲是轴承故障诊断的一项具有挑战性的任务。稀疏表示已被广泛应用于提取故障脉冲，并且能够实现最先进的性能。然而，大多数当前的方法依赖于精心调整多个超参数，并且由于近似正则化和/或启发式稀疏模型可能会遭受算法退化的可能性。为了克服这些缺点，本文提出了一种用于轴承故障诊断的稀疏贝叶斯学习（SBL）框架，然后提出了两种群稀疏学习算法来提取故障脉冲，其中第一种仅利用故障脉

AtomGit开源社区

基于模型预测控制的波浪能转换器（WEC）研究（Matlab代码实现）

本文模拟从波浪能转换器（WEC）中提取的能量，当受控移动窗口阻塞 MPC 时，单设备。它还比较了使用标准MPC和GPC控制时WEC提取的能量。摘要：海浪能是可再生能源最集中的来源之一。然而，到目前为止，它还没有达到商业化所需的经济可行性。为了提高波浪能转换器的效率，已经提出了几种先进的控制策略，包括模型预测控制（MPC）。然而，每个优化问题的计算负担都是传统（全自由度）MPC的缺点，这通常会