魔鬼藏在狭隘的策略中:释放VLA驾驶模型的探索潜力
26年3月来自北航、联想集团和中国传媒大学的论文“Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models”。
自主VLA模型的性能受到一个根本性的窄策略限制,即驾驶的模仿学习(IL)阶段往往会抑制探索,限制后续强化学习(RL)阶段的潜力,导致RL阶段因反馈多样性不足而过早饱和。为此,提出Curious-VLA框架,该框架通过两阶段设计缓解“利用-探索”困境。在IL阶段,引入可行轨迹扩展(FTE)策略来生成多个物理上有效的轨迹,并采用逐步归一化的轨迹表示来适应这些多样化的数据。在RL阶段,提出自适应多样性-觉察采样(ADAS)策略,该策略优先选择高多样性的样本,并引入具有焦点式加权的跨驾驶奖励(SDR)来扩大奖励值范围,从而提高对驾驶质量的敏感性。在 Navsim 基准测试中,Curious-VLA 取得了最先进的结果(PDMS 90.3,EPDMS 85.4),最佳 NPDMS 为 94.8,证明了其在释放 VLA 模型探索潜力方面的有效性。
当前驱动型VLA大致可分为两大类:(i)VLA-Planner [23, 27],它依赖于额外的轨迹规划模块来预测未来的运动分布;(ii)VLA-Token [33, 53, 54],它直接从LLM解码器生成轨迹token。尽管架构有所不同,但两种算法都遵循类似的两阶段训练流程:初始阶段通过监督微调(SFT)进行模仿学习(IL),以获得基本的轨迹规划和推理能力;强化学习(RL)阶段则采用思维链(CoT)优化来增强推理能力[27, 33, 54]。然而,这种两阶段管道(先 IL,再 RL)存在一个根本性的窄策略 (NP) 限制,其特点是固有的利用-探索不平衡——IL 阶段过度利用真实轨迹,导致探索崩溃,从而限制了 RL 微调期间的策略更新。
以往的VLA驾驶研究中,NP问题大多被忽略。在Navsim navtrain子集[10]上评估两个具有代表性的基线模型:QwenVL-2.5(VLA-Token)和ReCogDrive(VLA-Planner)。对于每个模型,通过k次推理抽取k条轨迹,并使用三个行为诊断指标进行评估:(i)多样性,通过平均成对ADE/FDE值来衡量,该指标量化轨迹的离散程度;(ii)质量,通过最小ADE/FDE值来衡量,该指标指示最佳可行轨迹;(iii)性能,等于Navsimv1[10]的平均PDMS值。如图a所示,两个基线模型都表现出明显的探索崩溃现象,轨迹多样性极低,轨迹质量也有限。图 b 进一步说明了这种效应——尽管存在多条可行路径,但采样轨迹最终收敛于单一模式,甚至导致不安全行为。通过 SFT 学习的狭窄策略导致后续强化学习阶段的初始化熵较低。由于无critic的强化学习算法(例如 GRPO [14, 40])依赖于多样化的样本来估计策略梯度,这种狭窄的策略会导致过早饱和和有限的学习反馈 [8, 48]。因此,GRPO 强化学习训练会降低 VLA 的性能。
为了突破这一限制,提出 Curious-VLA,这是一个训练框架,它无需任何额外的模块即可系统地激发 VLM 自身的探索能力。在初始学习(IL)阶段,将真实轨迹(GT)视为潜在的人类驾驶行为之一。因此,引入可行轨迹扩展(FTE)数据合成方案,该方案利用VLA-Planner的扩散模块[27]生成多条物理上有效的驾驶路径,即所谓的可行轨迹。这种数据合成方案极大地增加训练轨迹的多样性。为了适应这些更多样化的轨迹,逐步对每条轨迹进行归一化,从而增强不同驾驶行为之间的可分离性,并缓解归一化问题(NP)。在强化学习(RL)阶段,为了鼓励探索,进一步引入两个互补组件:自适应多样性-感知采样(ADAS)策略和跨-驾驶奖励(SDR)。 ADAS优先考虑展现探索性差异的样本,舍弃那些在多次推理过程中预测轨迹高度相似的训练样本。这鼓励策略不断完善多样化的驾驶行为,并防止过早收敛到单一的主导模式。此外,为了进一步促进有效探索,引入SDR,它通过类似焦点损失函数的函数来放大奖励值范围,从而重新构建原始驾驶奖励,提高奖励函数对驾驶质量的敏感性。
初步:VLA训练流程
借鉴先前的工作[16, 54],将驾驶VLA建模为一个统一的生成策略π_θ,该策略将多模态观测数据X映射到长度为T的动作序列τ = {w_1, …, w_T},其中w_i表示自我车辆的空间和速度动作。具体而言,多模态输入X包括多视角摄像头图像C、文本指令I(例如,“左转”)以及自车状态S(例如速度、加速度、过去的控制动作)。策略输出τ可以是VLA-Planner的路径点序列,也可以是VLA-Token的离散化token。本文默认采用VLA-Token范式,该范式包含两个阶段:模仿学习(IL)和强化学习(RL)。
模仿学习。在 VLA-Token 范式中,策略由 SFT 初始化,SFT 通过交叉熵损失L_SFT(θ) 最大化生成的文本输出轨迹token y∗ 的似然性。
强化学习。为了促进对环境的真正理解和主动驾驶推理,SFT策略π_sft通过强化学习得到进一步优化。对于强化学习,常用的方法是组相对策略优化(GRPO)[40],它可以通过归一化采样组内的优势来消除价值网络。对于每个输入X,从旧策略π_θ_old中采样一组G个输出{y_i}。训练目标结合截断损失和KL散度约束:J_GRPO(θ) 。优势 A_i 是通过对群体奖励进行标准化计算得出的。
窄策略 (NP) 分析
(1) 优化目标不匹配。交叉熵损失将所有非真实tokens都视为同样错误 [24]——它缺乏轨迹tokens之间空间或功能邻近性的概念,而轨迹tokens在物理上应该是连续的。形式上,令 zt 为模型的输出 logit,yˆ_t 为预测token,y_t∗ 为步骤 t 的真实 (GT)token。yˆ_t 使用因果上下文 {y_<∗t, X} 生成。总损失 L_SFT 相对于该单个 logit z_t 的梯度为:
虽然惩罚幅度与模型的置信度 π_θ(y_t|·) 成正比,但优化目标本身并没有为接近正确的预测提供比明显错误的预测更平滑的激励。例如,与回归损失相比,当真实值为 31.5 时,对于离散的token 31.4 和 21.4,哪个 CE 损失更高尚不清楚。这种离散的、逐token的监督方式会鼓励对 y∗ 的过度自信,从而将策略分布压缩到单一专家模式附近。
(2)SFT 过程中视野物理尺度不匹配。另一个瓶颈源于轨迹表征本身。如图显示,未来航点是在以自我为中心的坐标系中预测的,其中远景展现出更大的空间方差。例如,t = 4 秒时航点坐标的方差比 t = 0.5 秒时大几个数量级。因此,远景损失主导 LSFT,而近景动作(决定转向精度)的贡献可以忽略不计。这种不平衡降低 VLA 学习行为多样性的能力。
(3)强化学习中的优势崩溃。当策略 π_θ 崩溃到单一轨迹模式时,不同样本的奖励几乎相同,即 R(y_i) ≈ μ_R。因此,σ_R → 0,从而 A_i ≈ 0。
(4)行为诊断。为了定量诊断策略的局限性,引入三个互补的指标,统称为行为诊断。给定一个输入场景 X,从策略 π_θ 中采样 k = 8 条轨迹,生成一个轨迹集 T = {τ_1, τ_2, …, τ_k},时间跨度为 4 秒(8 步)。令 τ∗ 表示真实轨迹。这些诊断指标定义如下:
• 多样性:衡量策略探索的广度。计算 T 中所有采样轨迹之间的平均位移误差 (pADE) 或最终位移误差 (pFDE) 的均值。较低的值表示行为多样性有限,因此探索能力降低。
• 质量:评估采样集中最佳可行结果的质量。它通过T中所有轨迹上相对于τ*的最小ADE/FDE来衡量。该指标反映了多样化的探索是否仍然能够保持最优的规划质量。
•性能:使用来自Navsim v1基准测试的平均PDMS[10]分数来评估整体驾驶能力,该分数综合考虑了安全性、舒适性和效率。
这些诊断共同揭示策略探索的广度和有效性。一个平衡良好的模型应表现出较高的Diversity@k、较低的Quality@k(表明至少有一个良好的样本)和较高的Performance@k。相反,Diversity@k的下降以及Quality@k的停滞不前直接表明NP瓶颈的出现。
Curious-VLA 的整体流程如图所示。具体而言,Curious-VLA 由模仿学习中的可行轨迹扩展和多样性感知强化学习组成。
模仿学习中的可行轨迹扩展
为了解决模仿学习中存在的策略选择难题,设计可行轨迹扩展 (FTE) 来平衡探索与利用之间的权衡。FTE 基于标准 SFT,包含三个步骤:1) 探索性数据扩展 (DE);2) 思维链数据合成 (CoT);3) 逐步归一化 (SN)。
探索性数据扩展。首先使用 Qwen2.5-VL-72B 滤波从 103k 个 NavTrain 数据集 [10] 中识别出 12k 个具有挑战性的驾驶路段(多车道、交叉路口、遮挡)。然后,利用基于扩散的 ReCog-Drive [27],通过扰动扩散潜能生成多样化的轨迹。所有候选轨迹均使用 PDMS 评分器进行过滤,以确保安全合规性。FTE 在意图内(围绕同一驾驶目标进行采样)和意图间(改变路线级决策)扩展数据,最终得到 14.2 万个安全且多样化的样本。
思维链数据合成。遵循先前的方法 [38, 43],将驾驶推理过程构建为单轮对话中的四阶段链:(i)关键物体感知,(ii)驾驶解释,(iii)元行为描述,以及最终的(iv)轨迹预测。用 Qwen2.5-VL-72B 自动为整个扩展数据集生成这些结构化的推理序列。
逐步归一化。为了处理视界尺度不平衡问题,对每个预测步骤 t 进行独立归一化。在 SFT 过程中,用 w̃_t 进行训练。对于测试,预测的 w̃_t 需要反归一化为轨迹 w̃_t。上上图显示,这种归一化方法使不同视界之间的梯度幅度相等,提高轨迹模式的可分离性,并为后续的探索提供了平衡的基础。
多样性-觉察强化学习
为了在强化学习中保持探索性,引入两种互补机制:自适应多样性-觉察采样(ADAS)和跨驾驶奖励(SDR)。
自适应多样性-觉察采样。ADAS 动态选择在随机策略下产生多样化结果的场景,从而维持足够的奖励方差,以实现稳定的 GRPO 优化。
将每个场景的结果变异性建模为一个简化的伯努利过程,其中每次结果都对应于一次二元试验,即成功(高 PDMS)或失败(低 PDMS),概率为 p。这种近似捕捉了奖励分布的最极端情况,提供了一种简单而有效的多样性潜力度量。在每个训练外循环的开始时,从整个训练数据中重新采样一个新的活动训练集。对于每个训练场景 x,定期使用当前策略执行 M 次离线部署(M ≫ G),以估计其经验奖励分布。这些部署的平均归一化 PDMS 值作为成功概率估计值 pˆ。场景 x 仅当满足以下两个与多样性相关的条件时才会被包含在活动训练集中:
其中 ε_div 和 ε_conf 是预定义的阈值。第一项限制所有 G 次在线部署产生相同结果(全部成功或全部失败)的概率,从而确保样本间存在足够的变异性。第二项强制经验标准差 σ 与理论伯努利方差 (pp(1 − p))0.5 R R_range在置信区间 ε_conf 内保持一致,从而过滤掉不稳定或噪声较大的场景。
如图所示ADAS算法伪代码:
跨度驾驶奖励。为了进一步增强探索信号,基于 Navsim 指标 PDMS 和 EPDMS [10] 重新设计奖励。每个指标均计算为安全约束 © 和加权目标 (M) 的乘积。其中 C = {NC, DAC}(无碰撞,可行驶区域合规性),M = {EP, TTC, C}(自我进度,碰撞时间,舒适度),权重 w_m = {5, 5, 2}。将其重新表述为焦点式跨度目标:
其中 γ_m 为超参数。EPDMS [3, 10] 复用相同的计算结构,并扩展 C 的 {DDC, TLC}(驾驶方向,交通信号灯遵守情况),扩展了 M 的 {LK, EC}(车道保持,双帧扩展舒适性),并增加了权重 {2, 2}。这种聚焦式设计放大了次优行为和最优行为之间的差异,提高了奖励对驾驶质量的敏感性。
数据集和评估指标
Navsim(v1/v2)。在 Navsim v1 [10] 和 v2 [3] 上进行实验,它们基于 OpenScene [7, 42, 46](nuPlan [2] 的重新发行版)构建,用于大规模非反应式仿真。智能体输入包括 8 个环视摄像头和 5 个激光雷达传感器,可选地包含最多 3 帧历史数据(1.5 秒,2Hz)。按照步骤,从官方 navtrain 数据集中唯一的摄像头前视图(约 10.3 万个样本)构建训练集。评估方面,报告官方 PDMS(v1)和 EPDMS(v2)评分。
NuScenes。为了验证模型在实际应用中的泛化能力,在 nuScenes 上进行补充实验。该数据集包含 1000 个 20 秒场景(约 140 万张相机图像和约 39 万次激光雷达扫描)。遵循 UniAD [16]报告 L2 距离误差 (L2) 和碰撞率以进行直接比较。
实现细节
Curious-VLA 是一个纯 VLM,它直接自回归文本路径点轨迹,无需任何额外的规划模块,其初始化基于 Qwen2.5-VL-3B [1]。两阶段训练流程包括:1) 使用 LLaMA-Factory [51] 的模仿学习(基于 SFT)阶段;2) 改编自 VeRL [41] 和 EasyR1 [52] 的强化学习阶段。所有实验均在 8 个 NVIDIA H100 GPU 上使用 DeepSpeed ZeRO-1 [36] 进行。对于SFT,总共训练6个epoch,全局批大小为128。对于RL,总共训练130步,ADAS使用3个外循环。rollout次数为8,actor全局批大小为256。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)