（四）OpenDriveVLA的5类Prompt设计与跨模态特征注入机制

weixin_43738866

376人浏览 · 2026-05-21 17:12:52

weixin_43738866 · 2026-05-21 17:12:52 发布

导读：随着 Vision-Language-Action (VLA) 模型在自动驾驶领域的快速演进，Prompt 已从传统的“文本指令”升维为多模态控制信号的结构化载体。OpenDriveVLA 基于 Qwen2.5-Instruct 骨干网络与 LLaVA NeXT 框架构建，通过扩展特殊语义 Token 与跨模态投影对齐，实现了高维视觉特征与语言推理的深度融合。本文将系统拆解该项目中 5 类 Prompt 的分层设计范式，厘清训练阶段模型能力内化与推理阶段任务输入的边界，并重点剖析基于占位符的视觉特征注入机制。

一、系统架构与数据流转：双分支并行处理

OpenDriveVLA 采用“视觉特征分支”与“文本指令分支”双路并行架构，最终在大语言模型（Qwen2.5-Instruct）的词表空间完成深度融合。完整的数据流转可划分为三个核心阶段：
（1）视觉特征提取与投影： 多视角图像经 Vision Encoder 编码，输出 Scene（全局场景）、Track（目标跟踪）、Map（环境地图）三类高维连续特征向量。然后通过轻量级 Projector（论文中为：两层 MLP 投射层）将其投影至与 Qwen2.5-Instruct 词表 Embedding 维度完全一致的向量空间，生成可直接与文本融合的 Visual Embeddings。
（2）文本指令结构化： 通过在驾驶任务文本中插入 <SCENE>、<TRACK>、<MAP> 等占位符，构建出结构化的多模态指令；经 Tokenizer 与 Embedding 层处理后，形成基础的文本 Token 序列。
（3）跨模态融合与自回归生成： 系统精确定位文本序列中的占位符槽位，用对齐后的视觉特征向量替换占位符原本的文本 Embedding。融合后的完整序列输入 Qwen-Instruct LLM，模型以自回归方式逐 Token 预测，解码后即可得到 3 秒内的 6 个规划轨迹点。

二、 5类Prompt的训练与推理边界

2.1 五类 Prompt 的功能

OpenDriveVLA 论文中明确定义了 5 类功能各异的 Prompt（详见论文Appendix-B：Prompting Techniques），但推理阶段仅需其中 2 类。其核心逻辑在于“训练阶段提升模型能力”与“推理阶段的任务输入”存在严格的工程边界。

Prompt类型	核心作用	训练阶段	推理阶段
System Prompt (系统提示)	定义模型角色、坐标系、任务要求与固定输出格式	✅	✅
Hierarchical Feature Alignment (分层特征对齐)	引导视觉特征与文本语义对齐，完成跨模态映射建模	✅	❌
Driving Question Answering (驾驶问答)	通过大规模问答样本，微调模型的驾驶常识与交通规则理解	✅	❌
Agent-Env-Ego Interaction (交互建模)	对交通参与者进行轨迹预测，用于交互训练	✅	❌
Trajectory Planning Tuning (轨迹规划微调)	生成适配当前场景的自车规划轨迹	✅	✅

2.2 训练与推理的 Prompt 解析

2.2.1 训练专用 Prompt 辅助模型能力内化

分层特征对齐、驾驶问答、交互建模这三类 Prompt，本质上是模型训练阶段的“教学信号”。微调完成后，视觉-语言对齐能力、驾驶常识与交互博弈逻辑已固化在模型权重中。鉴于推理阶段模型已具备上述能力，故无需再额外引入此类引导性的 Prompt。

2.2.2 轨迹规划 Prompt 的双重作用

Trajectory Planning Tuning Prompt 是唯一同时在训练和推理阶段生效的任务型 Prompt。如论文所述：
‘This prompt is used in the training stage 3 for trajectory planning tuning, where the model is supervised to generate a 3-second driving plan based on structured multi-modal context.’

训练阶段：作为监督学习的输入模板，引导模型学习 “结构化多模态上下文→轨迹输出” 的映射关系，并基于模型预测轨迹与真实轨迹数据计算 Loss。
推理阶段：作为任务输入接口，将当前场景、自车状态、历史轨迹与导航指令封装为结构化输入。这确保了推理输入分布与训练阶段对齐，从而稳定输出安全可行的自车轨迹。

三、占位符的跨模态特征注入

<SCENE>、<TRACK>、<MAP> 在文本 Prompt 中作为占位标记存在。它们是将视觉检测结果转成自然语言后拼接进 Prompt 的吗？答案是否定的。因为自然语言难以无损表达复杂的空间几何与目标的运动学信息， 它们并非用于承载自然语言语义的文本标记，而是作为跨模态特征注入的位置锚点，直接在连续的 Embedding 空间中完成特征的融合。附：下图为笔者论文阅读笔记，

在这里插入图片描述

跨模态特征注入流程：

视觉特征提取：多视角图像经 Vision Encoder 编码，输出 Scene、Track、Map 三类高维连续特征向量，完整保留场景的空间几何拓扑与目标运动学信息。
跨模态投影对齐：通过轻量级 MLP 投影网络，将上述视觉特征映射至与 Qwen-Instruct 词表 Embedding 维度一致的特征空间，实现维度与语义的对齐。
占位符定位与替换：文本 Prompt 中的边界标记（如 <scene_start><SCENE><scene_end>）在 Token 序列中预留了固定槽位。模型前向传播时，系统精确定位这些锚点槽位，将投影后的连续视觉向量直接覆写占位符的原始 Embedding，实现视觉信息的无缝注入。
自回归轨迹生成：融合后的完整输入序列（System Prompt + 视觉特征 + 自车状态 + 导航指令）送入 Qwen-Instruct LLM，模型以自回归方式逐 Token 预测，最终由下游解析模块解码出自车轨迹的坐标序列。

四、总结

OpenDriveVLA 通过分层 Prompt 设计与基于占位符的跨模态注入机制，并非简单地将感知结果“翻译”给大模型，而是通过 Embedding 级的特征对齐与注入，让 LLM 直接“看见”并“理解”连续的物理世界。

(本文为CSDN原创，转载请注明出处。)

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年京东云 618 Hermes Agent/OpenClaw配置Token Plan搭建保姆分享

OpenClaw并非传统的聊天机器人，而是一款本地优先、云端适配的AI自动化代理——它以大语言模型为“大脑”，以Skills插件生态为“手脚”，能理解自然语言指令，自主完成网页操作、邮件管理、文档处理、多平台协同等具象化任务，无需编写复杂的自动化脚本。零代码门槛：通过自然语言下达指令，无需掌握Python/Java等编程技能；多端适配：支持阿里云服务器、本地设备、无影云电脑等多环境部署；生态扩展：