2605.CoWorld-VLA 论文解读: 多专家世界模型Latent CoT, 单帧NAVSIM 89.8 PDMS | Afari
CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving
Minqing Huang, Yujiao Xiang, Zihan Liang, Jiajie Huang, Jingqi Wang, et al.
Afari Intelligent Drive | arXiv 2605.10426 | 2026.05
一句话总结
CoWorld-VLA 提出多专家世界推理框架,将世界知识解耦为语义交互、几何结构、动态演化和自车轨迹四种 Expert Token,构成面向规划的 Latent CoT,再通过扩散融合规划器(HMEF)生成连续轨迹。在 NAVSIM v1 上仅用单帧前视相机即达 PDMS 89.8,刷新 SOTA。
核心问题:VLA 的推理瓶颈
现有自动驾驶 VLA 框架面临两难:
- 文本 CoT:引入语言推理链,但丢失连续时空结构,推理开销大
- 单一潜在世界模型:仅用一种隐式表征建模世界,信息不完整且难以直接作为规划条件
核心矛盾:世界模型预测的表征通常只做辅助训练信号,推理时并不参与轨迹生成。
图1:VLA 推理范式对比。(a)直接映射 (b)文本CoT (c)单一世界模型 (d)CoWorld-VLA 多专家Latent CoT
为什么选多专家 Latent CoT?
| 方案 | 优势 | 劣势 |
|---|---|---|
| 文本 CoT (DriveGPT4, AutoVLA) | 可解释性强 | 丢失连续空间信息;推理慢 |
| 单一 Latent World (DriveLaW, Uni-World VLA) | 保留连续表征 | 单一模态不完整;表征与规划弱耦合 |
| Multi-Expert Latent CoT (本文) | 互补多源世界知识;直接条件化规划 | 训练流程复杂(三阶段) |
整体框架
图2:CoWorld-VLA 三阶段训练流程:视频预训练 - 多专家表征学习 - 扩散融合规划
三阶段训练策略:
- Stage 1:动作条件化视频世界模型预训练(Wan2.2-5B),在 NuPlan 上学习未来场景演化
- Stage 2:多专家表征学习(Qwen3-VL-2B),将 VLM 隐状态对齐到 4 个冻结 Teacher
- Stage 3:HMEF 扩散规划器训练(VLM 冻结),将专家 Token 融合生成连续轨迹
方法详解
四类 Expert Token
| Expert Token | 监督来源 | 建模内容 | 损失函数 |
|---|---|---|---|
| 语义交互 (Semantic) | V-JEPA (冻结) | 高层交互意图、预测性语义 | SmoothL1 + Cosine |
| 几何结构 (Geometric) | VGGT (冻结) | 道路布局、3D空间约束 | MSE |
| 动态演化 (Dynamic) | Wan 视频模型 (冻结) | 未来场景时空演化 | Flow Matching |
| 自车轨迹 (Ego Trajectory) | GT 轨迹 | 行为目标与规划约束 | MSE |
核心公式
结构化隐变量公式化 - 将轨迹生成从标准 VLA 升级为条件化生成:
$$p_\theta(\mathbf{A}_{t+1:t+T} \mid o_t, c_t, \mathcal{Z})$$
其中 $\mathcal{Z} = \{z_{\mathrm{sem}}, z_{\mathrm{geo}}, z_{\mathrm{dyn}}, z_{\mathrm{traj}}\}$ 为多专家世界表征。
Stage 2 联合优化目标:
$$\mathcal{L}_{\mathrm{total}} = w_{\mathrm{dyn}} \mathcal{L}_{\mathrm{dyn}} + w_{\mathrm{sem}} \mathcal{L}_{\mathrm{sem}} + w_{\mathrm{geo}} \mathcal{L}_{\mathrm{geo}} + w_{\mathrm{traj}} \mathcal{L}_{\mathrm{traj}}$$
权重设置:$w_{\mathrm{dyn}}=1.0, w_{\mathrm{sem}}=0.1, w_{\mathrm{geo}}=0.1, w_{\mathrm{traj}}=1.0$
HMEF 扩散去噪:
$$\mathcal{L}_{\mathrm{act}} = \mathcal{L}_{\mathrm{diff}} + \lambda_{\mathrm{fusion}} \|\bar{A} - A^{\mathrm{norm}}\|_2^2$$
其中 $\bar{A} = \sum_{e=1}^{N_e} \alpha_e \hat{A}_e$,$\alpha = \mathrm{softmax}(w)$ 为可学习融合权重。
HMEF 扩散规划器
HMEF 的核心设计:
- 场景压缩:用 Perceiver 查询将长场景 Token 压缩为固定长度 Context C
- 专家编码:每个专家分支有独立 Bidirectional Transformer,对齐到规划步长
- 双流去噪:Scene 流(干净) + Action 流(带噪)联合 Self-Attention
- 融合推理:10 步去噪,softmax 权重融合 4 个专家轨迹预测
核心创新点
| 创新 | 类型 | 说明 |
|---|---|---|
| 多专家 Latent CoT | 全新范式 | 将世界知识解耦为4种互补表征,形成结构化隐式推理链 |
| HMEF 扩散规划器 | 全新设计 | 双流联合去噪 + 可学习专家融合权重 |
| JEPA+VGGT+Wan 多源监督 | 新组合 | 每个 Teacher 捕获不同维度的世界知识 |
| Expert Token 作规划条件 | 改进 | 从"辅助训练"升级为"推理时直接条件化" |
主要结果
NAVSIM v1 轨迹规划
| 方法 | 传感器 | NC | DAC | TTC | EP | PDMS |
|---|---|---|---|---|---|---|
| UniAD (CVPR23) | C | 97.8 | 91.9 | 92.9 | 78.8 | 83.4 |
| DiffusionDrive (CVPR25) | C+L | 98.2 | 96.2 | 94.7 | 82.2 | 88.1 |
| DriveLaW (CVPR26) | C | 99.0 | 97.1 | 96.7 | 81.3 | 89.1 |
| Uni-World VLA | C | 98.7 | 96.7 | 96.1 | 83.2 | 89.4 |
| CoWorld-VLA (Ours) | C (1帧) | 99.2 | 96.8 | 96.6 | 83.6 | 89.8 |
亮点:仅用单帧前视相机,无需 LiDAR/多帧/RL 微调,即达全场最优 PDMS 89.8。NC 99.2(最佳碰撞避免)+ EP 83.6(最佳前进效率)。
视频生成质量
| 方法 | FVD (越低越好) |
|---|---|
| SVD | 227.5 |
| DrivingGPT | 142.6 |
| Epona | 61.3 |
| DriveLaW | 55.6 |
| CoWorld-VLA | 32.7 |
消融实验:每个 Expert 的贡献
| EgoT. | Geo. | Sem. | Dyn. | PDMS | 增量 |
|---|---|---|---|---|---|
| Y | 83.7 | baseline | |||
| Y | Y | 85.1 | +1.4 | ||
| Y | Y | Y | 87.7 | +2.6 | |
| Y | Y | Y | Y | 88.7 | +1.0 |
关键发现:语义交互 Token(JEPA)贡献最大(+2.6),说明高层交互理解是最有价值的规划先验。四种 Expert 互补,逐步提升。
图3:轨迹规划定性对比。Stage 2 能预测大致方向但有偏差,Stage 3 HMEF 生成轨迹更贴近 GT。
局限性与展望
- 仅 Open-loop 评测:NAVSIM v1 为非反应式开环,未验证闭环场景下的鲁棒性
- 推理延迟未报告:VLM + 4 专家分支 + 10 步扩散去噪的端到端延迟是部署瓶颈
- 冻结 Teacher 局限:JEPA/VGGT/Wan 均冻结,若其特征对驾驶场景非最优则误差会传播
- 静态融合权重:softmax 融合 alpha 不随场景复杂度自适应调整
- 单帧输入代价:丧失时序上下文,完全依赖 Expert Token 从单帧推测动态
- 无多相机支持:仅前视单相机,实际部署需环视输入
总结
CoWorld-VLA 的核心贡献在于提出了"多专家 Latent CoT"这一新范式:将世界知识结构化解耦为语义/几何/动态/轨迹四维,通过 Token 级对齐注入 VLM 隐空间,并通过 HMEF 扩散规划器让这些世界知识在推理时直接参与轨迹生成,而非仅停留在训练阶段的辅助信号。消融实验有力证明了多专家互补性,单帧相机即达 SOTA 的结果也展现了该范式的部署潜力。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)