CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving

Minqing Huang, Yujiao Xiang, Zihan Liang, Jiajie Huang, Jingqi Wang, et al.

Afari Intelligent Drive | arXiv 2605.10426 | 2026.05

Paper | Code

一句话总结

CoWorld-VLA 提出多专家世界推理框架,将世界知识解耦为语义交互、几何结构、动态演化和自车轨迹四种 Expert Token,构成面向规划的 Latent CoT,再通过扩散融合规划器(HMEF)生成连续轨迹。在 NAVSIM v1 上仅用单帧前视相机即达 PDMS 89.8,刷新 SOTA。

核心问题:VLA 的推理瓶颈

现有自动驾驶 VLA 框架面临两难:

  • 文本 CoT:引入语言推理链,但丢失连续时空结构,推理开销大
  • 单一潜在世界模型:仅用一种隐式表征建模世界,信息不完整且难以直接作为规划条件

核心矛盾:世界模型预测的表征通常只做辅助训练信号,推理时并不参与轨迹生成

VLA推理范式对比

图1:VLA 推理范式对比。(a)直接映射 (b)文本CoT (c)单一世界模型 (d)CoWorld-VLA 多专家Latent CoT

为什么选多专家 Latent CoT?

方案 优势 劣势
文本 CoT (DriveGPT4, AutoVLA) 可解释性强 丢失连续空间信息;推理慢
单一 Latent World (DriveLaW, Uni-World VLA) 保留连续表征 单一模态不完整;表征与规划弱耦合
Multi-Expert Latent CoT (本文) 互补多源世界知识;直接条件化规划 训练流程复杂(三阶段)

整体框架

CoWorld-VLA整体框架

图2:CoWorld-VLA 三阶段训练流程:视频预训练 - 多专家表征学习 - 扩散融合规划

三阶段训练策略

  • Stage 1:动作条件化视频世界模型预训练(Wan2.2-5B),在 NuPlan 上学习未来场景演化
  • Stage 2:多专家表征学习(Qwen3-VL-2B),将 VLM 隐状态对齐到 4 个冻结 Teacher
  • Stage 3:HMEF 扩散规划器训练(VLM 冻结),将专家 Token 融合生成连续轨迹

方法详解

四类 Expert Token

Expert Token 监督来源 建模内容 损失函数
语义交互 (Semantic) V-JEPA (冻结) 高层交互意图、预测性语义 SmoothL1 + Cosine
几何结构 (Geometric) VGGT (冻结) 道路布局、3D空间约束 MSE
动态演化 (Dynamic) Wan 视频模型 (冻结) 未来场景时空演化 Flow Matching
自车轨迹 (Ego Trajectory) GT 轨迹 行为目标与规划约束 MSE

核心公式

结构化隐变量公式化 - 将轨迹生成从标准 VLA 升级为条件化生成:

$$p_\theta(\mathbf{A}_{t+1:t+T} \mid o_t, c_t, \mathcal{Z})$$

其中 $\mathcal{Z} = \{z_{\mathrm{sem}}, z_{\mathrm{geo}}, z_{\mathrm{dyn}}, z_{\mathrm{traj}}\}$ 为多专家世界表征。

Stage 2 联合优化目标

$$\mathcal{L}_{\mathrm{total}} = w_{\mathrm{dyn}} \mathcal{L}_{\mathrm{dyn}} + w_{\mathrm{sem}} \mathcal{L}_{\mathrm{sem}} + w_{\mathrm{geo}} \mathcal{L}_{\mathrm{geo}} + w_{\mathrm{traj}} \mathcal{L}_{\mathrm{traj}}$$

权重设置:$w_{\mathrm{dyn}}=1.0, w_{\mathrm{sem}}=0.1, w_{\mathrm{geo}}=0.1, w_{\mathrm{traj}}=1.0$

HMEF 扩散去噪

$$\mathcal{L}_{\mathrm{act}} = \mathcal{L}_{\mathrm{diff}} + \lambda_{\mathrm{fusion}} \|\bar{A} - A^{\mathrm{norm}}\|_2^2$$

其中 $\bar{A} = \sum_{e=1}^{N_e} \alpha_e \hat{A}_e$,$\alpha = \mathrm{softmax}(w)$ 为可学习融合权重。

HMEF 扩散规划器

HMEF 的核心设计:

  • 场景压缩:用 Perceiver 查询将长场景 Token 压缩为固定长度 Context C
  • 专家编码:每个专家分支有独立 Bidirectional Transformer,对齐到规划步长
  • 双流去噪:Scene 流(干净) + Action 流(带噪)联合 Self-Attention
  • 融合推理:10 步去噪,softmax 权重融合 4 个专家轨迹预测

核心创新点

创新 类型 说明
多专家 Latent CoT 全新范式 将世界知识解耦为4种互补表征,形成结构化隐式推理链
HMEF 扩散规划器 全新设计 双流联合去噪 + 可学习专家融合权重
JEPA+VGGT+Wan 多源监督 新组合 每个 Teacher 捕获不同维度的世界知识
Expert Token 作规划条件 改进 从"辅助训练"升级为"推理时直接条件化"

主要结果

NAVSIM v1 轨迹规划

方法 传感器 NC DAC TTC EP PDMS
UniAD (CVPR23) C 97.8 91.9 92.9 78.8 83.4
DiffusionDrive (CVPR25) C+L 98.2 96.2 94.7 82.2 88.1
DriveLaW (CVPR26) C 99.0 97.1 96.7 81.3 89.1
Uni-World VLA C 98.7 96.7 96.1 83.2 89.4
CoWorld-VLA (Ours) C (1帧) 99.2 96.8 96.6 83.6 89.8

亮点:仅用单帧前视相机,无需 LiDAR/多帧/RL 微调,即达全场最优 PDMS 89.8。NC 99.2(最佳碰撞避免)+ EP 83.6(最佳前进效率)。

视频生成质量

方法 FVD (越低越好)
SVD 227.5
DrivingGPT 142.6
Epona 61.3
DriveLaW 55.6
CoWorld-VLA 32.7

消融实验:每个 Expert 的贡献

EgoT. Geo. Sem. Dyn. PDMS 增量
Y 83.7 baseline
Y Y 85.1 +1.4
Y Y Y 87.7 +2.6
Y Y Y Y 88.7 +1.0

关键发现:语义交互 Token(JEPA)贡献最大(+2.6),说明高层交互理解是最有价值的规划先验。四种 Expert 互补,逐步提升。

轨迹规划定性对比

图3:轨迹规划定性对比。Stage 2 能预测大致方向但有偏差,Stage 3 HMEF 生成轨迹更贴近 GT。

局限性与展望

  • 仅 Open-loop 评测:NAVSIM v1 为非反应式开环,未验证闭环场景下的鲁棒性
  • 推理延迟未报告:VLM + 4 专家分支 + 10 步扩散去噪的端到端延迟是部署瓶颈
  • 冻结 Teacher 局限:JEPA/VGGT/Wan 均冻结,若其特征对驾驶场景非最优则误差会传播
  • 静态融合权重:softmax 融合 alpha 不随场景复杂度自适应调整
  • 单帧输入代价:丧失时序上下文,完全依赖 Expert Token 从单帧推测动态
  • 无多相机支持:仅前视单相机,实际部署需环视输入

总结

CoWorld-VLA 的核心贡献在于提出了"多专家 Latent CoT"这一新范式:将世界知识结构化解耦为语义/几何/动态/轨迹四维,通过 Token 级对齐注入 VLM 隐空间,并通过 HMEF 扩散规划器让这些世界知识在推理时直接参与轨迹生成,而非仅停留在训练阶段的辅助信号。消融实验有力证明了多专家互补性,单帧相机即达 SOTA 的结果也展现了该范式的部署潜力。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐