2605.CoWorld-VLA 论文解读: 多专家世界模型Latent CoT, 单帧NAVSIM 89.8 PDMS | Afari

koala7580

406人浏览 · 2026-05-25 16:25:28

koala7580 · 2026-05-25 16:25:28 发布

CoWorld-VLA: Thinking in a Multi-Expert World Model for Autonomous Driving

Minqing Huang, Yujiao Xiang, Zihan Liang, Jiajie Huang, Jingqi Wang, et al.

Afari Intelligent Drive | arXiv 2605.10426 | 2026.05

Paper | Code

一句话总结

CoWorld-VLA 提出多专家世界推理框架，将世界知识解耦为语义交互、几何结构、动态演化和自车轨迹四种 Expert Token，构成面向规划的 Latent CoT，再通过扩散融合规划器（HMEF）生成连续轨迹。在 NAVSIM v1 上仅用单帧前视相机即达 PDMS 89.8，刷新 SOTA。

核心问题：VLA 的推理瓶颈

现有自动驾驶 VLA 框架面临两难：

文本 CoT：引入语言推理链，但丢失连续时空结构，推理开销大
单一潜在世界模型：仅用一种隐式表征建模世界，信息不完整且难以直接作为规划条件

核心矛盾：世界模型预测的表征通常只做辅助训练信号，推理时并不参与轨迹生成。

图1：VLA 推理范式对比。(a)直接映射 (b)文本CoT (c)单一世界模型 (d)CoWorld-VLA 多专家Latent CoT

为什么选多专家 Latent CoT？

方案	优势	劣势
文本 CoT (DriveGPT4, AutoVLA)	可解释性强	丢失连续空间信息；推理慢
单一 Latent World (DriveLaW, Uni-World VLA)	保留连续表征	单一模态不完整；表征与规划弱耦合
Multi-Expert Latent CoT (本文)	互补多源世界知识；直接条件化规划	训练流程复杂（三阶段）

整体框架

图2：CoWorld-VLA 三阶段训练流程：视频预训练 - 多专家表征学习 - 扩散融合规划

三阶段训练策略：

Stage 1：动作条件化视频世界模型预训练（Wan2.2-5B），在 NuPlan 上学习未来场景演化
Stage 2：多专家表征学习（Qwen3-VL-2B），将 VLM 隐状态对齐到 4 个冻结 Teacher
Stage 3：HMEF 扩散规划器训练（VLM 冻结），将专家 Token 融合生成连续轨迹

方法详解

四类 Expert Token

Expert Token	监督来源	建模内容	损失函数
语义交互 (Semantic)	V-JEPA (冻结)	高层交互意图、预测性语义	SmoothL1 + Cosine
几何结构 (Geometric)	VGGT (冻结)	道路布局、3D空间约束	MSE
动态演化 (Dynamic)	Wan 视频模型 (冻结)	未来场景时空演化	Flow Matching
自车轨迹 (Ego Trajectory)	GT 轨迹	行为目标与规划约束	MSE

核心公式

结构化隐变量公式化 - 将轨迹生成从标准 VLA 升级为条件化生成：

$$p_\theta(\mathbf{A}_{t+1:t+T} \mid o_t, c_t, \mathcal{Z})$$

其中 $\mathcal{Z} = \{z_{\mathrm{sem}}, z_{\mathrm{geo}}, z_{\mathrm{dyn}}, z_{\mathrm{traj}}\}$ 为多专家世界表征。

Stage 2 联合优化目标：

$$\mathcal{L}_{\mathrm{total}} = w_{\mathrm{dyn}} \mathcal{L}_{\mathrm{dyn}} + w_{\mathrm{sem}} \mathcal{L}_{\mathrm{sem}} + w_{\mathrm{geo}} \mathcal{L}_{\mathrm{geo}} + w_{\mathrm{traj}} \mathcal{L}_{\mathrm{traj}}$$

权重设置：$w_{\mathrm{dyn}}=1.0, w_{\mathrm{sem}}=0.1, w_{\mathrm{geo}}=0.1, w_{\mathrm{traj}}=1.0$

HMEF 扩散去噪：

$$\mathcal{L}_{\mathrm{act}} = \mathcal{L}_{\mathrm{diff}} + \lambda_{\mathrm{fusion}} \|\bar{A} - A^{\mathrm{norm}}\|_2^2$$

其中 $\bar{A} = \sum_{e=1}^{N_e} \alpha_e \hat{A}_e$，$\alpha = \mathrm{softmax}(w)$ 为可学习融合权重。

HMEF 扩散规划器

HMEF 的核心设计：

场景压缩：用 Perceiver 查询将长场景 Token 压缩为固定长度 Context C
专家编码：每个专家分支有独立 Bidirectional Transformer，对齐到规划步长
双流去噪：Scene 流（干净） + Action 流（带噪）联合 Self-Attention
融合推理：10 步去噪，softmax 权重融合 4 个专家轨迹预测

核心创新点

创新	类型	说明
多专家 Latent CoT	全新范式	将世界知识解耦为4种互补表征，形成结构化隐式推理链
HMEF 扩散规划器	全新设计	双流联合去噪 + 可学习专家融合权重
JEPA+VGGT+Wan 多源监督	新组合	每个 Teacher 捕获不同维度的世界知识
Expert Token 作规划条件	改进	从"辅助训练"升级为"推理时直接条件化"

主要结果

NAVSIM v1 轨迹规划

方法	传感器	NC	DAC	TTC	EP	PDMS
UniAD (CVPR23)	C	97.8	91.9	92.9	78.8	83.4
DiffusionDrive (CVPR25)	C+L	98.2	96.2	94.7	82.2	88.1
DriveLaW (CVPR26)	C	99.0	97.1	96.7	81.3	89.1
Uni-World VLA	C	98.7	96.7	96.1	83.2	89.4
CoWorld-VLA (Ours)	C (1帧)	99.2	96.8	96.6	83.6	89.8

亮点：仅用单帧前视相机，无需 LiDAR/多帧/RL 微调，即达全场最优 PDMS 89.8。NC 99.2（最佳碰撞避免）+ EP 83.6（最佳前进效率）。

视频生成质量

方法	FVD (越低越好)
SVD	227.5
DrivingGPT	142.6
Epona	61.3
DriveLaW	55.6
CoWorld-VLA	32.7

消融实验：每个 Expert 的贡献

EgoT.	Geo.	Sem.	Dyn.	PDMS	增量
Y				83.7	baseline
Y	Y			85.1	+1.4
Y	Y	Y		87.7	+2.6
Y	Y	Y	Y	88.7	+1.0

关键发现：语义交互 Token（JEPA）贡献最大（+2.6），说明高层交互理解是最有价值的规划先验。四种 Expert 互补，逐步提升。

$轨迹规划定性对比$

图3：轨迹规划定性对比。Stage 2 能预测大致方向但有偏差，Stage 3 HMEF 生成轨迹更贴近 GT。

局限性与展望

仅 Open-loop 评测：NAVSIM v1 为非反应式开环，未验证闭环场景下的鲁棒性
推理延迟未报告：VLM + 4 专家分支 + 10 步扩散去噪的端到端延迟是部署瓶颈
冻结 Teacher 局限：JEPA/VGGT/Wan 均冻结，若其特征对驾驶场景非最优则误差会传播
静态融合权重：softmax 融合 alpha 不随场景复杂度自适应调整
单帧输入代价：丧失时序上下文，完全依赖 Expert Token 从单帧推测动态
无多相机支持：仅前视单相机，实际部署需环视输入

总结

CoWorld-VLA 的核心贡献在于提出了"多专家 Latent CoT"这一新范式：将世界知识结构化解耦为语义/几何/动态/轨迹四维，通过 Token 级对齐注入 VLM 隐空间，并通过 HMEF 扩散规划器让这些世界知识在推理时直接参与轨迹生成，而非仅停留在训练阶段的辅助信号。消融实验有力证明了多专家互补性，单帧相机即达 SOTA 的结果也展现了该范式的部署潜力。