辅助驾驶 | 端到端、VLA与世界模型

mit6.824

487人浏览 · 2026-04-26 18:10:55

mit6.824 · 2026-04-26 18:10:55 发布

云端训练–>车端部署

一、规则驱动（早期）

原理

完全依靠人类工程师手写规则实现辅助驾驶。典型算法架构如下：

输入：位置 + 速度 + 障碍物距离 + 导航目的地
    ↓
人工规则引擎（if-else 逻辑）
    ↓
输出：变道决策、避障动作

特征

特征	说明
高精地图	必须依赖，用于定位和路径规划
使用场景	高速公路等结构化道路
云端训练	无，车上运行的是规则代码而非模型

分析

优点：

决策**可溯源**，每个动作都能找到对应的规则代码
结果**可解释**，逻辑清晰
安全性可控

缺点：

规则无法覆盖所有复杂场景（长尾问题）
规则之间可能产生**矛盾**
开车风格明显不像人类
难以应对：恶劣天气、施工路段、多车交互等场景

本质问题：手写规则本质上是**死板**的，加一个规则应对情况A，可能破坏情况B的表现。

二、端到端模仿学习阶段

核心

发现人类驾驶数据足够多后，模型可以**自己拟合**出各种场景应该怎么做。

技术

云端训练阶段：
┌─────────────────────────────────────┐
│  输入数据：                          │
│  ├── 摄像头图像                      │
│  ├── 导航信息                        │
│  └── 人类驾驶行为（Clips）           │
│           ↓                          │
│     深度学习框架                      │
│           ↓                          │
│  输出：训练好的模型权重               │
└─────────────────────────────────────┘

车端部署阶段：
┌─────────────────────────────────────┐
│  输入：摄像头实时画面                 │
│           ↓                          │
│     狭义端到端模型（模仿学习）         │
│           ↓                          │
│  输出：动作轨迹（方向盘角度、加减速）  │
└─────────────────────────────────────┘

概念

Clips：实际驾驶片段的数量单位

例如：

小米 HAD 端到端 1000万 Clips 版本
华为 ADS 3.0
小鹏 XNGP 5.0
理想 NOA 7.0

这些都处于同一阶段——模仿学习驱动的端到端。

广义端到端 vs 狭义端到端

广义端到端：减少人为设计导致的信息损失，中间不经过人类定义的转换
狭义端到端：特指这种模仿学习的端到端——输入图像，输出驾驶动作

分析

优点：

开车操作更像人类
能处理更多复杂场景
无需手工设计中间规则

问题

依赖人类数据分布
- 模型学到的是"看到什么就做什么"的应对方式
- 这些应对方式存在于高维度参数空间，无法被人理解（黑盒）
- 遇到训练数据之外的场景，没有明确机制判断如何反应
边际效益递减
- 当模型能处理99%场景后，剩下1%的长尾场景
- 可能需要开十几亿甚至几十亿公里才能收集到足够数据
OOD问题（Out-of-Distribution）
- 训练分布之外的场景，模型行为不可预测
- 缺乏危险预测能力和防御性驾驶意识

本质问题：模仿学习是"巧妇难为无米之炊"——没有数据就解决不了问题。

三、世界模型 + RL阶段

解决思路

针对模仿学习的两个核心问题：

长尾数据难以收集
模型行为难以分析和控制

世界模型（World Model）

定义：利用之前收集的数据，建立一个可以**模仿真实物理世界**、能随意控制场景及其他交通参与者行为的巨大模型。

核心特征 vs 普通视频生成模型：

特性	普通视频模型（Sora等）	世界模型
碰撞反馈	可能穿模、无反弹	符合真实物理规律
多摄像头一致性	逐渐不同步	状态统一
物理规律	可能违反	严格遵守

理解：

不是简单的3D游戏场景生成
生成的是能直接用于训练的图像/激光雷达点云+对应驾驶动作
可以生成各种刁钻的罕见场景

Reinforcement Learning

核心机制：用人工定义的奖励/惩罚函数定向限制模型行为。

示例：

# 伪代码示例
def reward_function(model_action, env_state):
    score = 0
    
    # 场景：路口绕行
    if model_action.is_routing and not can_proceed(env_state):
        score -= 10  # 扣分：不合理绕行
    
    # 场景：加加速度过大
    if model_action.jerk > threshold:
        score -= 5   # 扣分：乘坐不舒适
    
    # 场景：正常行驶
    if model_action.is_safe:
        score += 1   # 奖励：安全驾驶
    
    return score

通过大量"奖励/惩罚"循环，模型学会：

路口等红灯时不绕行
加减速控制平顺
防御性驾驶意识

成果

这个阶段的模型：

依然是一个黑盒
但可以在云端世界模型中学到大量真实世界难以收集的罕见场景
行为偏好可以被强化学习控制

厂商：

华为 WEWA
小米最新的 HAD 增强版
地平线 HAD

四、VLA 与车端世界模型阶段

为什么还需要进一步发展？

前面阶段的问题：

模型仍是黑盒
出问题时难以定位原因

VLA（Vision-Language-Action Model）

核心思想：让模型不仅输出动作，还能**说话解释**

架构：

传统端到端 VA：
摄像头视频 → [黑盒模型] → 驾驶动作

VLA：
摄像头视频 + 文字解释数据 → [多模态模型] → 驾驶动作 + 思维链

训练方式：在训练时，不仅给模型摄像头的信号和开车动作，还要加上对应的文字解释和表述。数据量足够后，模型就能解释"遇到这个场景，为什么要这么做"。

优势：

撞车后可以用文字分析原因
模型决策过程可解释
可以进行人机交互和调试

车端世界模型

核心能力：给定之前的视频 + 当前状态 → 预测未来

如果发生事故，回溯模型预测了什么，就能发现问题的原因。

当前限制：算力瓶颈

平台	算力	功耗	用途
英伟达论文中的 VLA	4000+ TOPS	600W	服务器训练/推理
今年上车的最新 SOC	700+ TOPS	~数十瓦	车端部署

算力差距：约6倍

这意味着在车端跑 VLA 或世界模型，必须：

模型蒸馏（Distillation）
降低输入分辨率
降低推理帧率

这些优化会影响实际效果。

部署

VLA 确实能输出思维链
但不是一直思考输出
紧急情况下，本质上还是在用 VA 端到端开车

考验：如何在有限算力下部署 VLA 而不影响性能。

VLA 与世界模型的关系

两者不冲突，完全可以相互融合，但需要更多算力支持。

对比

阶段	云端	车端	代表厂商/产品
1. 规则驱动	无	`规则代码`	早期高速辅助驾驶
2. 模仿学习	大量 Clips 训练	`VA 端到端`	华为 ADS3.0、小鹏 XNGP 5.0、理想 NOA 7.0、小米 HAD
3. 世界模型 + 强化学习	`世界模型生成 + RL`	VA 端到端 + 行为控制	华为 WEWA、小米 HAD 增强版、地平线 HAD
4. VLA / 车端世界模型	继续增强	VLA 或世界模型部署	仍在发展中，面临`算力`挑战