云端训练–>车端部署

一、规则驱动(早期)

原理

完全依靠人类工程师手写规则实现辅助驾驶。典型算法架构如下:

输入:位置 + 速度 + 障碍物距离 + 导航目的地
    ↓
人工规则引擎(if-else 逻辑)
    ↓
输出:变道决策、避障动作

特征

特征 说明
高精地图 必须依赖,用于定位和路径规划
使用场景 高速公路等结构化道路
云端训练 ,车上运行的是规则代码而非模型

分析

优点:

  • 决策**可溯源**,每个动作都能找到对应的规则代码
  • 结果**可解释**,逻辑清晰
  • 安全性可控

缺点:

  • 规则无法覆盖所有复杂场景(长尾问题)
  • 规则之间可能产生**矛盾**
  • 开车风格明显不像人类
  • 难以应对:恶劣天气、施工路段、多车交互等场景

本质问题:手写规则本质上是**死板**的,加一个规则应对情况A,可能破坏情况B的表现。


二、端到端模仿学习阶段

核心

发现人类驾驶数据足够多后,模型可以**自己拟合**出各种场景应该怎么做。

技术

云端训练阶段:
┌─────────────────────────────────────┐
│  输入数据:                          │
│  ├── 摄像头图像                      │
│  ├── 导航信息                        │
│  └── 人类驾驶行为(Clips)           │
│           ↓                          │
│     深度学习框架                      │
│           ↓                          │
│  输出:训练好的模型权重               │
└─────────────────────────────────────┘

车端部署阶段:
┌─────────────────────────────────────┐
│  输入:摄像头实时画面                 │
│           ↓                          │
│     狭义端到端模型(模仿学习)         │
│           ↓                          │
│  输出:动作轨迹(方向盘角度、加减速)  │
└─────────────────────────────────────┘

概念

Clips:实际驾驶片段的数量单位

例如:

  • 小米 HAD 端到端 1000万 Clips 版本
  • 华为 ADS 3.0
  • 小鹏 XNGP 5.0
  • 理想 NOA 7.0

这些都处于同一阶段——模仿学习驱动的端到端。

广义端到端 vs 狭义端到端

  • 广义端到端:减少人为设计导致的信息损失,中间不经过人类定义的转换
  • 狭义端到端:特指这种模仿学习的端到端——输入图像,输出驾驶动作

分析

优点:

  • 开车操作更像人类
  • 能处理更多复杂场景
  • 无需手工设计中间规则

问题

  1. 依赖人类数据分布

    • 模型学到的是"看到什么就做什么"的应对方式
    • 这些应对方式存在于高维度参数空间,无法被人理解(黑盒)
    • 遇到训练数据之外的场景,没有明确机制判断如何反应
  2. 边际效益递减

    • 当模型能处理99%场景后,剩下1%的长尾场景
    • 可能需要开十几亿甚至几十亿公里才能收集到足够数据
  3. OOD问题(Out-of-Distribution)

    • 训练分布之外的场景,模型行为不可预测
    • 缺乏危险预测能力和防御性驾驶意识

本质问题:模仿学习是"巧妇难为无米之炊"——没有数据就解决不了问题。


三、世界模型 + RL阶段

解决思路

针对模仿学习的两个核心问题:

  1. 长尾数据难以收集
  2. 模型行为难以分析和控制

世界模型(World Model)

定义:利用之前收集的数据,建立一个可以**模仿真实物理世界**、能随意控制场景及其他交通参与者行为的巨大模型。

核心特征 vs 普通视频生成模型:

特性 普通视频模型(Sora等) 世界模型
碰撞反馈 可能穿模、无反弹 符合真实物理规律
多摄像头一致性 逐渐不同步 状态统一
物理规律 可能违反 严格遵守

理解

  • 不是简单的3D游戏场景生成
  • 生成的是能直接用于训练的图像/激光雷达点云+对应驾驶动作
  • 可以生成各种刁钻的罕见场景

Reinforcement Learning

核心机制:用人工定义的奖励/惩罚函数定向限制模型行为。

示例

# 伪代码示例
def reward_function(model_action, env_state):
    score = 0
    
    # 场景:路口绕行
    if model_action.is_routing and not can_proceed(env_state):
        score -= 10  # 扣分:不合理绕行
    
    # 场景:加加速度过大
    if model_action.jerk > threshold:
        score -= 5   # 扣分:乘坐不舒适
    
    # 场景:正常行驶
    if model_action.is_safe:
        score += 1   # 奖励:安全驾驶
    
    return score

通过大量"奖励/惩罚"循环,模型学会:

  • 路口等红灯时不绕行
  • 加减速控制平顺
  • 防御性驾驶意识

成果

这个阶段的模型:

  • 依然是一个黑盒
  • 但可以在云端世界模型中学到大量真实世界难以收集的罕见场景
  • 行为偏好可以被强化学习控制

厂商:

  • 华为 WEWA
  • 小米最新的 HAD 增强版
  • 地平线 HAD

四、VLA 与车端世界模型阶段

为什么还需要进一步发展?

前面阶段的问题:

  • 模型仍是黑盒
  • 出问题时难以定位原因

VLA(Vision-Language-Action Model)

核心思想:让模型不仅输出动作,还能**说话解释**

架构:

传统端到端 VA:
摄像头视频 → [黑盒模型] → 驾驶动作

VLA:
摄像头视频 + 文字解释数据 → [多模态模型] → 驾驶动作 + 思维链

训练方式:在训练时,不仅给模型摄像头的信号和开车动作,还要加上对应的文字解释和表述。数据量足够后,模型就能解释"遇到这个场景,为什么要这么做"。

优势

  • 撞车后可以用文字分析原因
  • 模型决策过程可解释
  • 可以进行人机交互和调试

车端世界模型

核心能力:给定之前的视频 + 当前状态 → 预测未来

如果发生事故,回溯模型预测了什么,就能发现问题的原因。

当前限制:算力瓶颈

平台 算力 功耗 用途
英伟达论文中的 VLA 4000+ TOPS 600W 服务器训练/推理
今年上车的最新 SOC 700+ TOPS ~数十瓦 车端部署

算力差距:约6倍

这意味着在车端跑 VLA 或世界模型,必须:

  • 模型蒸馏(Distillation)
  • 降低输入分辨率
  • 降低推理帧率

这些优化会影响实际效果

部署

  • VLA 确实能输出思维链
  • 但不是一直思考输出
  • 紧急情况下,本质上还是在用 VA 端到端开车

考验:如何在有限算力下部署 VLA 而不影响性能。

VLA 与世界模型的关系

两者不冲突,完全可以相互融合,但需要更多算力支持


对比

阶段 云端 车端 代表厂商/产品
1. 规则驱动 规则代码 早期高速辅助驾驶
2. 模仿学习 大量 Clips 训练 VA 端到端 华为 ADS3.0、小鹏 XNGP 5.0、理想 NOA 7.0、小米 HAD
3. 世界模型 + 强化学习 世界模型生成 + RL VA 端到端 + 行为控制 华为 WEWA、小米 HAD 增强版、地平线 HAD
4. VLA / 车端世界模型 继续增强 VLA 或世界模型部署 仍在发展中,面临算力挑战

q&a

端到端有幻觉问题,但并不是不能处理没训练过的场景

  • 大模型的泛化能力并非完全失效

端到端最大的问题是没有危险预测能力,即防御性驾驶

  • 这是模仿学习架构的根本局限

有了世界模型,大家的差距只会越来越小

  • 技术路线收敛后,差异化减小

VLA 比 VA 要先进吗?

  • VLA 是在 VA 基础上增加语言能力,不是替代关系

华为 ADS 是世界模型

  • 华为 WEWA 属于第三阶段方案

总结

  1. 规则驱动 → 完全手写规则,死板不可扩展
  2. 模仿学习数据驱动,但依赖数据分布,是黑盒
  3. 世界模型 + 强化学习 → 解决长尾数据问题 + 行为可控制
  4. VLA / 车端世界模型 → 可解释 + 预测能力,但受限于车端算力

各厂商的技术差异:各自处于哪个阶段,以及在各自阶段内的工程实现能力

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐