自动驾驶中VLM与VLA的核心区别：一文看懂底层逻辑

举个例子：当车辆遇到路边一个形态奇特的充气广告人，或者地面上一摊反光的水渍时，传统的感知算法可能无法将其归入任何预定义的标签类别（行人、车辆、障碍物……），导致系统不知所措——要么急刹，要么无视。这就是规则系统的根本瓶颈：它只能处理工程师预见到的情况，而现实世界的复杂性远超任何规则库的覆盖范围。

02 第二阶段：VLM登场——能看能说的"军师"

为了打破感知的"天花板"，VLM（Vision-Language Model，视觉语言模型）被引入了自动驾驶系统。VLM通过在海量互联网数据（图文对、视频等）上进行预训练，获得了一种近乎于人类的常识推理能力。它不再仅仅是将像素点分类，而是能够理解场景中的深层语义逻辑。

比如，VLM能识别出前方车辆开启的双闪灯意味着故障停车，并建议后车进行绕行；它能看懂路边"前方施工，请绕行"的文字告示牌；它甚至能根据天气、光线等环境因素，对驾驶策略给出更合理的建议。这些能力是传统感知算法望尘莫及的。

VLM的局限性：行动鸿沟与实时性短板

尽管VLM在环境理解和语义推理方面表现优异，但它在直接驱动车辆运行上依旧存在着先天不足：

行动鸿沟（Action Gap）：目前的VLM大多是为文本生成而设计的，其输出结果一般是自然语言，比如"我看到前方有行人正在过马路，我应该减速让行"。然而，车辆底盘需要的是具体的制动压力（比如施加多少牛顿的制动力）、转向扭矩或者是精确到厘米的行驶轨迹点。这种从文本描述到物理操作的转换，需要一个额外的"翻译模块"，而每一次翻译都可能导致信息在传递中丢失或失真。

实时性差：主流的VLM通常拥有数十亿甚至数百亿的参数量，在处理高分辨率图像并生成连贯文本时，其推理延迟可能达到数百毫秒甚至秒级。而自动驾驶系统每秒需要进行数十次决策计算，VLM的响应速度远远无法满足这种实时控制需求。

因此，在2024年主流的"端到端+VLM"双系统架构中，两者各司其职：端到端模型负责快速驾驶决策（系统1：快思考），而VLM模型则作为旁路的辅助插件，负责更高层次的语义理解和推理（系统2：慢思考）。理想汽车是这一架构的率先量产者。

这种"双系统"架构的灵感来源于诺贝尔经济学奖得主丹尼尔·卡尼曼提出的认知双系统理论：系统1负责快速、直觉性的判断，系统2负责缓慢、深思熟虑的推理。

图 | 理想汽车此前量产的双系统智驾架构示意。系统1为E2E（端到端模型），负责快速驾驶决策；系统2为VLM（视觉语言模型），负责场景理解和慢思考推理。两个系统协同工作，但VLM只能提供建议，无法直接输出驾驶动作。（来源：极客公园）然而，这种架构的问题在于：空间理解、语言理解和行为决策仍然分散在不同模型中，信息在模型间传递时存在损失，对齐效率不够理想。VLM终究只是一个"军师"，它能出谋划策，但无法亲自上阵。

03 第三阶段：VLA的诞生——认知与执行的物理融合

为了解决VLM"脑子懂了"但"手脚不协调"的问题，研究者们开始寻求一种能够将理解与行动深度耦合的新技术路径。这就是VLA（Vision-Language-Action，视觉-语言-动作模型）。

VLA的出现，本质上是将车辆的认知系统与执行系统进行了一次彻底的物理融合。它不再把驾驶看作是先理解场景再执行动作的两个独立步骤，而是将其视为一个统一的、从传感器输入到执行器输出的一段式端到端学习过程。

图 | 三种自动驾驶架构的对比。(a) 传统端到端自动驾驶：传感器输入→E2E网络→驾驶动作；(b) VLM用于自动驾驶：传感器输入→VLM→数据库/推理链/多任务，但不直接输出动作；(c) VLA用于自动驾驶：传感器输入→多模态编码器→LLM/VLMs→动作解码器→驾驶动作，实现了从感知到行动的完整闭环。

VLA的关键技术突破

动作标记化（Action Tokenization）：VLA的核心创新之一，是受谷歌机器人模型RT-2的启发，将车辆的转向、加速、制动等驾驶动作转化为一种特殊的"词汇表"（Token）。在这种设定下，生成一段平滑的变道轨迹，在模型看来与写出一个句子并无本质区别——都是在一个统一的词汇空间中进行序列预测。

统一的高维特征空间：在VLA框架下，视觉特征、语言指令和驾驶动作被编码到同一个高维特征空间中进行交互。这意味着模型在学习如何识别红绿灯的同时，也在学习遇到红灯时应该如何调节刹车踏板。感知与行动不再是两个割裂的任务，而是同一个学习过程的两面。

连续轨迹生成：为了解决离散动作标记可能导致的车辆行驶抖动问题，VLA引入了扩散模型（Diffusion）或并行解码技术来生成平滑的连续轨迹。例如，理想的MindVLA-o1就采用了Discrete Diffusion（离散扩散），通过多步迭代去噪，将语义层面的动作标记转化为经过优化的平滑轨迹；小鹏的VLA 2.0则更为激进，直接从视觉信号生成连续控制信号，彻底跳过了语言层。

图 | VLA在自动驾驶中的演进路线。从早期的VLM作为驾驶解释器（VLM as Driving Explainer），到模块化VLA（Modular VLA for AD），再到端到端VLA（End-to-end VLA for AD），最终发展为增强型VLA（Augmented VLA for AD）。每一步都在缩小"理解"与"行动"之间的鸿沟。

04 VLM与VLA的核心区别对比总结

通过上述的演进脉络，我们可以清晰地总结出VLM与VLA在自动驾驶中的核心区别：

从行业落地来看，2026年3月，小鹏VLA 2.0（去语言层的纯视觉端到端路线）与理想MindVLA-o1（保留语言层的原生多模态统一训练路线）相继发布。

图 | 小鹏VLA2.0与理想MindVLA-o1。

虽然两者在具体架构上存在分歧——小鹏认为语言层是多余的延迟来源，理想认为语言层是不可或缺的推理基础——但它们都标志着自动驾驶正从"端到端+VLM"的双系统时代，迈向了VLA大一统模型时代。

05 结语：通向通用具身智能的必由之路

VLM与VLA的区别，不仅仅是技术名词的更迭，更是自动驾驶底层逻辑的深刻变革。VLM赋予了汽车理解世界的能力，而VLA则赋予了汽车改变世界的能力。

从"规则系统"到"端到端+VLM"再到"VLA"，自动驾驶的技术演进路线清晰地指向一个方向：让机器像人一样，在感知、理解和行动之间建立无缝的连接。VLA不仅是自动驾驶从辅助驾驶向全自动驾驶跨越的关键技术，更是通向通用具身智能（如人形机器人）的必由之路。理想汽车在发布MindVLA-o1时就明确表示，同一套VLA模型可以迁移到机器人控制，用同一套基础模型、技术范式和数据系统训练不同形态的物理智能体。

随着技术的不断演进，我们有理由相信，未来的智能汽车将不仅仅是一个交通工具，更是一个真正具备物理世界行动能力的智能体。

参考资料

[1] 已有VLM，自动驾驶为什么还要探索VLA? 知乎, 2025.

[2] 詹锟讲理想下一代自动驾驶基础模型MindVLA-o1. 知乎, 2026-03.

[3] 小鹏分享物理AI涌现成果：发布第二代VLA、Robotaxi、全新一代图灵芯片. OFweek新能源汽车网, 2026-03-03.

[4] 理想MindVLA-o1基础模型相比上一代有哪些变化，与小鹏VLA 2.0有什么不同？第一电动, 2026-03.

[5] 理想汽车发布下一代自动驾驶基础模型MindVLA-o1. 央视网, 2026-03-18.

[6] 小鹏和理想均押注VLA ，两者技术各有啥特色？知乎, 2026-03.

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

[Dify x EdgeOne] 论文猎手——用 Dify + EdgeOne Pages 给科研人造一个每日 arXiv 速读助手

AtomGit开源社区

消息跨端架构演进：基于 C++ 的多端一致性研发框架实践

跨端不是追求 100% 代码复用。核心是在"一致性"与"平台最优体验"之间找到平衡点。对于强交互场景（如键盘区域），保留 Native 实现往往是更好的选择。容器框架的抽象层级要足够精简。过度设计会导致理解成本反增。我们的 BizLogicProtocol 只有 7 个核心方法，足以覆盖所有业务场景。全链路质量监控是成功落地的关键保障。跨端方案最怕的不是技术问题，而是出了问题找不到原因。架构合理性