科技信息最前沿202512——Waymo 的AI整体方法

Godspeed Zhao

32人浏览 · 2026-03-17 09:44:21

Godspeed Zhao · 2026-03-17 09:44:21 发布

Waymo通过其创新的基础模型构建了完整的自动驾驶AI生态系统，将安全作为核心设计理念。该系统采用"快速思考"和"慢速思考"的双重架构，结合感知组件和语义推理模型，支持实时决策与复杂场景理解。通过教师-学生模型的知识提炼，Waymo实现了高效的车载部署和大规模仿真验证。其独特的"驾驶员-模拟器-评论员"闭环系统形成了持续改进的学习飞轮，累计行驶1亿英里的实际数据使系统安全性比人类驾驶提升10倍以上。这种整体性AI方法为自动驾驶设立了新的安全标准。

Ref：https://waymo.com/blog/2025/12/demonstrably-safe-ai-for-autonomous-driving/

自动驾驶是人工智能在现实世界中面临的终极挑战。在 Waymo，我们致力于解决这一难题，优先开发安全可靠的人工智能，并将安全性作为我们从一开始就构建模型和人工智能生态系统的核心。因此，我们打造了一套极其先进的人工智能系统，能够在现实世界中大规模安全运行。我们的自动驾驶系统已累计行驶超过 1 亿英里，在运营区域内显著提升了道路安全——与人类驾驶员相比，严重伤亡事故减少了十倍以上。

现在，我们诚邀您走进引擎室。本文将详细介绍 Waymo 的人工智能战略及其如何推动我们发展，使我们能够以前所未有的速度、更安全地为更多乘客提供服务。我们将深入剖析我们以 Waymo 基础模型为核心的整体人工智能方法。该模型构建了一个统一且安全可靠的人工智能生态系统，进而推动持续的加速学习和改进。

Waymo 的人工智能整体方法

与其他可能先优化功能再考虑安全性的AI应用不同，在自动驾驶领域，安全绝不能是事后才考虑的因素。在Waymo，安全是我们构建AI生态系统的基石，不容妥协。

要实现真正安全的AI——即安全性得到验证而非仅仅承诺——需要采取整体性的方法。除了智能且能力出众的“驾驶员”之外，还需要一个闭环的、逼真的模拟器，用于在各种挑战性场景中训练和严格测试“驾驶员”，以及一个精准的“评论员”，用于评估“驾驶员”的表现并找出需要改进的地方。

团结就是力量。我们的驾驶员、模拟器和评论员都是联合开发的，并以安全为核心，它们都由同一个底层人工智能——Waymo基础模型——驱动，从而创造了一个持续的良性循环。

Waymo 驾驶员、模拟器、评论家

Waymo 基础模型：Waymo 人工智能的基石

Waymo基础模型是一个功能全面、技术先进的世界模型，为我们的人工智能生态系统提供动力。其创新架构相比纯粹的端到端或模块化方法具有显著优势。

具体而言，该模型充分利用学习到的嵌入向量的表达能力，作为模型组件之间丰富的接口，并支持训练过程中完整的端到端信号反向传播。同时，其额外的紧凑、物化的结构化表示（例如对象、语义属性和路图元素）允许：

驾驶员推理时强大的正确性和安全性验证
高效、物理上正确且逼真的大规模闭环仿真
在训练过程中，评论家和强化学习会提供强有力的、可验证的反馈信号来进行评估。

Waymo 基础模型架构

Waymo 基金会模型采用“快速思考”和“慢速思考”（也称为系统 1 和系统 2）架构，包含两个不同的模型组件：

用于快速反应的传感器融合编码器。作为基础模型的感知组件，该组件会随时间融合摄像头、激光雷达和雷达的输入数据，生成对象、语义信息以及丰富的嵌入向量，以支持下游任务。这些输入数据有助于我们的系统做出快速安全的驾驶决策。
用于复杂语义推理的VLM（车辆逻辑模型）。该模型是我们基础模型的一个组成部分，它利用丰富的摄像头数据，并基于 Waymo 的驾驶数据和任务进行微调。它使用 Gemini 进行训练，并利用 Gemini 的广泛世界知识，更好地理解道路上罕见、新颖和复杂的语义场景。例如，在极其罕见的情况下，如果前方道路上有一辆车着火，即使物理空间和可行驶车道可能畅通无阻，VLM 也能提供语义信号，提示 Waymo 驾驶员选择其他路线或掉头。

这两个编码器都会输入到Waymo 的世界解码器中，该解码器利用这些输入来预测其他道路使用者的行为，生成高清地图，生成车辆的轨迹，并发出轨迹验证信号。

Waymo的AI生态系统：从教师到学生模型中提炼知识

基于我们整体性的方法，Waymo 基础模型为驾驶员、模拟器和评论员提供支持。我们首先针对这三项任务分别进行模型适配，从而构建出在其特定角色中表现卓越的大型高质量教师模型。然而，这些教师模型过于庞大，无法在车辆上运行以进行实时决策，也无法在云端模拟和评估数亿英里的行驶数据。因此，我们安全地将其提炼为更小的学生模型。提炼至关重要，因为它使我们能够在更紧凑、更高效的版本中保留大型模型的卓越性能。因此（与其他人工智能领域的类似趋势相呼应），通过首先训练强大的高容量教师模型，然后利用高效的提炼技术，我们能够为最终的学生模型实现更优异的扩展性。

Waymo人工智能生态系统

驾驶员。我们的教师驾驶员模型经过训练，能够生成安全、舒适且符合规范的操作序列。通过知识提炼，我们将其丰富的世界理解和推理能力迁移到更高效的学生模型中，这些学生模型针对实时车载部署进行了优化。为了最大限度地发挥知识提炼的优势，我们的车载架构设计与 Waymo 基础模型结构相呼应。值得注意的是，Waymo 驾驶员采用独立且严格的车载验证层，用于验证由驾驶员的生成式机器学习模型生成的轨迹。

仿真对于在各种复杂且具有挑战性的场景下对驾驶员进行闭环训练和测试至关重要，这些场景包括潜在碰撞、恶劣天气、复杂路口以及道路上的异常行为。仿真教师模型能够创建高保真度的多模态动态世界来评估驾驶员。学生模型是这些大型模型的计算高效版本，旨在运行对驾驶员进行全面评估所需的大规模仿真。Waymo 基础模型的架构使我们能够无缝地结合紧凑的物化世界状态表示和传感器仿真，从而构建大规模、高度逼真且物理上正确，同时又计算高效的虚拟环境。

通过使用基于文本的提示信息来识别全局场景元素（例如天气状况和时间），并结合语义条件来识别场景中的动态元素（例如其他道路使用者和交通信号灯），我们可以将真实世界的场景（左侧）转换为高度逼真的模拟场景（中间为相机模拟，右侧为激光雷达模拟）。值得注意的是，在本例中，传感器数据完全是合成的，由我们基于底层紧凑结构化世界表示的生成式传感器模拟模型生成。

Critic。我们世界一流的评估系统旨在对 Waymo Driver 进行压力测试，主动识别细微的极端情况，并实现快速、有针对性的改进。Critic 教师模型能够分析驾驶行为并生成高质量信号，用于训练学生模型并自动构建丰富的评估数据集。然后，Critic 学生模型分析驾驶日志，识别有趣或有问题的场景，并提供关于驾驶质量的细致反馈。

在 Waymo 基础模型的支持下，所有这些组件构成了一个无缝的 AI 生态系统，并创造了一个持续学习和改进的良性循环。

打造持续改进的飞轮

优秀的驾驶员并非一成不变，而是持续学习和改进的产物。Waymo 驾驶员的进化依赖于多种机制。我们内部的学习循环由模拟器和评价系统驱动，利用强化学习来训练驾驶员。在这个安全可控的模拟环境中，驾驶员积累经验，并根据其行为获得奖励或惩罚，从而实现大规模学习。

我们外部的学习循环，结合 Waymo 的实际驾驶经验，构建了一个更强大的学习飞轮。该循环始于我们的“评论员”（Critic）系统，它能根据我们丰富的全自动驾驶经验自动标记任何不理想的驾驶行为。接下来，我们会根据这些事件生成改进的替代行为，作为“驾驶员”（Driver）的训练数据。这些改进会在我们的模拟器中进行严格测试，“评论员”系统会验证这些改进。最后，只有当我们的安全框架确认不存在不合理的风险时——也只有在那时——改进后的“驾驶员”才会被部署到实际道路上。

Waymo AI飞轮

多年来，我们积累了前所未有的海量全自动驾驶数据，并且这些数据还在以指数级速度持续增长，正是这些数据驱动着我们不断提升Waymo Driver的飞轮效应。过去，我们主要依赖高质量的手动驾驶数据来训练和改进Waymo Driver。如今，我们的全自动驾驶里程远远超过了手动驾驶数据。如此庞大的真实世界全自动驾驶经验是无可替代的——任何模拟、手动驾驶数据收集或测试驾驶员操作都无法复制Waymo Driver在完全自主驾驶时所遇到的各种情况和反应。将这些丰富的真实世界全自动驾驶数据直接整合到我们独特的飞轮效应中，使Waymo Driver能够从自身丰富的经验中学习并持续改进。

通过采用这种人工智能整体方法并构建学习飞轮，我们不仅在推进 Waymo Driver 的发展，而且还在为大规模安全自动驾驶树立标准。我们不断创新，突破技术极限，人工智能领域还有许多激动人心的工作等待着我们。