自动驾驶大模型---新加坡国立大学之VLM-UDMC
1 前言
场景理解和风险感知注意力对人类驾驶员做出安全有效的驾驶决策至关重要。在城市自动驾驶中,模仿这种认知能力并确保透明度和可解释性是关键挑战,同时现有自动驾驶系统在复杂城市环境中难以平衡决策制定和运动控制。
顺便可以一起再回顾看到过的常用的大模型AD架构:

本篇博客介绍的论文是新加坡国立大学(NUS)和香港科技大学(HKUST)合作发表的论文《VLM-UDMC: VLM-Enhanced Unified Decision-Making and Motion Control for Urban Autonomous Driving》。
2 VLM-UDMC
论文提出了一种名为VLM-UDMC的新型城市自动驾驶框架,旨在通过视觉语言模型(VLM)增强统一的决策和运动控制。VLM-UDMC的核心思想是将高级语义理解融入到自动驾驶的决策过程中,从而提高车辆在复杂城市环境中的行为规划和执行能力。
问题背景与动机
- 挑战:传统的自动驾驶系统通常采用模块化设计,感知、决策和控制是分离的。这种分离的设计可能导致信息传递的延迟和错误累积,尤其是在复杂的城市环境中。
- 动机:为了解决这些问题,研究者们希望通过统一的框架来整合决策和运动控制,并利用VLM来增强系统对环境的理解能力,从而实现更安全、更高效的自动驾驶。
2.1 VLM-UDMC框架

整体架构:VLM-UDMC框架主要包括两个核心模块:
- 视觉语言感知模块(Vision-Language Perception Module)(慢系统):利用VLM处理输入的视觉信息(如摄像头图像)和语言指令(如导航目标),提取场景中的关键语义信息。
- 统一决策模块(Unified Decision-Making & Motion Control)(快系统):将感知模块提取的语义信息与车辆的当前状态相结合,通过构建MPC问题,求解得到最优的驾驶控制序列。
(1)VLM增强的感知模块
- VLM选择:研究者通常会选择预训练的VLM模型,如CLIP(Contrastive Language-Image Pre-training)或类似模型,这些模型已经在大量的图像-文本对上进行了训练,具备了强大的视觉和语言理解能力。
- 语义信息提取:VLM被用于从输入的图像中提取关键的语义信息,例如识别交通信号灯的状态、车辆类型、行人行为等。同时,VLM还可以理解用户的语言指令,例如“在下一个路口左转”或“避开行人”。
- 多模态融合:VLM能够将视觉和语言信息融合在一起,从而提供更全面、更准确的场景理解。
(2)统一决策控制模块
- 决策空间:该模块定义了车辆的决策空间,包括车辆可以采取的各种动作,例如加速、减速、变道、转弯等。
- 状态表示:车辆的状态被表示为一个向量,包括车辆的位置、速度、方向、以及周围环境的语义信息。
- 规划算法:该模块使用规划算法(基于模型的预测控制MPC)来生成最优的驾驶决策控制序列。规划算法的目标是最大化车辆的行驶效率和安全性,同时满足用户的驾驶意图。
- 语义信息融合:VLM提取的语义信息被用于指导决策过程。例如,如果VLM识别到前方有行人,决策模块会生成减速或停车的决策。
2.2 实验与评估
- 仿真环境:研究者通常会在仿真环境中(例如CARLA、SUMO等)对VLM-UDMC框架进行评估。
- 评估指标:常用的评估指标包括:
- 行驶效率:例如,平均速度、行驶时间等。
- 安全性:例如,碰撞次数、违反交通规则的次数等。
- 舒适性:例如,加速度变化率等。
- 对比实验:研究者会将VLM-UDMC框架与传统的自动驾驶系统进行对比,以验证其优越性。

- 结论:实验结果表明,VLM-UDMC框架能够显著提高城市自动驾驶系统的性能,尤其是在复杂的交通场景中。
3 总结
这篇论文提出了一种有前景的城市自动驾驶框架,通过VLM增强的统一决策和运动控制,提高了系统在复杂环境中的性能。该研究为未来的自动驾驶技术发展提供了新的思路和方法。
- 统一框架:将决策和运动控制整合到一个统一的框架中,减少了模块间的延迟和错误累积。
- VLM增强:利用VLM来增强系统对环境的理解能力,提高了系统在复杂城市环境中的适应性。
- 语义信息融合:将VLM提取的语义信息融入到决策过程中,提高了决策的合理性和安全性。
参考文献:《VLM-UDMC: VLM-Enhanced Unified Decision-Making and Motion Control for Urban Autonomous Driving》
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)