自动驾驶技术路线：“多模态融合”VS“纯视觉”方案

平原君2088

3294人浏览 · 2024-07-17 15:07:14

平原君2088 · 2024-07-17 15:07:14 发布

现在L2级辅助驾驶已经成熟，L3级也驶入了“快车道”已经开始落地，L4级估计将在2028年落地，那时就能完全解放人类的双手和眼睛。

根据自动驾驶的技术方向，其硬件方案可以划分为两大路线：“多模态融合”和“纯视觉”方案。“多模态融合”方案，除了依靠摄像头，还要依靠能主动发射的激光雷达、毫米波雷达等回波反射来辨别外部的静态和动态物体。纯视觉”方案使用摄像头等被动探测设备，不发射任何探测信号，不依赖回波感知外部世界。当前看“纯视觉”方案技术难度更高，但研发成功后成本更低，可以大幅压缩生产成本。
在这里插入图片描述
大多数厂商出于安全性和可靠性考虑，使用激光雷达作为摄像头的冗余兜底，形成了“纯视觉为主+激光雷达”融合的智能驾驶方案，两套双独立系统互为备份、相互补充。“纯视觉”方案以前全球仅有特斯拉唯一玩家，最近中国的厂商极越也宣布采用了“纯视觉”方案硬扛特斯拉。我们先来对比这两种方案的优缺点。

纯视觉方案的优点

1、得到信息更完整丰富

视觉方案中的摄像头好比是人眼，可以采集到最丰富和完整的画面信息，例如形状、深度、速度、加速度等，相比于激光雷达所获取的点云信息，这些图像信息更丰富。基于纯视觉摄像头所获取的图像信息具备更大的数据挖掘空间，也就是说，纯视觉能更好地与大模型、端到端的能力融合，从而形成一个数据驱动的闭环，为新车感知能力的持续优化开辟一条高效的通道。

2、提升空间上限非常高

因为多模态要融合多种传感器的数据，还要进行数据矫正，这就大大增加数据处理的复杂性，而纯视觉方案只要处理图像这一种数据就可，所以软件提升空间上限很高。当模型经过学习、优化、筛选后，便能进行高效可靠的推导，从而在相同的硬件水平下，新车的智驾能力能依靠软件迭代不断升级，最终和人眼一般无二，甚至超越人眼。从第一性原理来看，纯视觉方案是最适合智能驾驶的感知方案，毕竟人类司机开车的时候主要也是靠视觉感知，而非像激光雷达这样靠“触觉”来感知。但是激光和超声波雷达能适应雾天、下雨以及夜晚等可视性差的场景，所以两种方案各有千秋。

3、能大大降低硬件成本

相比较于有激光雷达的方案，纯视觉方案最大的优势就是硬件成本更低。摄像头的成本只有几十美元，这意味着大部分价格区间的车型都可以覆盖这一成本，为智能驾驶的快速推广奠定了硬件基础。例如按极越01此前公布的硬件配置：双激光雷达、双Orin-X，5个毫米波雷达、12个超声波雷达、12个自动驾驶高清摄像头、1个驾驶员红外感知摄像头、2个高精度定位单元。其中激光雷达的成本还是比较高，相较最早期的机械式激光雷达，虽然半固体激光雷达价格已经下降了近100倍，一个价格在3000-9000元不等，仍未达到所有产品都用得起的地步。车企虽然对于智能驾驶的需求很高，但对于车辆的成本更加敏感，因此，目前采用激光雷达的车型几乎都在30万以上，仅有少部分20万以上的车型采用了激光雷达。如果最终量产车型取消激光雷达，智驾成本将减少6000-18000元。如果只是保留纯视觉方案，则其他传感器都可以去掉只保留摄像头，那么硬件成本大大降低。

纯视觉方案的缺点

1、对算力、带宽和算法要求更高

纯视觉方案虽然能降低硬件成本，但是因为视觉三维图像的体像素占用的内存更多，需要更多运算能力，纯视觉方案的“总实现成本”却不一定比多传感器融合方案低。“纯视觉”方案要受制于AI的运算能力，带宽等，对算力平台以及算法性能的要求很高。否则如果速度跟不上，就无法达到实时反应速度，这对于自动驾驶的安全性是难于接受。当然随着现在硬件运算能力的提高以及软件算法不断地优化这个问题已经能够解决。纯视觉路线对软件要求很高，需要积累足够多的数据和场景迭代算法，因而这项技术的规模化是条较为漫长的路。

2、数据处理的障碍

当然纯视觉路线也有缺点，例如对于深度信息的检测不足，以及对三维空间的构建等短板也曾长期存在。幸运的是，随着软件算法的不断迭代，这些问题正在被逐步弥补。当然激光雷达点云的处理中也存在很多障碍，感知算法人员会遇到点云噪点、点云的过多/过少、FOV设计、点云重叠、标定参数偏移等方面的问题。这些问题可能会导致误检或者漏检，前者可能会迫使车辆采取不必要的避障措施，降低智能驾驶的舒适度；而后者可能会导致事故发生。相对来说视觉处理技术更成熟。

**3、需要更多数据支撑 **

“纯视觉”方案需要更多数据来训练神经网络，所以在软件成本上也是很高。例如特斯拉从2015年就开始研发自动驾驶技术，现已在全球范围内拥有超过100万辆自动驾驶汽车，这些汽车每天都在采集数据和经验，这才让特斯拉有了一个庞大的数据库，100万辆自动驾驶汽车每天上路采集数据，这笔成本绝不是个小数目。对于这些数据的预处理和标注需要大量的时间和人工成本，特斯拉在其数据中心内拥有强大的计算能力，用于训练自动驾驶系统，这项成本又是多少呢？马斯克之前的一句狠话或许可以作为参照：“想学特斯拉无人驾驶？你先花几十亿美元训练计算机。”“几十亿美元”折合成人民币可就是上百亿。

4、需要更多的成本

“纯视觉”虽然降低了硬件成本，但是在数据标注和软件开发上则需要更多人力投入，需要更多的软件人才，人力成本高昂。特斯拉拥有世界顶级的自动驾驶工程师团队，要将这些人才网罗至麾下，必然又是笔不小的投入。也就是说，纯视觉方案在短期内可能比多传感器融合方案更烧钱。这也就难怪马斯克敢对媒体说，他根本“不担心其他公司试图模仿特斯拉的自动驾驶技术”。

--------------------------------

最后的总结，从当前情况看纯视觉路线和激光雷达路线展示的智驾能力表现几乎没有差别，但从成本上来看，纯视觉的成本更可控，技术上限更高。成本可控就意味着能更好地进行复制和推广，技术上限更高意味着具有更大的提升空间，甚至可以超越人类。因此，从市场推广的角度来看，纯视觉路线可以推动自动驾驶更快落地。

“多视觉融合”方案更多像一种修修补补的方案：这个技术障碍无法克服则靠其他技术弥补短板。而“纯视觉”方案远景更好，但是技术门槛更高，并非所有厂商是有实力可以跟进。所以到底采用“多模态融合”方案还是“纯视觉方案”，国内的众多造车势力也在犹豫。一方面对于两种方案将来结果如何看不准，另外即使认准了想跟随特斯拉却没有那个实力。因为特斯拉已经在技术积累上领先于竞争对手，并拥有大量数据和经验。特斯拉的自动驾驶技术是基于深度学习的，这是一种非常复杂的技术，需要大量的计算能力才能训练。而特斯拉以外的企业，非但没有特斯拉的海量数据及强大的计算能力，更重要的是，他们也没有那么鼓的钱包去支撑前期的巨大投入。也因如此，有产品专家曾表示：“从战略角度来看，跟随行业内的最强者不一定是明智的决策。说白了，特斯拉能干的事儿，行业里又有几家能做出来？华为研发能力这么强，都没有正面硬刚，而是选择另一条技术路线。”那么问题来了，连华为都不敢“正面硬刚”特斯拉，极越这个最晚入局的新势力品牌之一，真的具备正面对标特斯拉的实力吗？一切只能等量产后的用户反馈。还是那句话，虽然看起来很香，就看你是否有实力拿下。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【C++篇】map和set的使用

代码语言：javascriptAI代码解释set的声明如上，T就是set底层关键字(key)的类型。set默认要求T是支持比较大小的，如果不支持或者想按自己的比较方式走，可以传仿函数给第二个模板参数。set底层存储数据的内存是从空间配置器申请的，如果需要可以自己实现内存池，传给第三个参数一般情况下是不需要传后两个参数的set底层是用红黑树实现的，增删查的效率为O(logN),迭代器遍历走的是中序遍

AtomGit开源社区

LangServe：部署 Agent Harness 的捷径

术语定义LangChain最流行的大语言模型应用开发框架，提供了Agent、工具调用、记忆、检索等全栈组件RunnableLangChain的核心抽象接口，所有可执行的组件（链、Agent、工具、提示词）都实现了这个接口，支持invoke、stream、batch等统一调用方法Agent能自主调用工具、完成复杂推理的大模型应用，核心能力是「思考-调用工具-根据结果再思考」的迭代逻辑。

AtomGit开源社区

【EI复现】基于元模型优化算法的主从博弈多虚拟电厂动态定价和能量管理(Matlab代码实现）

基于元模型的优化算法是一种基于历史数据来驱动样本点的加入从而逼近局部或全局最优解的优化机制，能够改善传统启发式智能算法需要繁复数值模拟的缺陷，目前在飞行器设计等航空航天领域的应用[20]最为广泛，在电力系统方面也有初步的应用。提出基于 Kriging 元模型的博弈均衡算法，在求解过程中建立 Kriging 元模型替代 VPP 内部的能量管理模型，利用粒子群优化算法搜索优异采样点，更新修正 Krig