数据:虚拟仿真、影子模式、自动标注引入将优化信息采集、处理能力

海量的数据、高效的数据标识是算法模型的基础。数据的来源有:1)真实数据:行车采集到的真实世界的信息,与汽车销量直接挂钩。智能驾驶起步早、出货量高的车企具备先发优势。2)虚拟仿真:通过 AI 自动生成道路场景、车辆、行人等信息,对模型进行训练。可用于对行车采集到的 corner case 进行反复模拟、训练,从而弥补现实场景采集信息不足的问题。3)影子模式:大模型在车辆后台运行,模拟决策而不实际控车,不会对驾驶者及车辆产生任何干扰。但是在有异常场景或模型与人类驾驶员的决策不同时,触发数据采集及回传,使得量产车即等同于“数采车”。

数据采集的下一步是对数据进行识别、标注。随着智能驾驶的成熟,激光雷达 3D 点云信息、摄像头采集的 2D 图像信息的增加,道路场景的丰富,自动驾驶的数据标注类型与数量在不断增加。

人工标注成本高、效率低,自动标注是 AI 大模型赋能智能驾驶最直接的应用,能大幅降低数据标注的成本。据 2023 年 4 月毫末智行 DriveGPT 发布会显示,目前要得到对诸如车道线、交通参与者、红绿灯等信息,行业人工标注的成本约每张图为 5 元,毫末DriveGPT 的成本为 0.5 元。我们认为科技公司大模型训练成熟后,单张图自动标注的边际成本趋近于 0,平均成本有望进一步下降。据恺望数据产品项目副总裁张鹏在 2023 年 2月的介绍,目前数据标注以人工标注为主,机器标注为辅,95%的数据标注还是以人工为主。

以特斯拉为例,1)数据来源层面,2021 至 2022 年特斯拉 FSD beta 版本的用户从 2,000人增长至 16 万人,累计积累超过 14.4 亿帧视频数据,为模型训练提供了大量的真实数据。针对真实道路场景中不常见的案例,特斯拉通过仿真模拟(5 分钟即可建立一个复杂场景),进行大规模训练;通过数据引擎,发现新的 corner case。2)数据标识层面,特斯拉通过自动标注优化系统效率。自动标注技术成熟,人工标注团队规模缩小。2021 年人工标注团队为 1000 多人,2022 年该团队裁员 200 余人。

                特斯拉汽车自动驾驶基础设施的发展

数据来源:通过仿真模拟,对 corner case 进行大规模训练

针对真实道路场景中不常见的案例,特斯拉通过模拟仿真,构建虚拟场景采集数据,以丰富数据的来源,为模型训练提供支持;通过数据引擎,人工挖掘误判的、非典型案例。

特斯拉 FSD 通过仿真模拟引入虚拟数据,支撑大规模训练。特斯拉的模拟仿真可以通过建立一个虚拟世界,以提供现实中难以获得/数据量不足的情景,目前特斯拉可以在 5min内自动生成一个复杂路口 3D 虚拟场景。进一步,还可以通过道路中的场景,创建更多变种场景,帮助算法训练,无需每种场景都通过实际道路测试来采集数据,大大提高了数据的丰富性。

特斯拉 FSD 通过数据引擎发掘新的 corner case。通过人工挖掘非典型的机器误判案例,将其加入各类训练集,以不断更新完善模型。

      特斯拉数据引擎结构     自动生成一个复杂路口 3D 虚拟场景

数据标注:通过自动标注优化系统效率,降低标注成本

特斯拉 FSD 通过“多重轨迹重建”技术自动标注车辆行驶轨迹。目前在集群中运行 12 小时即可完成 10,000 次行驶轨迹标注,取代 500 万小时人工标注。通过机器的自我训练,减少了人力标注成本高、效率低的问题。

具体步骤:1) 高精轨迹获取,将车辆行驶过程中的采集的始排信息、车辆运动 IMU 陀螺仪、速度等指标作为原始信号输入,提取车辆的运动轨迹以及 3D 结构的道路细节。2)多旅程重建,基于所有车辆的轨迹信息,进行道路信息的匹配和优化。在用户道路信息的基础上,特斯拉实验车队也或将再次确认数据,从而查漏补缺!

  特斯拉自动标注技术迭代更新    特斯拉多旅程重建进行自动标识

SAM 模型的发布使自动标注迈向了一个新的台阶。2023 年 4 月 6 日,Meta 发布了通用的“Segment Anything”模型(SAM)和“Segment Anything 1-Billion Mask”数据集(SA-1B),是有史以来最大的分割数据集。SAM 是处理图像分割的新任务和数据集的模型,可以用于分割图像中的一切对象,支持广泛的应用,有利于促进进一步的计算机视觉基础模型研究。分割和识别哪些图像像素属于对象是计算机视觉的核心任务,从分析图像到编辑照片以及为特定任务创建准确的细分模型通常需要技术专家进行高度专业化的工作,现在可以通过 AI 培训基础模型能显著降低工作量。

                              SAM 图像分割演示

算法:优化感知-决策-执行三阶段

本节,我们参考特斯拉 FSD,将自动驾驶模型算法按流程分为感知(Perception)、预测(Prediction)、执行(Planning)三个阶段进行分析。

感知层面:Occupancy Network、3D 建模

#1:从 pixel 到 voxel,从 BEV 到 Occupancy Network

国内新势力与智驾解决方案供应商多使用基于 pixel 点格的 BEV 模型,使用矩形框(bonding box)来框定物体,进行物体识别。特斯拉创新性的提出了占用网络(Occupancy Network)模型,直接将 3D 空间点格化,每个 3D 点格即为一个 voxel,在摄像头采集的平面信息基础上添加时间、空间信息,可输出:1)该 3D 点格被占用的概率(例如:区分静止的车辆/运动的车辆);2)语义信息(Semantics output;例如:区分静止的车辆/路牙);3)表面信息(Surface output;例如:坡度、泥坑、积水)。占用网络模型在原有 BEV 模型基础上升级,通过占用网络可以将特斯拉 8 个摄像头采集的视频内的真实世界数据即时转换成三维向量空间。将空间划分成一个个 3D 栅格,每个栅格有占用和空闲两种状态,通过这种栅格数据可以更精确地反映路面物体真实体积和形状。同时根据路侧建筑、行人、车辆等不同,可以赋予不同物体不同的语义,并标注不同的颜色。

                        Occupancy 占用网络模型结构

占用网络相较于之前在障碍物识别和行驶路径预判方面有了明显提升,具体来看:

1)通过占用网络,只需分析物体的空间内栅格占用情况,不需对物体本身进行检测识别,规避传统视觉算法中对物体识别失败带来的车祸风险。尤其在面对静态障碍物、与周围环境类似的障碍物、训练模型中未涵盖到的障碍物时,可以更大程度的规避风险。

         占用网络对双节公车动态(蓝色)静态(红色)的精确识别

2)占用网络解决传统视觉算法难题及还原道路坡度和曲率,辅助行车更优决策。通过计算几何空间的体积占用率,可以在占用网络中精确地还原物体本身形状。占用网络塑造的3D 世界还可以还原道路的坡度和曲率,让车辆根据实际道路情况提前预测加速和减速判断,进一步提高行车安全性和舒适度。

     通过占用网络可以检测多厢卡车甩尾问题    还原道路坡度和曲率

3)基于占用网络可以预测道路上其它物体的行进轨迹。通过对栅格进行光流估计来检测物体运动并预测其短期行进运动轨迹,并标注上丰富的语义(红色—静止,蓝色—加速,黄色—减速等),从而在特斯拉车辆行驶过程中规划最优行驶路径进行避让,保证驾驶安全性。

#2:3D 重建

NeRFs 是业界常用的 3D 重建模型。可以基于 NeRFs 让车辆重建其所经过的道路信息,从而进行:1)不依赖高精度地图的道路信息的构建;2)重建三维模型,对各种 cornercase 进行模拟与训练。

预测层面:道路拓扑关系预测、障碍物预测

预测分两种,一种是道路信息的预测(lane prediction),另一种是障碍物的预测。

#1——道路信息:基于大模型勾勒拓扑关系,摆脱对高精度地图的依赖

道路信息的预测包含:1)语义信息、2)连接信息。最初 autopilot 使用的传统 link prediction,只能预测比较简单的道路,比如高速公路,基于此已经可以实现 LCC 等 L2 的功能。要实现更加复杂的城市道路的拓扑关系预测,需要基于:1)高精度地图;或者 2)导航地图+神经网络预测。特斯拉基于基础的硬件配置(摄像头+导航地图)+自创的language of lanes 模型,来通用化的勾勒整个世界的道路信息。

车 道 线 网 络 模 型 辅 助 进 行 车 辆 行 驶 路 径 的 预 判 。 车 道 线网 络 模 型 通 过车 道 语言(Language of lanes)可以在车载摄像头及地图数据所形成的图像上,将道路数据标注成一系列节点并赋予不同语义(起始点、延续点、交叉点、终点等),并通过组合不同语义的“单词”形成“句子”,自动勾绘出一条条车道线。这套“车道语言”,可以在小于 10 毫秒的延迟内,思考超过 7500 万个可能影响车辆决策的因素,运行这套语言的功耗只要 8W,较大的提升了特斯拉 FSD 对车辆行驶路径的预判能力。

特斯拉车道线网络模型示意 对可能的行进轨迹进行预判并绘制成车道线

#2——物体信息:基于大模型预测动静信息,为行驶决策提供支持

物体的预测包含动、静概率信息,再结合道路拓扑信息,为最终的形式决策提供支持。特斯拉的 Occupancy Network 中红色代表长期禁止的车辆,黄色代表临时停车,蓝色代表运动,可对物体的动静状态及其概率进行预测。在一些特殊情景下,例如左转摄像头被左侧大货车遮挡,无法判断左向是否有来车,模型会自动生成虚拟车辆,假设左侧有被遮挡的来车,基于此进行决策,更贴近人类驾驶员的思维模式。

特斯拉左转摄像头被遮挡,模型假设左侧有来车对闯红灯车辆、道路阻碍者的预判

决策层面:车端算力升级、模型计算效率优化,决策更加智能

决策的难点在于多方的交互与对路权的博弈,计算的效率是至关重要的。目前业内普遍50-100 毫秒之间完成一轮计算。受车端算力与计算效率的限制,目前决策层面的模型可分为两类:1)rule base 的模型(类似 if 程序,提前设定了某些情境下的反应机制);2)特斯拉的交互搜索的模型(query base 的条件下可缩短单次计算时间至 100 微秒)。

算力:车端/云端算力升级与国产化

车端:高性能芯片国产替代趋势显著

目前车载芯片主流供应商包括:英伟达、特斯拉、Mobileye 等国际厂商,及地平线、黑芝麻智能、华为等国内厂商。2022 年以前主流供应商量产芯片的算力大多在 50TOPS 以下;2022 年以来,主流供应商推出的多款车载芯片算力快速增长,高算力芯片占比显著提升,例如 NVIDIA Orin(254 TOPS)、地平线 Journey5(128 TOPS)等。长期来看,随着大模型上车对车载算力需求的进一步提高,以及车载芯片制造商对芯片架构和技术的改进,车载芯片的算力有望持续上升。英伟达 Thor 芯片(2000TOPS)未来量产有望加速计算平台融合。

                       车载芯片算力及搭载情况

视觉图像处理、点云融合涉及大量数据处理和计算,对算力要求高:

  1. 图像处理:从图像中获得车道线、交通信号灯、行人、车辆等目标的位置和运动信息,以支持自动驾驶决策和控制,通常包括图像采集、预处理、特征提取、目标检测和跟踪、场景分割等步骤;

  2. 点云融合:用于创建高分辨率、准确的环境地图,以便自动驾驶系统能够更好地感知和理解其周围环境,通常包括采集点云数据、预处理、点云配准、曲面重建、构建实体模型等步骤。

视觉图像处理、点云融合

高算力芯片可以通过并行计算、高速缓存、专用指令集、高效能设计来提升图像和点云处理能力。1)并行计算:使用多个处理器核心协同求解同一问题,从而加快计算速度。车载高算力芯片通常采用多核心架构,能够同时进行多个计算任务,具有强大的并行计算能力。2)高速缓存:使用 SRAM Cache 加快计算单元对数据的读写速度,减少对速度较慢的主存的存取。3) 专用指令集:专用指令集通常为特定应用设计,从硬件层面对指令进行了优化,从而提高指令执行速度。4)高效能设计:在保证计算性能的同时,降低功耗和热量输出,从而提升车辆的稳定性和耐久性。

                            高算力芯片处理优势

云端:基础设施算力升级加速算法迭代

主机厂和自动驾驶技术开发商积极布局建设智算中心,以提高自身“云上”竞争力。智算中心是指基于 GPU、FPGA 等芯片构建智能计算服务器集群,提供智能算力的基础设施,建设周期长,初始投资大。目前,主机厂特斯拉、小鹏、吉利,解决方案提供商毫末智行、商汤、百度布局建设了智算中心,用于训练自动驾驶等大模型。

智算中心的建设能够显著加速算法迭代,提高研发效率。例如,小鹏汽车的扶摇智算中心算力达到 600PFLOPS(每秒浮点运算 60 亿亿次),相比先前,自动驾驶模型训练速度提高了 170 倍,GPU 资源虚拟化利用率提高了 3 倍,端对端通信延迟低至 2 微秒;吉利汽车的星睿智算中心算力达到 810PFLOPS,智驾模型训练速度提高 200 倍以上。随着智能驾驶的逐步渗透,大模型或将成为各公司的核心竞争力之一,为匹配模型中大规模参数以及大数据量计算,智算中心的建设规模有望持续扩张。

                                智算中心建设情况

AI行业迎来前所未有的爆发式增长:从DeepSeek百万年薪招聘AI研究员,到百度、阿里、腾讯等大厂疯狂布局AI Agent,再到国家政策大力扶持数字经济和AI人才培养,所有信号都在告诉我们:AI的黄金十年,真的来了!

在行业火爆之下,AI人才争夺战也日趋白热化,其就业前景一片蓝海!

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

在这里插入图片描述

人才缺口巨大

人力资源社会保障部有关报告显示,据测算,当前,****我国人工智能人才缺口超过500万,****供求比例达1∶10。脉脉最新数据也显示:AI新发岗位量较去年初暴增29倍,超1000家AI企业释放7.2万+岗位……

单拿今年的秋招来说,各互联网大厂释放出来的招聘信息中,我们就能感受到AI浪潮,比如百度90%的技术岗都与AI相关!
图片

就业薪资超高

在旺盛的市场需求下,AI岗位不仅招聘量大,薪资待遇更是“一骑绝尘”。企业为抢AI核心人才,薪资给的非常慷慨,过去一年,懂AI的人才普遍涨薪40%+!

脉脉高聘发布的《2025年度人才迁徙报告》显示,在2025年1月-10月的高薪岗位Top20排行中,AI相关岗位占了绝大多数,并且平均薪资月薪都超过6w!

在去年的秋招中,小红书给算法相关岗位的薪资为50k起,字节开出228万元的超高年薪,据《2025年秋季校园招聘白皮书》,AI算法类平均年薪达36.9万,遥遥领先其他行业!

图片

总结来说,当前人工智能岗位需求多,薪资高,前景好。在职场里,选对赛道就能赢在起跑线。抓住AI风口,轻松实现高薪就业!

但现实却是,仍有很多同学不知道如何抓住AI机遇,会遇到很多就业难题,比如:

❌ 技术过时:只会CRUD的开发者,在AI浪潮中沦为“职场裸奔者”;

❌ 薪资停滞:初级岗位内卷到白菜价,传统开发3年经验薪资涨幅不足15%;

❌ 转型无门:想学AI却找不到系统路径,83%自学党中途放弃。

他们的就业难题解决问题的关键在于:不仅要选对赛道,更要跟对老师!

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐