蔚来多模态大模型算法岗，薪资真让人羡慕！

Python数据挖掘

615人浏览 · 2026-04-04 15:56:04

Python数据挖掘 · 2026-04-04 15:56:04 发布

基本信息

岗位：自动驾驶-多模态大模型算法工程师

工作地点：北京、上海

bg：双非本、985硕

薪资情况

整体为12-16薪（12个月基础薪资+2-4个月年终奖）：

普通算法岗：30W ~ 38W / 年
自动驾驶 / 多模态大模型算法岗：35W ~ 45W / 年
SP 优质 offer：45W ~ 52W / 年
SSP 顶尖 offer：52W ~ 60W / 年

大部分员工年终奖集中在0-1.5个月基础薪资，部门人员可拿到1.5个月，

入职半年以上不足一年者，按实际在岗月份折算发放。

话不多说，分享一下面经，发车！

一面

自我介绍
项目介绍以及个人在项目中的角色、负责的核心模块、遇到的关键问题及解决方案项目，最终的落地效果或性能指标。
项目中多模态数据是如何获取、清洗、标注和预处理的？针对智能驾驶场景的多模态数据，有哪些特殊的预处理技巧？
你在项目中使用过哪些主流的多模态大模型框架？请对比其优缺点，以及你选择该框架的原因
LLaVA 这类模型的核心原理是什么？它为什么能以较低成本把视觉能力接入语言模型
VLM 和 VLA 在建模目标上有什么本质差异
为什么有些场景下使用视觉编码器 + LLM 更合适，而不是直接用 unified multimodal transformer？
针对智能驾驶场景，如何设计针对性的预训练任务，提升模型对驾驶场景的适配性？
模型训练过程中，如何解决模态不平衡（如某类模态数据量不足、模态间语义偏差）的问题？
你做过哪些提升训练效率的手段？例如混合精度、梯度累积、并行训练、checkpointing 等。
多模态大模型的推理速度和显存占用是智能驾驶落地的关键，你在项目中采用了哪些方法进行模型轻量化、推理加速？
多模态模型中，视觉特征接入 LLM 时为什么常用 projector / adapter？如果不用，会有什么问题？。
多模态大模型从算法设计到工程落地的完整流程，包括数据准备、模型训练、模型部署、线上监控与迭代，你在项目中负责了哪个环节，遇到了哪些工程化难题，如何解决？
如何设计多模态大模型的评测体系？针对智能驾驶场景，需要关注哪些评测指标，如何构建高质量的评测数据集？
当线上模型出现性能退化时，你会如何排查问题、定位根因，并进行迭代优化？
在你参与的项目中，是否有过技术创新（如改进模型结构、优化训练方法、创新数据处理方式等）？请详细说明创新点、实现过程及效果。
题目：二叉树的层序遍历（要求：输出每一层的节点值，按层划分，例如输入[3,9,20,null,null,15,7]，输出[[3],[9,20],[15,7]]）。请用Python或C++实现，并说明时间复杂度和空间复杂度。

二面

自我介绍
介绍一个跟岗位相关的
训练过程中，如何解决多模态模态错位（如图像与文本语义不匹配、点云与图像特征对齐偏差）的问题？
车载场景下，训练数据往往存在场景覆盖不全（如极端天气、特殊路况）的问题，你如何设计训练方案，提升模型对长尾场景的适配能力？
视觉编码器选择 ViT、ConvNeXt、时序 Transformer，各自更适合什么场景？
如果语言模型本身很强，但视觉理解较弱，你会优先换视觉编码器、换对齐模块，还是换整个基座？
对于时序建模任务，你会如何选择 frame sampling 策略和上下文窗口长度？
当训练数据中图像质量、采样频率、标注风格差异很大时，你会如何处理的？
模型训练完成后，如何进行模型评估与验证？
如果线上推理延迟过高，你会优先优化哪些部分？
Flash Attention 解决了什么问题？它对多模态长序列任务价值在哪里？
什么时候你会选择 LoRA、QLoRA、全参微调，或者 adapter tuning？
当上下文长度越来越长时，你会如何优化推理效率？
面对多模态大模型训练中出现的未知问题（如训练成本过高、模态融合效果不佳），你会如何开展研究，寻找解决方案？
最长递增子序列（要求：给你一个整数数组nums，找到其中最长严格递增子序列的长度。例如：输入nums = [10,9,2,5,3,7,101,18]，输出4（最长递增子序列是[2,3,7,101]）。请用动态规划和贪心+二分查找两种方法实现，并对比两种方法的时间复杂度和空间复杂度。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

通过CSS变量实现图表色彩与逻辑解耦、图表主题统一｜Highcharts Palette 详解

AtomGit开源社区

google gmini大语言模型的数据预训练 flan等方法介绍下

Google Gemini大语言模型训练全解析：FLAN指令微调与多模态技术摘要：Google Gemini采用三阶段训练流程，其中FLAN指令微调是关键创新。FLAN通过将1836个NLP任务统一为自然语言指令格式，使模型具备零样本/少样本及思维链推理能力。Gemini将其扩展为多模态版本，支持图文/音视频指令输入。训练分为：1）多模态联合预训练（文本+图像+音频+视频）；2）FLAN式指令微