大模型面试经验分享：5家公司NLP算法工程师面试全记录，小白必收藏！

m0_48891301

498人浏览 · 2026-05-19 11:22:34

m0_48891301 · 2026-05-19 11:22:34 发布

本文分享了某同学面试5家上海公司的NLP算法工程师（大模型方向）的经历，包括字节跳动、拼多多、Bilibili、太保金科和上海人工智能实验室。面试内容涵盖算法题、开放式问题、业务问题、算法题等，涉及multi-head self-attention、DeBERTa优化点、pre-norm和post-norm的区别、大模型实践场景、ChatGLM、LLaMa、qwen等大模型的区别、大模型微调优化方法、langchain和llama index的区别、大模型检索问题及RAG优化方法、从0到1训练大模型的流程等。此外，还涉及bert原理、attention结构、layer normalization和batch normalization的区别、表达式求值、梯度反向传播、分布式训练框架、模型蒸馏、KL散度和交叉熵的联系与区别、连通子图查找、softmax和交叉熵计算、语义相似度方法、triple loss、模型并行、数据并行、ZERO等知识点。对于想要了解大模型方向面试准备的同学，本文提供了宝贵的参考价值。

↓推荐关注↓

最近技术群的一位同学，给我分享了他面试 NLP 算法工程师(大模型方向)的经历与经验。直呼最近找工作太难了。。。。

今天我整理后分享给大家，希望对后续找工作的有所帮助。

这位同学为面试刷了 leetcode200-300 题左右，侧重刷中高频hard题，同时也准备了大量的面试问题。面的公司地点均在上海，总共5家。

一、字节跳动-抖音 nlp算法工程师

一面（1h）：

1、自我介绍+聊项目经历；

2、算法题：手撕multi-head self-attention，使用tensorflow或torch框架（尽量按google源码的思路）；

3、开方式问题：介绍deberta中的两个优化点，disentangled attention和enhanced mask decoder；

4、开方式问题：说出pre-norm和post-norm的区别；

5、基础问题：layer normalization和batch normalization的区别。

6、大模型实践场景有那些？ChatGLM、LlaMa、qwen 等大模型的区别？如何优化 Prompt ？

7、大模型微调的优化方法及区别？

8、是否熟悉大模型langchain 和 llama index 及区别？

9、当前大模型检索有什么问题？如何进行 RAG 优化的方法？

10、从0到1训练大模型的流程及方法及注意事项

二面（1h）：

1、自我介绍+聊项目经历；

2、算法题：手撕transformer decoder部分的inference过程，重点看beam search的实现，使用tensorflow或torch框架；

3、开方式问题：如何解决含有象征、隐喻等修辞手法的文本分类问题。

4、大模型在NLP的落地案例及遇到的问题？

5、如果评估大模型的效果及安全性

三面（1h）：

1、自我介绍+聊项目经历；

2、基础问题：介绍bert的原理、结构，以及bert中哪些结构（layer或block）的训练参数比较多；

3、基础问题：attention结构的神经网络与递归神经网络相比有什么优点（还问了一些比较基础的问题，貌似有点忘了）；

4、业务问题：如何用一些业务指标衡量模型的效果；

5、算法题：（共三个小问题）

（1）针对某个表达式如5+64（只含有加减乘除），设计并使用一种数据结构能够对表达式进行求值（使用二叉树即可）；（2）在（1）的基础上，倘若表达式中出现未知变量，如a+ab，改进（1）中的结果使其在知道未知变量具体赋值的时候能够返回表达式的结果（实现类似tensorflow中placeholder的机制）；（3）在（2）的基础上，倘若已知loss function返回的结果，实现一下梯度的反向传播。

6、对那些开源大模型比较熟悉？如何看待大模型的前景与价值

hr面（0.5h）：

自我介绍—》为什么想换工作—》薪资期望—》其他常规流程

二、拼多多-智能客服 nlp算法工程师

一面（1h）：

1、自我介绍+聊项目经历；

2、基础问题：又问了一遍layer normalization和batch normalization的区别；

3、基础问题：bert模型采用mask的具体策略，以及为什么要这么设计；

4、开放式问题：常用的文本数据增强方法（全面完整的回答可以从语种层面，letter、subword、word和语序层面，利用mlm过程、利用wordnet近义词替代等角度）；

5、开放式问题：模型蒸馏的具体实现过程，KL散度和交叉熵的联系与区别；

6、算法题：给定一个图的节点集合和边集合，找出图中一个有多少个连通子图（并查集或bfs）

7、AI 大模型LangChain开发框架是否用过，AGENT、MEM、向量知识库的细节

8、熟悉那些分布式训练框架，目前在用那些，能否详细说明？

9、是否有预训练、微调和部署经验，展开讲一下？

10、是否了解大模型在智能客服领域落地场景、质检、拓展问、机器人

二面（1h）：

1、自我介绍+聊项目经历；

2、开放式问题：写出中文bert-base预训练模型所有的参数量，细分到每一个结构的参数量；

3、基础问题：attention结构中Q、K、V的含义及作用；

4、基础问题：bert结构中embedding部分具体是怎么样的（word embedding+position embedding+segment embedding）；

5、基础问题：绝对位置和相对位置的区别（最好举例作答）；

6、开放式问题：position embedding的实现方式有哪两种（functional position embedding，如transformer和华为的NEZHA；parametric position embedding，如bert）；

7、基础问题：layer normalization中的两个可学习参数的作用；

8、算题题：已知二叉树的前序和中序遍历的前提下重构二叉树。

9、基于大模型和向量数据库构建企业级知识库平台的流程及细节说明

三面（0.5h）：

1、自我介绍+聊项目经历；

2、场景题：基于项目中聊到的多轮对话改写模型，是否能够用另一种不同的方法实现；

3、场景题：在真实的客诉场景中，客户可能不会一次性把话说完整，比如某客户会先说“hi”，然后说“想问一下”，最后说“如果你们这边的产品有问题该怎么办”。如何设计客服机器人解决上述的问题（停顿检测）；

4、算法题：将两个升序的数组合并，合并后的数组保持升序，设计时间复杂度尽可能低的算法。

hr面（0.5h）：

自我介绍—》为什么想换工作—》薪资期望—》其他常规流程

三、bilibili 人工智能与大数据平台 nlp算法工程师

一面（1h）：

1、自我介绍+聊项目经历；

2、基础问题：再问了一遍layer normalization和batch normalization的区别；

3、基础问题：transformer网络中一共有多少种不同的attention（3种）；

4、开放式问题：bert及其变体中常用的mask方式及特点（dynamic mask，whole word mask，phrase mask， entity mask）；

5、开放式问题：中文场景的nlu任务和英文场景有什么不同；

6、开放式问题：模型蒸馏的具体实现过程；

7、算法题：数组中连续子数组和的最大值。

8、大模型知道那些？原理、性能、差异的？目前有那些问题需要解决？

9、如果解决大模型的可控可信度不足、推理效率慢的问题

10、常用的模型微调方法、模型量化问题及分布式部署问题

二面（1h）：

1、自我介绍+聊项目经历；

2、业务问题：如何用一些业务指标衡量模型的效果，如何使用一些非模型的方法解决内容的识别问题；

3、开放式问题：介绍一下是如何做语义相似度的（simcse，simbert，sentence bert等）

4、开放式问题：是否了解triple loss，以及它的功能是什么；

5、算题题：实现一个函数能够计算softmax和交叉熵；

6、基础问题：softmax函数在梯度反向传播过程中会出现梯度的钝化，实际过程中该如何解决。

7、熟悉的开发语言Pytorch 还是Tensorflow ?

8、Megatron-lm、Deepspeed 等是否熟悉？你熟悉哪一种？

9、模型并行、数据并行、ZERO是否用过？

三面（0.5h）：

1、自我介绍+聊项目经历；

2、算法题：判断链表是否有环，并输出环的入口节点；

3、场景题：平时是否使用过b站，如何看待b站的弹幕文化。

hr面（0.5h）：

自我介绍—》为什么想换工作—》薪资期望—》其他常规流程

四、太保金科研究院 nlp算法研究员

一面（0.5h）：

1、自我介绍+了解哪些nlp的前沿研究；

2、场景题：如何用gpt-3的prompt机制挖掘以新冠疫情为主题的稀疏文本以及如何在保险场景实现zero-shot；

3、场景题：在文本分类任务中，如果打乱文本中字或词的顺序，是否会对分类结果产生影响；

4、算法题：给定一个长度为n的初始数组nums[0, 1, 2, …, n-1]，求出i != nums[i]对任意i都成立的排列组合总数（动态规划）。

5、GPT3、chagpt、T5、LLAMA、GLM 的区别？

6、模型小型化技术有那些？

7、使用大模型的落地场景？

二面（1h）：

1、自我介绍+聊项目经历；

2、场景题：如何在一个3GB内存空间中部署一个深度学习模型；

3、开放式问题：说一下目前主流或前沿的nlp预训练模型（百度ERNIE3.0，华为NEZHA，openAI gpt-3，nvidia MegatronLM，macrosoft T5）及相关的加速方法（混合精度训练、Zero Redundancy Optimizer）；

4、开放式问题：简单聊一下ERNIE1.0到3.0发展历程和gpt-1到gpt-3的发展历程；

5、开放式问题：说一下对多任务训练（multi task learning）和多领域训练（multi domain learning）的理解，最好举一个例子；

6、大模型是否有经验，请详细说明？

7、目前大模型落地有那些问题？你是如何解决的？

8、大模型目前RAG、chain 是否熟悉？

三面（0.5h）：

1、笔试题：给定训练集和测试集，要求在24h内自己设计神经网络。要求在epoch=1和learning_rate=0.03的限制下，测试集评估的准召达到95%以上;

2、智力题：有5个相邻的山洞（一字排开），山洞里有一只兔子，兔子每天白天会移动到相邻的洞中，你是一个猎人，每天晚上可以查看一个洞。设计一个可以找到兔子的策略。

hr面（0.5h）：

自我介绍—》为什么想换工作—》薪资期望—》其他常规流程

五、上海人工智能实验室大规模预训练算法研究员

一面（1h）：

1、自我介绍；

2、开放式问题：说一下目前主流或前沿的预训练模型，包括nlp（百度ERNIE3.0，华为NEZHA，openAI gpt-3，nvidia MegatronLM，macrosoft T5）和cv（我只知道CLIP）领域；

3、基础问题：说一下数据并行和模型并行的主要区别；

4、基础问题：混合精度训练的原理，有哪些优缺点，针对这些优缺点是如何改进的；

5、开放式问题：说一下DeepSpeed有哪些方面的突破；

6、算法题：N皇后；

7、算法题：用递归和迭代两种方式实现二叉树的层次遍历；

8、算法题：袋子中有5个白球和8个红球，现规定摸球规则：（1）第一次摸球无论红白，均拿出；（2）倘若这一次摸到球的颜色与上一次的相同，则将这一次摸到的球拿出；若不同，则将这一次摸到的球放回。求最后一个球是白球的概率（动态规划）。

这个岗位主要偏开发而非算法，和我自己的条件不匹配，一面后就没有后续了。

最后

2026年技术圈的分化愈发明显：降薪裁员潮持续蔓延，传统开发、测试等岗位大批缩水，不少从业者陷入职业焦虑；与之形成鲜明对比的是，AI大模型相关岗位迎来疯狂扩招，薪资逆势飙升150%，大厂更是直接开出70-100W年薪，疯抢具备实战能力的大模型人才，甚至放宽年龄限制，只求能快速落地技术、创造价值！

很多程序员、职场新人纷纷入局大模型领域，绝非盲目跟风，而是实实在在看到了不可替代的价值优势，这也是2026年最值得抓住的职业风口：

1、窗口期红利，入门门槛友好：不同于成熟赛道的“内卷式招聘”，2026年大模型人才缺口巨大，简历只要达标（掌握基础AI应用+具备简单项目经验），年龄、学历均非硬性要求，小白可快速入门，转行程序员也能无缝衔接；

2、技术可复用，上手速度翻倍：如果你有前后端开发、测试、数据分析等基础，在大模型落地、系统部署、Prompt工程等环节会更具优势，无需从零开始，复用原有技术能力就能快速进阶；

3、懂业务更吃香，竞争力翻倍：单纯懂技术已不够，2026年大厂更看重“技术+业务”的复合型人才，有垂直领域（金融、医疗、工业等）经验者，能精准定位模型落地痛点，薪资比纯技术岗高出30%以上；

更重要的是，即便没有转型需求，用AI大模型工具为工作赋能、提升效率，也已经成为80%企业的硬性要求——不会用大模型提效，未来很可能被行业淘汰！

那么2026年，小白/程序员该如何高效学习大模型？

很多人想入门大模型，却陷入两大困境：要么到处搜集零散资料，不成体系，越学越懵；要么被收费高昂的课程割韭菜，花了钱却学不到实战技能，白白浪费时间走弯路。

今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包，覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程，所有资料均已整理归档，无需拼凑，直接领取就能上手学习，小白可照做，程序员可进阶！

请添加图片描述

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

1、大模型系统化学习路线

这份学习路线结合2026年行业趋势和新手学习规律，由行业专家精心设计，从零基础到精通，每一步都有明确指引，帮你节省80%的无效学习时间，少走弯路、高效进阶，避免踩坑。

请添加图片描述

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

3、大模型学习书籍&电子文档

涵盖2026年最新技术要点，包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容

在这里插入图片描述

4、AI大模型最新行业报告

报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容，还有2026年中文大模型基准测评报告、AI Agent行业研究报告等，帮你站在行业前沿，把握技术风口。

在这里插入图片描述

5、大模型项目实战&配套源码

项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向，还有视频配套代码，手把手教你从0到1完成项目开发，既能练手提升技术，又能丰富简历，为求职和职业发展加分。

6、2026大模型大厂面试真题

2026年大模型面试已全面升级，不再单纯考察基础原理，而是转向侧重技术落地和业务结合的综合考察，很多程序员和新手因为缺乏针对性准备，明明技术不错，却在面试中失利。

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

7、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述