大模型面试必备:小白也能收藏的算法核心考点解析
本文整理了小红书大模型算法实习面试中的核心问题及解答,涵盖LLaMA改进、微调与对齐区别、对齐时机判断、四种对齐算法比较、位置编码原理、GAE与重要性采样、损失采样、主流大模型架构、PagedAttention和LoRA初始化等。内容注重基础理解与工程落地,适合准备大模型算法岗的同学复习和收藏。

问题1:LLaMA 相比原始 Transformer 架构有哪些改进?
🎯 问题难点分析
这道题看着基础,但想拿高分不容易。很多人能说出RMSNorm、SwiGLU,但容易漏掉RoPE、去偏置等细节。难点在于既要全面又要精准,最好还能说明为什么这些改进有效。
🔍 面试官考察点
- 是否读过LLaMA原始论文
- 对Transformer变体的敏感度
- 能否从原理层面解释改进动机
✅ 标准回答
LLaMA相比原始Transformer主要有以下改进:
- Pre-normalization with RMSNorm:用RMSNorm替代LayerNorm,放在每个子层之前。RMSNorm计算更简单,训练更稳定,且去掉了中心化操作,保留了幅度信息。
- SwiGLU激活函数:用SwiGLU替代ReLU,本质是GLU的变体,能引入更多非线性,提升模型表达能力。LLaMA中的实现是
FFN = (swish(xW) * xV) W2。 - RoPE旋转位置编码:采用相对位置编码,通过旋转矩阵注入位置信息,比绝对位置编码有更好的长度外推性。
- 去掉偏置项:在Linear层和LayerNorm中去掉bias,减少参数和计算量,对效果影响不大但能省显存。
- 优化器设置:使用AdamW,并采用余弦学习率调度和梯度裁剪。
💡 问题衍生
- RMSNorm和LayerNorm的本质区别是什么?
- RoPE是如何实现相对位置编码的?
- SwiGLU相比ReLU和GELU的优势在哪里?
问题2:微调(Fine-tuning)和对齐(Alignment)的区别?
🎯 问题难点分析
很多人把这两个概念混为一谈。难点在于清晰界定两者的目标和手段,并说明它们在LLM训练流程中的先后关系。
🔍 面试官考察点
- 对LLM全流程训练的理解
- 能否区分“任务能力”和“行为偏好”
✅ 标准回答
微调(Fine-tuning)和对齐(Alignment)是LLM训练的两个不同阶段:
- 微调:通常指SFT,用高质量的任务数据(问答、指令等)继续训练预训练模型,目的是让模型学会遵循指令、完成特定任务。它优化的是任务准确率。
- 对齐:指RLHF等过程,通过人类反馈优化模型行为,让模型生成符合人类偏好的内容(如更有用、更无害、更诚实)。它优化的是主观偏好。
两者关系:先微调让模型“能做事”,再对齐让模型“好好做事”。微调是基础,对齐是升华。
💡 问题衍生
- 如果先对齐再微调会怎样?
- 对齐阶段的数据和微调阶段的数据有什么区别?
- RLHF中的奖励模型是如何训练的?
问题3:模型微调到什么程度才需要进行对齐?
🎯 问题难点分析
这道题没有标准答案,考察的是工程经验和判断力。难点在于给出合理的阈值或判断依据。
🔍 面试官考察点
- 对模型训练中“能力”和“安全”平衡的理解
- 能否结合实际场景分析
✅ 标准回答
对齐并不是微调到某个特定程度才开始的,而是一个独立于微调的优化环节。通常的做法是:
- 先进行SFT,让模型具备基本的指令跟随能力和任务能力。
- 评估模型在开放域的表现:如果模型已经能正确完成任务,但偶尔输出有害、偏见或不期望的内容,就需要对齐来“纠偏”。
- 如果SFT后模型在目标任务上效果达标,且没有明显的不良行为,可以不进行对齐(比如专用领域的封闭任务)。
- 对于通用对话模型,SFT后几乎一定会做对齐,因为开放场景下不可控因素太多。
所以,“到什么程度”更多取决于应用场景和风险容忍度,而不是模型在SFT上的指标。
💡 问题衍生
- 如果SFT后模型已经很好,再做对齐会不会破坏性能?
- 有没有可能在SFT阶段就融入对齐目标?
- 如何衡量对齐的效果?
问题4:四种对齐算法的区别:PPO、DPO、GRPO、DSPO?
🎯 问题难点分析
这道题是进阶分水岭。PPO和DPO是经典,GRPO是DeepSeek的创新,DSPO是2025年新出的算法(可能指Direct Step-level Optimization或类似变体)。难点在于不仅要说出区别,还要理解每种算法的设计动机和适用场景。
🔍 面试官考察点
- 对RLHF最新进展的跟进程度
- 能否从原理层面比较算法的优劣
- 是否理解算法背后的trade-off
✅ 标准回答
这四种算法代表了RLHF从“重资源精细控制”到“轻量高效”再到“理论修正”的演进路径:
- PPO(Proximal Policy Optimization):标准RLHF算法,需要维护Actor、Critic、Reward Model、Reference四个模型。Critic提供每个token的实时价值估计,优势函数计算精细,但显存占用大,训练复杂。
- DPO(Direct Preference Optimization):斯坦福提出,直接对偏好概率建模,将RL目标转化为监督学习损失。无需Reward Model和RL流程,只需要两个模型(Actor和Reference),训练简单稳定,但对数据质量要求极高。
- GRPO(Group Relative Policy Optimization):DeepSeek推出,去掉Critic,对同一个问题采样多个答案,用组内奖励的均值和标准差标准化作为优势函数。特别适合数学、代码等可客观评分的任务,显存占用比PPO降低40%以上,但token级的重要性采样存在理论缺陷。
- DSPO(Direct Step-level Policy Optimization / 或更广义的变体):可能是2025年提出的新方法,核心思想是在step级别进行优化,比DPO的序列级更精细,但比PPO的token级更粗。具体实现因论文而异,但通常旨在平衡效率和稳定性。
💡 问题衍生
- GRPO的组大小怎么选?
- DSPO相比GRPO的改进点在哪里?
- DPO的损失函数是如何推导出来的?
问题5:位置编码的作用?为什么相对位置编码通常比绝对位置编码更好?
🎯 问题难点分析
基础但需要深度。难点在于不仅要说出区别,还要解释“为什么更好”,比如外推性、平移不变性。
🔍 面试官考察点
- 对Transformer位置信息的本质理解
- 是否了解RoPE等现代位置编码
✅ 标准回答
位置编码的作用是给Transformer注入序列中token的顺序信息,因为自注意力本身是位置无关的。
绝对位置编码(如正弦编码、可学习嵌入)将每个位置映射到一个固定向量,但存在两个问题:
- 长度外推差:训练时见过的最大长度限制了泛化能力。
- 位置信息是绝对距离,难以捕捉相对关系。
相对位置编码(如RoPE、T5的相对偏置)关注token之间的相对距离,让模型更容易泛化到更长的序列,且对输入的轻微平移具有一定不变性。以RoPE为例,它通过旋转矩阵乘上token的嵌入,使得内积结果只依赖于相对位置,从而自然地建模了相对关系。
💡 问题衍生
- RoPE的具体实现原理是什么?
- 如何评估一种位置编码的外推能力?
- 还有哪些相对位置编码的变体?
问题6:GAE(Generalized Advantage Estimation)以及重要性采样(Importance Sampling)?
🎯 问题难点分析
强化学习的基础概念,但需要理解它们在PPO等算法中的具体应用。难点在于公式背后的直觉。
🔍 面试官考察点
- 对RL基础理论的掌握
- 能否将理论和实际算法联系起来
✅ 标准回答
GAE:广义优势估计,用于在强化学习中平衡优势估计的偏差和方差。它通过TD误差的指数加权平均来估计优势函数: [ \hat{A}t = \sum{l=0}^{\infty} (\gamma\lambda)^l \delta_{t+l} ] 其中δ是TD误差,λ是平衡参数(λ=0时等价于单步TD,方差小偏差大;λ=1时等价于蒙特卡洛,偏差小方差大)。GAE在PPO中用于计算每个token的优势值。
重要性采样:当从旧策略采样数据来更新新策略时,由于分布不匹配,需要用重要性权重修正: [ w = \frac\pi_{\text{new}}(as)\pi_{\text{old}}(as)] 在PPO中,重要性采样用于构建目标函数,并通过clip操作限制权重范围,防止更新步长过大。
💡 问题衍生
- GAE中的λ如何选择?
- PPO中为什么要对重要性权重进行裁剪?
- 重要性采样在DPO中是否被使用?
问题7:损失采样(Loss Sampling)相关问题?
🎯 问题难点分析
“损失采样”这个词可能有歧义,需要结合上下文理解。可能指训练中根据损失大小调整样本权重,或RL中的样本筛选。难点在于准确理解面试官意图。
🔍 面试官考察点
- 对训练技巧的掌握
- 能否灵活应对不明确的问题
✅ 标准回答
损失采样通常指在训练过程中,根据样本的损失值对样本进行加权或重新采样,让模型更关注那些“难例”或“重要样本”。常见做法:
- 计算每个样本的损失,归一化后作为采样概率。
- 或者直接对损失大的样本赋予更高权重(如Focal Loss的思想)。
在RLHF中,有时也会对生成的样本根据奖励或优势进行筛选,只保留高质量样本用于训练,这也是一种损失采样的变体。
如果面试官追问,可以进一步说明:损失采样能加速收敛,防止模型被简单样本淹没,但需要注意避免过拟合噪声样本。
💡 问题衍生
- 如何避免损失采样导致训练不稳定?
- 损失采样和主动学习的区别?
- 在RL中如何实现基于优势的样本筛选?
问题8:目前了解哪些大模型架构?例如 LLaMA 等。
🎯 问题难点分析
开放性问题,考察知识广度。难点在于有条理地列举,并能简要说明特点。
🔍 面试官考察点
- 对业界主流模型的关注度
- 能否归纳不同架构的适用场景
✅ 标准回答
我了解的主流大模型架构包括:
- LLaMA系列:基于Transformer decoder,采用RMSNorm、SwiGLU、RoPE,是目前开源社区的基石。
- GPT系列:OpenAI的decoder-only架构,强调自回归生成。
- T5:encoder-decoder架构,将所有NLP任务统一为文本到文本的形式。
- BERT:encoder-only,适合理解型任务。
- 混合专家模型(MoE):如Mixtral 8x7B、DeepSeek-V3,通过稀疏激活专家,用更少计算量实现大参数量。
- 多模态架构:如CLIP、Flamingo、LLaVA,融合视觉和语言。
- 最新的Qwen3、DeepSeek-R1:在推理和效率上有创新,如动态思考机制、GRPO等。
💡 问题衍生
- 为什么decoder-only架构成为主流?
- MoE模型的训练挑战有哪些?
- Qwen3的“动态思考”机制是怎么实现的?
问题9:是否了解 PagedAttention?
🎯 问题难点分析
vLLM的核心技术,属于推理优化方向。难点在于理解其设计动机和工作原理。
🔍 面试官考察点
- 对推理加速技术的关注
- 能否解释清楚内存管理创新
✅ 标准回答
PagedAttention是vLLM提出的注意力算法,主要解决大模型推理时KV缓存的内存管理问题。传统方法为每个请求预先分配连续内存,导致大量碎片化和低利用率。
PagedAttention借鉴操作系统的虚拟内存分页思想,将KV缓存划分为固定大小的“块”(pages),允许这些块在内存中非连续存储。通过块表映射,实现按需分配和共享(如beam search中多个序列可共享部分缓存)。这大大减少了显存浪费,提高了批处理吞吐量。
💡 问题衍生
- PagedAttention和传统的Multi-Query Attention有什么关系?
- vLLM相比HuggingFace的generate加速多少?
- 如何在生产环境部署vLLM?
问题10:LoRA 中两个低秩矩阵是如何初始化的?
🎯 问题难点分析
细节题,考察对LoRA实现的熟悉程度。难点在于不仅要说出初始化方式,还要解释原因。

🔍 面试官考察点
- 是否真的用过LoRA
- 对微调技巧的理解
✅ 标准回答
LoRA通过两个低秩矩阵A和B来近似参数更新:ΔW = BA。初始化时:
- A矩阵用随机高斯分布初始化(均值为0,方差为σ²)。
- B矩阵初始化为零矩阵。
这样做的原因是:初始时BA=0,ΔW=0,LoRA分支对模型输出没有影响,模型行为与原始预训练模型完全一致,保证了训练的稳定性。随着训练进行,B逐渐学习,ΔW慢慢调整。
💡 问题衍生
- 为什么不用全零初始化A和B?
- LoRA的秩r如何选择?
- LoRA和AdaLoRA的区别?
问题11:PPO 中的四种模型分别是什么?各自的作用是什么?
🎯 问题难点分析
经典题,但容易漏掉Reference模型或混淆Reward和Critic。难点在于理清每个模型的角色。
🔍 面试官考察点
- 对RLHF流程的整体把握
- 能否区分不同网络的功能
✅ 标准回答
在RLHF的PPO训练中,通常涉及四个模型:
- Actor(策略模型):即我们正在训练的语言模型,根据输入生成回复。它是优化的主体。
- Critic(价值模型):估计当前状态的价值(即预期累积奖励),用于计算优势函数。它辅助Actor更新,通常是一个与Actor结构类似的模型(但输出标量)。
- Reward Model(奖励模型):基于人类偏好数据训练,给Actor生成的回复打分,提供奖励信号。Reward在训练中是固定的。
- Reference(参考模型):即原始的SFT模型(或预训练模型),用于计算KL散度,约束Actor不要偏离太远,防止奖励黑客和模式崩溃。
在训练中,Actor和Critic会更新,Reward和Reference保持冻结。
💡 问题衍生
- 为什么需要KL散度约束?
- Critic和Reward能不能合并?
- PPO训练中如何平衡KL和奖励?
写在最后
小红书这场面试下来,最大的感受是:基础要扎实,前沿要跟进,算法和工程要结合。这些问题既有经典理论(PPO、GAE),也有最新进展(GRPO、DSPO),还有工程细节(PagedAttention、LoRA初始化)。能完整答下来,确实需要平时多看论文、多动手。
如果你也在准备大模型算法岗,希望这份复盘对你有帮助。欢迎转发给需要的朋友,祝大家都能拿到心仪的offer!
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

最后
1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)