大模型面试必备：小白也能收藏的算法核心考点解析

程序汪小陈

506人浏览 · 2026-03-19 09:52:29

程序汪小陈 · 2026-03-19 09:52:29 发布

本文整理了小红书大模型算法实习面试中的核心问题及解答，涵盖LLaMA改进、微调与对齐区别、对齐时机判断、四种对齐算法比较、位置编码原理、GAE与重要性采样、损失采样、主流大模型架构、PagedAttention和LoRA初始化等。内容注重基础理解与工程落地，适合准备大模型算法岗的同学复习和收藏。

请添加图片描述

问题1：LLaMA 相比原始 Transformer 架构有哪些改进？

🎯 问题难点分析

这道题看着基础，但想拿高分不容易。很多人能说出RMSNorm、SwiGLU，但容易漏掉RoPE、去偏置等细节。难点在于既要全面又要精准，最好还能说明为什么这些改进有效。

🔍 面试官考察点

是否读过LLaMA原始论文
对Transformer变体的敏感度
能否从原理层面解释改进动机

✅ 标准回答

LLaMA相比原始Transformer主要有以下改进：

Pre-normalization with RMSNorm：用RMSNorm替代LayerNorm，放在每个子层之前。RMSNorm计算更简单，训练更稳定，且去掉了中心化操作，保留了幅度信息。
SwiGLU激活函数：用SwiGLU替代ReLU，本质是GLU的变体，能引入更多非线性，提升模型表达能力。LLaMA中的实现是 FFN = (swish(xW) * xV) W2。
RoPE旋转位置编码：采用相对位置编码，通过旋转矩阵注入位置信息，比绝对位置编码有更好的长度外推性。
去掉偏置项：在Linear层和LayerNorm中去掉bias，减少参数和计算量，对效果影响不大但能省显存。
优化器设置：使用AdamW，并采用余弦学习率调度和梯度裁剪。

💡 问题衍生

RMSNorm和LayerNorm的本质区别是什么？
RoPE是如何实现相对位置编码的？
SwiGLU相比ReLU和GELU的优势在哪里？

问题2：微调（Fine-tuning）和对齐（Alignment）的区别？

🎯 问题难点分析

很多人把这两个概念混为一谈。难点在于清晰界定两者的目标和手段，并说明它们在LLM训练流程中的先后关系。

🔍 面试官考察点

对LLM全流程训练的理解
能否区分“任务能力”和“行为偏好”

✅ 标准回答

微调（Fine-tuning）和对齐（Alignment）是LLM训练的两个不同阶段：

微调：通常指SFT，用高质量的任务数据（问答、指令等）继续训练预训练模型，目的是让模型学会遵循指令、完成特定任务。它优化的是任务准确率。
对齐：指RLHF等过程，通过人类反馈优化模型行为，让模型生成符合人类偏好的内容（如更有用、更无害、更诚实）。它优化的是主观偏好。

两者关系：先微调让模型“能做事”，再对齐让模型“好好做事”。微调是基础，对齐是升华。

💡 问题衍生

如果先对齐再微调会怎样？
对齐阶段的数据和微调阶段的数据有什么区别？
RLHF中的奖励模型是如何训练的？

问题3：模型微调到什么程度才需要进行对齐？

🎯 问题难点分析

这道题没有标准答案，考察的是工程经验和判断力。难点在于给出合理的阈值或判断依据。

🔍 面试官考察点

对模型训练中“能力”和“安全”平衡的理解
能否结合实际场景分析

✅ 标准回答

对齐并不是微调到某个特定程度才开始的，而是一个独立于微调的优化环节。通常的做法是：

先进行SFT，让模型具备基本的指令跟随能力和任务能力。
评估模型在开放域的表现：如果模型已经能正确完成任务，但偶尔输出有害、偏见或不期望的内容，就需要对齐来“纠偏”。
如果SFT后模型在目标任务上效果达标，且没有明显的不良行为，可以不进行对齐（比如专用领域的封闭任务）。
对于通用对话模型，SFT后几乎一定会做对齐，因为开放场景下不可控因素太多。

所以，“到什么程度”更多取决于应用场景和风险容忍度，而不是模型在SFT上的指标。

💡 问题衍生

如果SFT后模型已经很好，再做对齐会不会破坏性能？
有没有可能在SFT阶段就融入对齐目标？
如何衡量对齐的效果？

问题4：四种对齐算法的区别：PPO、DPO、GRPO、DSPO？

🎯 问题难点分析

这道题是进阶分水岭。PPO和DPO是经典，GRPO是DeepSeek的创新，DSPO是2025年新出的算法（可能指Direct Step-level Optimization或类似变体）。难点在于不仅要说出区别，还要理解每种算法的设计动机和适用场景。

🔍 面试官考察点

对RLHF最新进展的跟进程度
能否从原理层面比较算法的优劣
是否理解算法背后的trade-off

✅ 标准回答

这四种算法代表了RLHF从“重资源精细控制”到“轻量高效”再到“理论修正”的演进路径：

PPO（Proximal Policy Optimization）：标准RLHF算法，需要维护Actor、Critic、Reward Model、Reference四个模型。Critic提供每个token的实时价值估计，优势函数计算精细，但显存占用大，训练复杂。
DPO（Direct Preference Optimization）：斯坦福提出，直接对偏好概率建模，将RL目标转化为监督学习损失。无需Reward Model和RL流程，只需要两个模型（Actor和Reference），训练简单稳定，但对数据质量要求极高。
GRPO（Group Relative Policy Optimization）：DeepSeek推出，去掉Critic，对同一个问题采样多个答案，用组内奖励的均值和标准差标准化作为优势函数。特别适合数学、代码等可客观评分的任务，显存占用比PPO降低40%以上，但token级的重要性采样存在理论缺陷。
DSPO（Direct Step-level Policy Optimization / 或更广义的变体）：可能是2025年提出的新方法，核心思想是在step级别进行优化，比DPO的序列级更精细，但比PPO的token级更粗。具体实现因论文而异，但通常旨在平衡效率和稳定性。

💡 问题衍生

GRPO的组大小怎么选？
DSPO相比GRPO的改进点在哪里？
DPO的损失函数是如何推导出来的？

问题5：位置编码的作用？为什么相对位置编码通常比绝对位置编码更好？

🎯 问题难点分析

基础但需要深度。难点在于不仅要说出区别，还要解释“为什么更好”，比如外推性、平移不变性。

🔍 面试官考察点

对Transformer位置信息的本质理解
是否了解RoPE等现代位置编码

✅ 标准回答

位置编码的作用是给Transformer注入序列中token的顺序信息，因为自注意力本身是位置无关的。

绝对位置编码（如正弦编码、可学习嵌入）将每个位置映射到一个固定向量，但存在两个问题：

长度外推差：训练时见过的最大长度限制了泛化能力。
位置信息是绝对距离，难以捕捉相对关系。

相对位置编码（如RoPE、T5的相对偏置）关注token之间的相对距离，让模型更容易泛化到更长的序列，且对输入的轻微平移具有一定不变性。以RoPE为例，它通过旋转矩阵乘上token的嵌入，使得内积结果只依赖于相对位置，从而自然地建模了相对关系。

💡 问题衍生

RoPE的具体实现原理是什么？
如何评估一种位置编码的外推能力？
还有哪些相对位置编码的变体？

问题6：GAE（Generalized Advantage Estimation）以及重要性采样（Importance Sampling）？

🎯 问题难点分析

强化学习的基础概念，但需要理解它们在PPO等算法中的具体应用。难点在于公式背后的直觉。

🔍 面试官考察点

对RL基础理论的掌握
能否将理论和实际算法联系起来

✅ 标准回答

GAE：广义优势估计，用于在强化学习中平衡优势估计的偏差和方差。它通过TD误差的指数加权平均来估计优势函数： [ \hat{A}t = \sum{l=0}^{\infty} (\gamma\lambda)^l \delta_{t+l} ] 其中δ是TD误差，λ是平衡参数（λ=0时等价于单步TD，方差小偏差大；λ=1时等价于蒙特卡洛，偏差小方差大）。GAE在PPO中用于计算每个token的优势值。

重要性采样：当从旧策略采样数据来更新新策略时，由于分布不匹配，需要用重要性权重修正： [ w = \frac\pi_{\text{new}}(as)\pi_{\text{old}}(as)] 在PPO中，重要性采样用于构建目标函数，并通过clip操作限制权重范围，防止更新步长过大。

💡 问题衍生

GAE中的λ如何选择？
PPO中为什么要对重要性权重进行裁剪？
重要性采样在DPO中是否被使用？

问题7：损失采样（Loss Sampling）相关问题？

🎯 问题难点分析

“损失采样”这个词可能有歧义，需要结合上下文理解。可能指训练中根据损失大小调整样本权重，或RL中的样本筛选。难点在于准确理解面试官意图。

🔍 面试官考察点

对训练技巧的掌握
能否灵活应对不明确的问题

✅ 标准回答

损失采样通常指在训练过程中，根据样本的损失值对样本进行加权或重新采样，让模型更关注那些“难例”或“重要样本”。常见做法：

计算每个样本的损失，归一化后作为采样概率。
或者直接对损失大的样本赋予更高权重（如Focal Loss的思想）。

在RLHF中，有时也会对生成的样本根据奖励或优势进行筛选，只保留高质量样本用于训练，这也是一种损失采样的变体。

如果面试官追问，可以进一步说明：损失采样能加速收敛，防止模型被简单样本淹没，但需要注意避免过拟合噪声样本。

💡 问题衍生

如何避免损失采样导致训练不稳定？
损失采样和主动学习的区别？
在RL中如何实现基于优势的样本筛选？

问题8：目前了解哪些大模型架构？例如 LLaMA 等。

🎯 问题难点分析

开放性问题，考察知识广度。难点在于有条理地列举，并能简要说明特点。

🔍 面试官考察点

对业界主流模型的关注度
能否归纳不同架构的适用场景

✅ 标准回答

我了解的主流大模型架构包括：

LLaMA系列：基于Transformer decoder，采用RMSNorm、SwiGLU、RoPE，是目前开源社区的基石。
GPT系列：OpenAI的decoder-only架构，强调自回归生成。
T5：encoder-decoder架构，将所有NLP任务统一为文本到文本的形式。
BERT：encoder-only，适合理解型任务。
混合专家模型（MoE）：如Mixtral 8x7B、DeepSeek-V3，通过稀疏激活专家，用更少计算量实现大参数量。
多模态架构：如CLIP、Flamingo、LLaVA，融合视觉和语言。
最新的Qwen3、DeepSeek-R1：在推理和效率上有创新，如动态思考机制、GRPO等。

💡 问题衍生

为什么decoder-only架构成为主流？
MoE模型的训练挑战有哪些？
Qwen3的“动态思考”机制是怎么实现的？

问题9：是否了解 PagedAttention？

🎯 问题难点分析

vLLM的核心技术，属于推理优化方向。难点在于理解其设计动机和工作原理。

🔍 面试官考察点

对推理加速技术的关注
能否解释清楚内存管理创新

✅ 标准回答

PagedAttention是vLLM提出的注意力算法，主要解决大模型推理时KV缓存的内存管理问题。传统方法为每个请求预先分配连续内存，导致大量碎片化和低利用率。

PagedAttention借鉴操作系统的虚拟内存分页思想，将KV缓存划分为固定大小的“块”（pages），允许这些块在内存中非连续存储。通过块表映射，实现按需分配和共享（如beam search中多个序列可共享部分缓存）。这大大减少了显存浪费，提高了批处理吞吐量。

💡 问题衍生

PagedAttention和传统的Multi-Query Attention有什么关系？
vLLM相比HuggingFace的generate加速多少？
如何在生产环境部署vLLM？

问题10：LoRA 中两个低秩矩阵是如何初始化的？

🎯 问题难点分析

细节题，考察对LoRA实现的熟悉程度。难点在于不仅要说出初始化方式，还要解释原因。

🔍 面试官考察点

是否真的用过LoRA
对微调技巧的理解

✅ 标准回答

LoRA通过两个低秩矩阵A和B来近似参数更新：ΔW = BA。初始化时：

A矩阵用随机高斯分布初始化（均值为0，方差为σ²）。
B矩阵初始化为零矩阵。

这样做的原因是：初始时BA=0，ΔW=0，LoRA分支对模型输出没有影响，模型行为与原始预训练模型完全一致，保证了训练的稳定性。随着训练进行，B逐渐学习，ΔW慢慢调整。

💡 问题衍生

为什么不用全零初始化A和B？
LoRA的秩r如何选择？
LoRA和AdaLoRA的区别？

问题11：PPO 中的四种模型分别是什么？各自的作用是什么？

🎯 问题难点分析

经典题，但容易漏掉Reference模型或混淆Reward和Critic。难点在于理清每个模型的角色。

🔍 面试官考察点

对RLHF流程的整体把握
能否区分不同网络的功能

✅ 标准回答

在RLHF的PPO训练中，通常涉及四个模型：

Actor（策略模型）：即我们正在训练的语言模型，根据输入生成回复。它是优化的主体。
Critic（价值模型）：估计当前状态的价值（即预期累积奖励），用于计算优势函数。它辅助Actor更新，通常是一个与Actor结构类似的模型（但输出标量）。
Reward Model（奖励模型）：基于人类偏好数据训练，给Actor生成的回复打分，提供奖励信号。Reward在训练中是固定的。
Reference（参考模型）：即原始的SFT模型（或预训练模型），用于计算KL散度，约束Actor不要偏离太远，防止奖励黑客和模式崩溃。

在训练中，Actor和Critic会更新，Reward和Reference保持冻结。

💡 问题衍生

为什么需要KL散度约束？
Critic和Reward能不能合并？
PPO训练中如何平衡KL和奖励？

写在最后

小红书这场面试下来，最大的感受是：基础要扎实，前沿要跟进，算法和工程要结合。这些问题既有经典理论（PPO、GAE），也有最新进展（GRPO、DSPO），还有工程细节（PagedAttention、LoRA初始化）。能完整答下来，确实需要平时多看论文、多动手。

如果你也在准备大模型算法岗，希望这份复盘对你有帮助。欢迎转发给需要的朋友，祝大家都能拿到心仪的offer！

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI- RAG笔记06 - 系统评估

本文学习来源个人学习笔记整理总结，有错误或者遗漏希望大家指正。

AtomGit开源社区

AutoGLM 手机自动化测试滑动性能优化

摘要：本文针对AutoGLM大模型移动端自动化测试框架中存在的滑动操作延迟大、性能数据碎片化问题，提出全流程优化方案。通过修改5个核心文件：1）重构scenario_presets.yaml测试场景配置，采用结构化指令替代自然语言描述；2）重写mobile_prompt_zh.py提示词，限制AI自主决策；3）改造device_control.py底层滑动逻辑，支持零间隔批量执行；4）优化task

AtomGit开源社区

【极简监控】跨系统甩锅的终结者！AI 助力魔改 SkyWalking 插件，让 HTTP 调用入参无所遁形

本文针对跨系统协作中下游服务报错时难以追溯请求参数的痛点，介绍了如何基于已有的 SkyWalking-Local 极简监控底座，借助 AI 大模型能力对 SkyWalking 原生 HTTP 客户端插件进行"外科手术式"魔改。通过扩展插件动态抓取 HTTP 请求体参数，并设计动态启停与长度截断机制保障生产环境性能，实现了在故障排查时能精准还原调用现场，彻底终结上下游开发团队间的"盲盒式"对峙与无休

AtomGit开源社区

所有评论(0)

查看更多评论

程序汪小陈

@Z987421

已为社区贡献243条内容

大模型面试必备：小白也能收藏的算法核心考点解析

程序汪小陈

问题1：LLaMA 相比原始 Transformer 架构有哪些改进？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题2：微调（Fine-tuning）和对齐（Alignment）的区别？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题3：模型微调到什么程度才需要进行对齐？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题4：四种对齐算法的区别：PPO、DPO、GRPO、DSPO？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题5：位置编码的作用？为什么相对位置编码通常比绝对位置编码更好？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题6：GAE（Generalized Advantage Estimation）以及重要性采样（Importance Sampling）？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题7：损失采样（Loss Sampling）相关问题？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题8：目前了解哪些大模型架构？例如 LLaMA 等。

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题9：是否了解 PagedAttention？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题10：LoRA 中两个低秩矩阵是如何初始化的？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

问题11：PPO 中的四种模型分别是什么？各自的作用是什么？

🎯 问题难点分析

🔍 面试官考察点

✅ 标准回答

💡 问题衍生

写在最后

最后

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

3、 入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

3、这些资料真的有用吗？

所有评论(0)

温馨提示：您尚未绑定手机号

程序汪小陈

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）