AI应用开发工程师基础知识:大模型基础52题系统整理
目录
- 大模型中的“微调”是什么
- 大模型中的“SFT”是什么
- 大模型中的“CoT(Chain of Thought)”是什么
- 大模型中的“RAG(Retrieval-Augmented Generation)”是什么
- 大模型中的“RL(Reinforcement Learning)”是什么
- 大模型中的“GRPO(Generative Rejection Preference Optimization)”是什么
- 大模型中的“MOE(Mixture of Experts)”是什么
- 大模型中的“Scaling(扩展规律)”是什么
- 大模型中的“软标签(Soft Label)”是什么
- 大模型中的“噪声(Noise)”是什么
- 大模型中的“温度(Temperature)”是什么
- 大模型中的“对齐(Alignment)”是什么
- 大模型中的“上下文窗口(Context Window)”是什么
- 大模型中的“泛化(Generalization)”是什么
- 什么是大语言模型(LLM)
- 大模型与传统机器学习模型的区别是什么
- 什么是 Transformer 架构
- 为什么 Transformer 能取代 RNN
- 什么是预训练
- 什么是参数量,比如7B、13B是什么意思
- 什么是 Prompt?为什么提示词能影响模型回答
- 什么是 Embedding
- 什么是 Attention 机制
- 什么是 Self-Attention
- 为什么要使用多头注意力(Multi-head Attention)
- 前馈神经网络(FFN)在 Transformer 中有什么作用
- 什么是位置编码(Positional Encoding)
- 什么是残差连接(Residual)
- 什么是损失函数(Loss)
- 什么是交叉熵(Cross Entropy)
- 什么是梯度消失
- 什么是混合精度训练(FP16、BF16)
- 模型训练中常见的优化器有哪些
- 什么是批量归一化(BatchNorm)
- 什么是指令微调(SFT)
- 什么是 DPO(Direct Preference Optimization)
- 大模型如何处理训练数据
- 什么是推理(Inference)
- 什么是 KV Cache
- 什么是 QPS(Queries per Second)
- 如何判断模型是否能部署在某显卡上
- 推理延迟和 Token 数量的关系
- 什么是 RAG(检索增强生成)
- RAG 能解决哪些大模型问题
- 什么是 Self-RAG
- 什么是 MoE 架构
- 什么是 Prompt Engineering
- Zero-shot、One-shot、Few-shot 的区别
- 什么是大模型“幻觉”问题
- 什么是 MCP(大模型上下文协议)
- 什么是 LangChain
- 什么是向量数据库
1)大模型中的“微调”是什么
微调是在预训练大模型的基础上,用较小规模、任务相关的数据继续训练,让模型更适合某个特定场景。它不是从零训练,而是“在已有能力上做定向强化”。
微调可以显著提升垂直领域表现,比如法律、医疗、客服、金融问答。相比全量重训,成本更低、周期更短,更适合企业落地。
微调本质是让通用模型向业务模型收敛,常见做法是SFT、LoRA、QLoRA。上线时我会重点关注数据质量、过拟合和泛化稳定性。
2)大模型中的“SFT”是什么
SFT(Supervised Fine-Tuning)是监督微调,用“指令-回答”成对数据训练模型。它让模型更懂人类指令格式,回答更可控。
SFT是大模型从“会说话”走向“会按要求做事”的关键步骤。很多AI应用的第一阶段都是先做SFT,再考虑偏好对齐。
SFT解决的是可用性问题,不是最终对齐终点。工程上我会先用高质量指令数据打底,再看是否需要DPO或RLHF。
3)大模型中的“CoT(Chain of Thought)”是什么
CoT是思维链提示方法,让模型按步骤推理并输出中间过程,而不是只给最终答案。它适合复杂推理任务。
CoT可以提升数学、逻辑、多条件判断任务准确率。它也提高可解释性,便于排查模型在哪一步推错了。
CoT是推理增强手段,但会增加token消耗和延迟。线上一般按场景开关,不会对所有请求强制开启。
4)大模型中的“RAG(Retrieval-Augmented Generation)”是什么
RAG是检索增强生成,流程是先检索外部知识,再基于检索内容生成答案。它把模型从闭卷变为开卷。
RAG能缓解知识过时和幻觉问题,尤其适合企业私域知识问答。它还能返回引用来源,提升可追溯性与可信度。
RAG是AI应用落地的核心中间层。常见链路是分块、向量检索、重排、生成和引用回传。
5)大模型中的“RL(Reinforcement Learning)”是什么
RL是强化学习,通过奖励信号优化策略。在大模型里常用于“让模型更符合人类偏好”的阶段。
RL能优化长链路决策质量,比如对话策略、工具调用路径和风格一致性。它让模型不仅“答得出”,还“答得更像人类想要的”。
我理解RL在大模型里主要用于对齐阶段,核心是奖励设计和稳定训练。实际项目会评估复杂度,很多团队会优先用DPO等更轻方案。
6)大模型中的“GRPO”是什么
GRPO可以理解为一种面向生成偏好优化的训练思路,强调通过候选输出比较和偏好反馈优化模型。它属于对齐方法的一类。
这类方法的价值在于能提升回答质量和偏好一致性,同时在某些场景比传统RL流程更简化。适合对输出风格有明确要求的产品。
我会把GRPO归到偏好优化框架里看,重点关注训练稳定性、样本构建方式和线上收益是否显著。
7)大模型中的“MOE(Mixture of Experts)”是什么
MoE是专家混合架构,通过门控网络动态激活部分专家子网络,而不是每次都调用全部参数。它是稀疏激活思想的典型实现。
MoE能在保持大参数规模能力的同时控制计算开销。对超大模型训练和推理性价比都很关键。
MoE的核心是“参数大但单次计算稀疏”。面试时我会补充负载均衡和专家路由稳定性这两个工程难点。
8)大模型中的“Scaling(扩展规律)”是什么
Scaling Law描述模型性能与参数量、数据量、训练算力之间的规律性关系。通常在一定范围内,规模增大性能会提升。
它帮助团队做资源预算和模型选型,避免盲目堆参数。对训练投入产出比评估非常重要。
Scaling不是越大越好,而是要看数据质量和算力是否匹配。工程上要做的是在预算内找到最优平衡点。
9)大模型中的“软标签(Soft Label)”是什么
软标签是概率分布形式的标签,不是单一硬类别。它能表达类别间相似性和不确定性。
软标签常用于知识蒸馏和鲁棒训练,能让学生模型学习到更丰富的判别信息。通常对泛化有帮助。
软标签的优势是包含“教师模型的暗知识”。在蒸馏场景中它比硬标签更能提升小模型效果。
10)大模型中的“噪声(Noise)”是什么
噪声是数据或训练过程中的无效、错误、冲突信息。它会干扰模型学习真实模式。
噪声高会导致模型不稳定、幻觉上升、对齐困难。数据清洗和质量治理是大模型工程里不可省略的一步。
我会把噪声治理放在训练前和训练中两层做,前者靠清洗去重,后者靠采样策略与损失设计控制影响。
11)大模型中的“温度(Temperature)”是什么
Temperature是采样温度参数,用来控制生成随机性。温度越低,输出越保守;温度越高,输出更发散。
温度直接影响稳定性与创造性平衡。问答场景常用低温,创作场景可以适度提高温度。
温度是推理侧最常用调参项之一。生产中通常会和top-p一起调,按任务类型设置不同默认值。
12)大模型中的“对齐(Alignment)”是什么
对齐是让模型输出与人类价值、偏好和安全规范一致的过程。目标是“有能力且可控”。
没有对齐的模型可能技术上很强,但在真实场景不可用。对齐决定了产品可上线性和风险水平。
对齐不仅是算法问题,也是产品和安全问题。常见路径是SFT打底,再做偏好优化和安全策略约束。
13)大模型中的“上下文窗口(Context Window)”是什么
上下文窗口是模型单次可处理的最大token长度。它决定模型一次能“看到”多少信息。
窗口越大,长文档理解和多轮对话能力越强,但成本和延迟也会上升。应用设计要平衡长度与性能。
上下文窗口不是越大越好,我会结合RAG和摘要策略减少无效上下文,避免推理成本失控。
14)大模型中的“泛化(Generalization)”是什么
泛化是模型在未见数据上的表现能力。它衡量模型是否学到可迁移规律,而非死记训练样本。
泛化能力决定线上真实效果。训练集高分但线上差,通常就是泛化不足。
我会通过独立验证集、对抗样本和线上A/B共同评估泛化,不会只看训练损失下降。
15)什么是大语言模型(LLM)
LLM是参数规模很大、基于海量语料预训练、具备自然语言理解与生成能力的模型。它的核心能力来自“规模+数据+训练范式”。
LLM让很多任务从“规则编程”转向“自然语言驱动”,显著降低应用开发门槛。它是AI应用层的通用引擎。
我把LLM看成通用认知接口,真正落地价值来自与RAG、工具调用和业务流程的组合。
16)大模型与传统机器学习模型的区别是什么
传统机器学习多是任务专用模型,大模型是先学通用能力再迁移到任务。两者在数据规模、训练范式和能力边界上差异明显。
大模型更适合复杂开放任务,传统模型在结构化高确定场景仍然高效。很多系统是两者协同而非替代。
我不会把大模型和传统模型对立看待。工程上通常是“LLM负责理解与生成,传统模型负责精确决策”。
17)什么是 Transformer 架构
Transformer是以注意力机制为核心的序列建模架构,包含多头注意力、前馈网络、残差连接和归一化等模块。
Transformer支持并行训练,扩展性强,是当前大模型主流基础架构。它让超大规模训练成为可能。
Transformer的本质优势是并行性和长依赖建模能力,这也是它能成为LLM底座的原因。
18)为什么 Transformer 能取代 RNN
RNN按时间步串行计算,难并行且长依赖难学。Transformer通过自注意力一次性建模全局关系。
在同等资源下,Transformer训练吞吐更高,效果上限也更好。工业级大模型几乎都基于它演化。
取代的关键不是“新”,而是“可扩展”。RNN在超长序列和超大规模训练里不占优势。
19)什么是预训练
预训练是在大规模无标注或弱标注语料上做自监督学习,让模型先获得通用语言能力。后续再微调到具体任务。
预训练把“通用能力”前置,降低下游任务样本需求。它是现代LLM成功的基础环节。
预训练负责打地基,微调负责装修。没有足够好的预训练,后续对齐和应用优化很难补回来。
20)什么是参数量,比如7B、13B是什么意思
7B、13B表示模型大约有70亿、130亿个可训练参数。参数量通常和能力上限相关,但不是唯一决定因素。
参数量直接影响显存占用、推理成本和部署门槛。选型时必须与业务SLA和预算联动考虑。
参数量是重要维度,但要结合数据质量、训练策略和推理优化综合评估,不能只看“大”。
21)什么是 Prompt?为什么提示词能影响模型回答
Prompt是给模型的输入指令和上下文。模型按条件概率生成,Prompt改变了条件,自然改变输出。
在不改模型参数的前提下,Prompt能显著影响质量、格式和风格。它是最轻量、最快速的优化手段。
Prompt工程本质是“输入控制输出”。线上通常要模板化、版本化,并配合评测做迭代。
22)什么是 Embedding
Embedding是把文本映射成稠密向量表示,让机器能在向量空间里比较语义相似度。它是语义检索的基础。
向量化后可做召回、聚类、去重、推荐和RAG检索。很多AI应用底层都离不开Embedding。
Embedding不是为了“生成”,而是为了“检索和表示”。RAG质量很大程度取决于Embedding质量。
23)什么是 Attention 机制
Attention让模型在处理当前token时,动态关注输入序列中更相关的位置。它是“按重要性分配注意力”。
注意力机制显著提升了长依赖建模能力。它让模型不再平均处理所有信息,而是学会“重点阅读”。
Attention可以理解为可学习的信息路由器。Transformer的强大能力本质上来自这套路由机制。
24)什么是 Self-Attention
Self-Attention是在同一序列内部计算注意力。每个token都会参考其他token来更新自身表示。
它能在单层中建立全局依赖关系,避免RNN长链传播损失。对语言理解和生成非常关键。
Self-Attention把“局部递推”改成“全局交互”,这是性能跃迁的核心。
25)为什么要使用多头注意力(Multi-head Attention)
多头注意力把注意力计算拆成多个子空间并行执行,每个头关注不同类型关系。最后再融合。
多头机制提升表达丰富度,让模型同时捕捉语法、语义、指代等不同模式。通常比单头更稳定有效。
多头的意义是“分工协作”,不是简单重复计算。不同头学习到的关注模式往往互补。
26)前馈神经网络(FFN)在 Transformer 中有什么作用
FFN位于注意力层后,对每个位置做非线性变换和特征重组。它提升表示能力和模型容量。
只有注意力不够,FFN负责把上下文融合后的特征进一步抽象。它在参数量中占比也很可观。
我会把Attention看成“信息聚合”,FFN看成“信息加工”,两者组合才构成完整表达能力。
27)什么是位置编码(Positional Encoding)
位置编码给每个token注入位置信息,因为Transformer本身不具备顺序感。它可以是固定编码或可学习编码。
没有位置编码,模型很难区分“我打你”和“你打我”这类顺序敏感语义。它是序列理解必要条件。
位置编码解决的是“序信息缺失”问题,是Transformer从集合处理走向序列建模的关键补丁。
28)什么是残差连接(Residual)
残差连接是把层输入直接加到层输出上,形成跳连。它帮助信息和梯度更顺畅传播。
残差显著提升深层网络可训练性,减轻梯度消失和性能退化。没有它,大模型训练稳定性会下降。
残差是深层网络的稳定器。它不是提升上限的唯一因素,但对可训练性至关重要。
29)什么是损失函数(Loss)
Loss是衡量模型预测与真实目标差距的函数,训练目标是最小化损失。它决定优化方向。
损失函数设计直接影响学习行为和最终效果。不同任务要匹配不同损失定义。
Loss不仅是指标,也是训练“指挥棒”。选错损失,模型可能学到错误目标。
30)什么是交叉熵(Cross Entropy)
交叉熵衡量两个概率分布差异,常用于分类和语言建模。预测分布越接近真实分布,交叉熵越小。
交叉熵与最大似然目标一致,优化性质好,是LLM训练最常用损失之一。
在语言模型里本质是“让正确token概率更高”。训练时常配合label smoothing等策略提升鲁棒性。
31)什么是梯度消失
梯度消失是反向传播到前层时梯度过小,导致参数几乎不更新。深层网络早期特别常见。
梯度消失会导致训练慢、收敛差、性能上不去。架构和初始化设计都要围绕它做缓解。
现代网络通过残差、归一化和激活函数改进大幅缓解梯度问题,但长深网络仍需监控训练稳定性。
32)什么是混合精度训练(FP16、BF16)
混合精度训练是在保证精度可接受前提下,使用低精度计算(FP16/BF16)加速训练并节省显存。
它显著提升训练吞吐,是大模型工程标配。BF16通常在数值稳定性上更友好。
混合精度的核心是“速度和稳定性的平衡”。实践上会配合loss scaling和稳定性监控。
33)模型训练中常见的优化器有哪些
常见优化器有SGD、Adam、AdamW等。大模型训练中AdamW使用最广。
优化器决定收敛速度、稳定性和泛化效果。它与学习率策略、权重衰减必须联动调优。
大模型里我优先关注AdamW+学习率调度组合。很多训练问题本质是优化超参问题。
34)什么是批量归一化(BatchNorm)
BatchNorm通过对批次特征做归一化稳定训练。它在CNN时代非常常见。
在Transformer/LLM中更常见的是LayerNorm,因为序列建模和小批次场景下LayerNorm更稳。理解两者差异很重要。
问到BatchNorm时我会补一句:LLM里主流是LayerNorm,不是BatchNorm,这是架构实践差异。
35)什么是指令微调(SFT)
指令微调是SFT在对话和任务执行场景的具体体现,目标是让模型按指令完成任务并保持格式规范。
它直接决定“模型听不听话”。对客服、Copilot、智能助手类产品至关重要。
指令微调重点不在数据量,而在数据质量和覆盖。要覆盖真实用户问法和边界场景。
36)什么是 DPO(Direct Preference Optimization)
DPO是一种基于偏好对数据的直接优化方法,不走复杂强化学习回路。它通过“优答胜过劣答”的目标更新模型。
DPO实现成本相对低,训练流程更简洁,很多团队把它作为RLHF替代或补充方案。
DPO优势是工程落地快、训练稳定性相对好。关键在偏好数据质量和配对策略。
37)大模型如何处理训练数据
训练数据处理通常包含采集、清洗、去重、质量筛选、脱敏、标注格式化、采样配比和版本管理。
数据质量决定上限,坏数据会把模型能力拉低。数据工程往往比模型结构更影响最终效果。
我会把数据管线当成核心资产建设,重点做质量评估、去重和分布平衡,而不是只追求规模。
38)什么是推理(Inference)
推理是模型上线后根据输入生成输出的过程。它只做前向计算,不更新参数。
用户体验主要受推理阶段影响,延迟、吞吐、稳定性都在这里体现。推理优化是应用工程主战场。
训练决定上限,推理决定体验。真实产品里推理优化的优先级通常非常高。
39)什么是 KV Cache
KV Cache是缓存历史token对应的Key/Value,避免每步重复计算。它是自回归推理加速核心技术。
使用KV Cache后,长对话场景延迟可显著下降。代价是显存占用上升,需要做容量管理。
KV Cache是“用显存换速度”。在多并发场景要重点评估显存压力和回收策略。
40)什么是 QPS(Queries per Second)
QPS表示系统每秒可处理请求数量,是吞吐能力核心指标之一。
QPS直接关系服务容量和成本核算。模型服务部署、扩容、限流都依赖它。
我会把QPS和P95延迟一起看。高QPS但高延迟或高失败率,业务价值并不成立。
41)如何判断模型是否能部署在某显卡上
核心是估算显存需求是否小于可用显存,包括模型权重、KV缓存、激活和框架开销。
这决定了部署方案是单卡、多卡、量化还是模型裁剪。错误估算会导致服务不稳定甚至无法启动。
我会先估参数显存,再估并发下KV Cache,再留系统冗余。必要时用4bit/8bit量化降低门槛。
42)推理延迟和 Token 数量的关系
推理延迟通常随输入和输出token数增加而上升。输入影响prefill阶段,输出影响decode阶段。
控制上下文长度和生成长度是优化延迟成本的直接手段。很多线上策略本质就是token预算管理。
延迟优化我会分两段做:缩短输入上下文和提高解码效率,两者都要看。
43)什么是 RAG(检索增强生成)
RAG是“检索+生成”组合架构。模型不只依赖参数记忆,还依赖实时检索到的外部知识。
它显著提升事实性和时效性,是企业知识问答最常见范式。还能做引用追踪,支持审核和复盘。
我会把RAG看成AI应用可用性的底层保障,而不是锦上添花模块。
44)RAG 能解决哪些大模型问题
RAG主要解决知识过时、私域知识缺失、事实不可追溯和幻觉高发等问题。
它把“模型能力”与“企业知识资产”连接起来,让答案更可靠、更可运营。对B端业务尤其关键。
RAG不是万能,但在知识密集场景是性价比最高的增强方案,收益通常立竿见影。
45)什么是 Self-RAG
Self-RAG是让模型在生成过程中自评估“是否需要检索”“检索证据是否足够”的方法。它强化了检索与生成协同。
Self-RAG可减少无效检索、提升证据使用质量,并在复杂问答中提高稳健性。它是RAG向“自适应检索”演进的一步。
Self-RAG本质是把检索决策内生到推理流程里,重点价值在质量稳定而不只是准确率峰值。
46)什么是 MoE 架构
MoE通过专家网络和门控路由实现稀疏激活。每次请求只激活部分专家,降低计算量。
适合做超大参数模型的训练和推理优化。它在“能力上限”和“计算成本”间提供更优解。
面试问MoE时我会强调两点:稀疏计算收益和路由均衡挑战,这样更工程化。
47)什么是 Prompt Engineering
Prompt Engineering是系统化设计提示词,以获得稳定、可控、高质量输出的方法论。
它是上线前最快见效的优化手段,可显著提升回答格式一致性、任务完成率和安全性。
我会做模板化Prompt、变量化填充和自动评测闭环,让提示词优化从经验驱动变成数据驱动。
48)Zero-shot、One-shot、Few-shot 的区别
Zero-shot不给示例,One-shot给一个示例,Few-shot给多个示例。示例越多,模型越容易对齐任务格式。
这三种方式是成本与效果的平衡工具。简单任务常Zero-shot,复杂格式任务更依赖Few-shot。
我会按任务复杂度选shot策略,并关注上下文成本,避免为了效果无限堆示例。
49)什么是大模型“幻觉”问题
幻觉是模型生成看似合理但事实错误或无依据的内容。它是生成模型常见风险。
幻觉直接影响用户信任和业务风险,尤其在医疗、金融、法律等场景不可接受。治理是上线前必做项。
我会用RAG、工具调用、规则校验和拒答机制组合治理幻觉,不依赖单一手段。
50)什么是 MCP(大模型上下文协议)
MCP可理解为模型与外部工具、资源、上下文系统通信的标准化协议思路。它强调统一接口和可组合性。
标准化协议降低工具接入成本,提升Agent生态扩展效率。对多工具协同场景很关键。
MCP的价值在工程标准化,不是单一模型能力提升。它解决的是“系统连接效率”问题。
51)什么是 LangChain
LangChain是用于构建LLM应用流程的开发框架,覆盖Prompt、检索器、工具、Agent、链路编排等能力。
它可以加速原型开发和模块化集成,减少从0搭建编排系统的工作量。适合快速迭代场景。
我会把LangChain当作工程框架,而不是算法能力本身。选它的理由是开发效率和生态集成。
52)什么是向量数据库
向量数据库用于存储和检索高维向量,支持近似最近邻搜索。它是Embedding检索系统核心组件。
在RAG中,向量数据库决定召回效率和可扩展性。它直接影响问答质量和系统响应时间。
向量库选型我会关注召回质量、索引类型、更新能力和运维成本,不只看单点性能。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)