目录

  1. 大模型中的“微调”是什么
  2. 大模型中的“SFT”是什么
  3. 大模型中的“CoT(Chain of Thought)”是什么
  4. 大模型中的“RAG(Retrieval-Augmented Generation)”是什么
  5. 大模型中的“RL(Reinforcement Learning)”是什么
  6. 大模型中的“GRPO(Generative Rejection Preference Optimization)”是什么
  7. 大模型中的“MOE(Mixture of Experts)”是什么
  8. 大模型中的“Scaling(扩展规律)”是什么
  9. 大模型中的“软标签(Soft Label)”是什么
  10. 大模型中的“噪声(Noise)”是什么
  11. 大模型中的“温度(Temperature)”是什么
  12. 大模型中的“对齐(Alignment)”是什么
  13. 大模型中的“上下文窗口(Context Window)”是什么
  14. 大模型中的“泛化(Generalization)”是什么
  15. 什么是大语言模型(LLM)
  16. 大模型与传统机器学习模型的区别是什么
  17. 什么是 Transformer 架构
  18. 为什么 Transformer 能取代 RNN
  19. 什么是预训练
  20. 什么是参数量,比如7B、13B是什么意思
  21. 什么是 Prompt?为什么提示词能影响模型回答
  22. 什么是 Embedding
  23. 什么是 Attention 机制
  24. 什么是 Self-Attention
  25. 为什么要使用多头注意力(Multi-head Attention)
  26. 前馈神经网络(FFN)在 Transformer 中有什么作用
  27. 什么是位置编码(Positional Encoding)
  28. 什么是残差连接(Residual)
  29. 什么是损失函数(Loss)
  30. 什么是交叉熵(Cross Entropy)
  31. 什么是梯度消失
  32. 什么是混合精度训练(FP16、BF16)
  33. 模型训练中常见的优化器有哪些
  34. 什么是批量归一化(BatchNorm)
  35. 什么是指令微调(SFT)
  36. 什么是 DPO(Direct Preference Optimization)
  37. 大模型如何处理训练数据
  38. 什么是推理(Inference)
  39. 什么是 KV Cache
  40. 什么是 QPS(Queries per Second)
  41. 如何判断模型是否能部署在某显卡上
  42. 推理延迟和 Token 数量的关系
  43. 什么是 RAG(检索增强生成)
  44. RAG 能解决哪些大模型问题
  45. 什么是 Self-RAG
  46. 什么是 MoE 架构
  47. 什么是 Prompt Engineering
  48. Zero-shot、One-shot、Few-shot 的区别
  49. 什么是大模型“幻觉”问题
  50. 什么是 MCP(大模型上下文协议)
  51. 什么是 LangChain
  52. 什么是向量数据库

1)大模型中的“微调”是什么

微调是在预训练大模型的基础上,用较小规模、任务相关的数据继续训练,让模型更适合某个特定场景。它不是从零训练,而是“在已有能力上做定向强化”。

微调可以显著提升垂直领域表现,比如法律、医疗、客服、金融问答。相比全量重训,成本更低、周期更短,更适合企业落地。

微调本质是让通用模型向业务模型收敛,常见做法是SFT、LoRA、QLoRA。上线时我会重点关注数据质量、过拟合和泛化稳定性。

2)大模型中的“SFT”是什么

SFT(Supervised Fine-Tuning)是监督微调,用“指令-回答”成对数据训练模型。它让模型更懂人类指令格式,回答更可控。

SFT是大模型从“会说话”走向“会按要求做事”的关键步骤。很多AI应用的第一阶段都是先做SFT,再考虑偏好对齐。

SFT解决的是可用性问题,不是最终对齐终点。工程上我会先用高质量指令数据打底,再看是否需要DPO或RLHF。

3)大模型中的“CoT(Chain of Thought)”是什么

CoT是思维链提示方法,让模型按步骤推理并输出中间过程,而不是只给最终答案。它适合复杂推理任务。

CoT可以提升数学、逻辑、多条件判断任务准确率。它也提高可解释性,便于排查模型在哪一步推错了。

CoT是推理增强手段,但会增加token消耗和延迟。线上一般按场景开关,不会对所有请求强制开启。

4)大模型中的“RAG(Retrieval-Augmented Generation)”是什么

RAG是检索增强生成,流程是先检索外部知识,再基于检索内容生成答案。它把模型从闭卷变为开卷。

RAG能缓解知识过时和幻觉问题,尤其适合企业私域知识问答。它还能返回引用来源,提升可追溯性与可信度。

RAG是AI应用落地的核心中间层。常见链路是分块、向量检索、重排、生成和引用回传。

5)大模型中的“RL(Reinforcement Learning)”是什么

RL是强化学习,通过奖励信号优化策略。在大模型里常用于“让模型更符合人类偏好”的阶段。

RL能优化长链路决策质量,比如对话策略、工具调用路径和风格一致性。它让模型不仅“答得出”,还“答得更像人类想要的”。

我理解RL在大模型里主要用于对齐阶段,核心是奖励设计和稳定训练。实际项目会评估复杂度,很多团队会优先用DPO等更轻方案。

6)大模型中的“GRPO”是什么

GRPO可以理解为一种面向生成偏好优化的训练思路,强调通过候选输出比较和偏好反馈优化模型。它属于对齐方法的一类。

这类方法的价值在于能提升回答质量和偏好一致性,同时在某些场景比传统RL流程更简化。适合对输出风格有明确要求的产品。

我会把GRPO归到偏好优化框架里看,重点关注训练稳定性、样本构建方式和线上收益是否显著。

7)大模型中的“MOE(Mixture of Experts)”是什么

MoE是专家混合架构,通过门控网络动态激活部分专家子网络,而不是每次都调用全部参数。它是稀疏激活思想的典型实现。

MoE能在保持大参数规模能力的同时控制计算开销。对超大模型训练和推理性价比都很关键。

MoE的核心是“参数大但单次计算稀疏”。面试时我会补充负载均衡和专家路由稳定性这两个工程难点。

8)大模型中的“Scaling(扩展规律)”是什么

Scaling Law描述模型性能与参数量、数据量、训练算力之间的规律性关系。通常在一定范围内,规模增大性能会提升。

它帮助团队做资源预算和模型选型,避免盲目堆参数。对训练投入产出比评估非常重要。

Scaling不是越大越好,而是要看数据质量和算力是否匹配。工程上要做的是在预算内找到最优平衡点。

9)大模型中的“软标签(Soft Label)”是什么

软标签是概率分布形式的标签,不是单一硬类别。它能表达类别间相似性和不确定性。

软标签常用于知识蒸馏和鲁棒训练,能让学生模型学习到更丰富的判别信息。通常对泛化有帮助。

软标签的优势是包含“教师模型的暗知识”。在蒸馏场景中它比硬标签更能提升小模型效果。

10)大模型中的“噪声(Noise)”是什么

噪声是数据或训练过程中的无效、错误、冲突信息。它会干扰模型学习真实模式。

噪声高会导致模型不稳定、幻觉上升、对齐困难。数据清洗和质量治理是大模型工程里不可省略的一步。

我会把噪声治理放在训练前和训练中两层做,前者靠清洗去重,后者靠采样策略与损失设计控制影响。

11)大模型中的“温度(Temperature)”是什么

Temperature是采样温度参数,用来控制生成随机性。温度越低,输出越保守;温度越高,输出更发散。

温度直接影响稳定性与创造性平衡。问答场景常用低温,创作场景可以适度提高温度。

温度是推理侧最常用调参项之一。生产中通常会和top-p一起调,按任务类型设置不同默认值。

12)大模型中的“对齐(Alignment)”是什么

对齐是让模型输出与人类价值、偏好和安全规范一致的过程。目标是“有能力且可控”。

没有对齐的模型可能技术上很强,但在真实场景不可用。对齐决定了产品可上线性和风险水平。

对齐不仅是算法问题,也是产品和安全问题。常见路径是SFT打底,再做偏好优化和安全策略约束。

13)大模型中的“上下文窗口(Context Window)”是什么

上下文窗口是模型单次可处理的最大token长度。它决定模型一次能“看到”多少信息。

窗口越大,长文档理解和多轮对话能力越强,但成本和延迟也会上升。应用设计要平衡长度与性能。

上下文窗口不是越大越好,我会结合RAG和摘要策略减少无效上下文,避免推理成本失控。

14)大模型中的“泛化(Generalization)”是什么

泛化是模型在未见数据上的表现能力。它衡量模型是否学到可迁移规律,而非死记训练样本。

泛化能力决定线上真实效果。训练集高分但线上差,通常就是泛化不足。

我会通过独立验证集、对抗样本和线上A/B共同评估泛化,不会只看训练损失下降。

15)什么是大语言模型(LLM)

LLM是参数规模很大、基于海量语料预训练、具备自然语言理解与生成能力的模型。它的核心能力来自“规模+数据+训练范式”。

LLM让很多任务从“规则编程”转向“自然语言驱动”,显著降低应用开发门槛。它是AI应用层的通用引擎。

我把LLM看成通用认知接口,真正落地价值来自与RAG、工具调用和业务流程的组合。

16)大模型与传统机器学习模型的区别是什么

传统机器学习多是任务专用模型,大模型是先学通用能力再迁移到任务。两者在数据规模、训练范式和能力边界上差异明显。

大模型更适合复杂开放任务,传统模型在结构化高确定场景仍然高效。很多系统是两者协同而非替代。

我不会把大模型和传统模型对立看待。工程上通常是“LLM负责理解与生成,传统模型负责精确决策”。

17)什么是 Transformer 架构

Transformer是以注意力机制为核心的序列建模架构,包含多头注意力、前馈网络、残差连接和归一化等模块。

Transformer支持并行训练,扩展性强,是当前大模型主流基础架构。它让超大规模训练成为可能。

Transformer的本质优势是并行性和长依赖建模能力,这也是它能成为LLM底座的原因。

18)为什么 Transformer 能取代 RNN

RNN按时间步串行计算,难并行且长依赖难学。Transformer通过自注意力一次性建模全局关系。

在同等资源下,Transformer训练吞吐更高,效果上限也更好。工业级大模型几乎都基于它演化。

取代的关键不是“新”,而是“可扩展”。RNN在超长序列和超大规模训练里不占优势。

19)什么是预训练

预训练是在大规模无标注或弱标注语料上做自监督学习,让模型先获得通用语言能力。后续再微调到具体任务。

预训练把“通用能力”前置,降低下游任务样本需求。它是现代LLM成功的基础环节。

预训练负责打地基,微调负责装修。没有足够好的预训练,后续对齐和应用优化很难补回来。

20)什么是参数量,比如7B、13B是什么意思

7B、13B表示模型大约有70亿、130亿个可训练参数。参数量通常和能力上限相关,但不是唯一决定因素。

参数量直接影响显存占用、推理成本和部署门槛。选型时必须与业务SLA和预算联动考虑。

参数量是重要维度,但要结合数据质量、训练策略和推理优化综合评估,不能只看“大”。

21)什么是 Prompt?为什么提示词能影响模型回答

Prompt是给模型的输入指令和上下文。模型按条件概率生成,Prompt改变了条件,自然改变输出。

在不改模型参数的前提下,Prompt能显著影响质量、格式和风格。它是最轻量、最快速的优化手段。

Prompt工程本质是“输入控制输出”。线上通常要模板化、版本化,并配合评测做迭代。

22)什么是 Embedding

Embedding是把文本映射成稠密向量表示,让机器能在向量空间里比较语义相似度。它是语义检索的基础。

向量化后可做召回、聚类、去重、推荐和RAG检索。很多AI应用底层都离不开Embedding。

Embedding不是为了“生成”,而是为了“检索和表示”。RAG质量很大程度取决于Embedding质量。

23)什么是 Attention 机制

Attention让模型在处理当前token时,动态关注输入序列中更相关的位置。它是“按重要性分配注意力”。

注意力机制显著提升了长依赖建模能力。它让模型不再平均处理所有信息,而是学会“重点阅读”。

Attention可以理解为可学习的信息路由器。Transformer的强大能力本质上来自这套路由机制。

24)什么是 Self-Attention

Self-Attention是在同一序列内部计算注意力。每个token都会参考其他token来更新自身表示。

它能在单层中建立全局依赖关系,避免RNN长链传播损失。对语言理解和生成非常关键。

Self-Attention把“局部递推”改成“全局交互”,这是性能跃迁的核心。

25)为什么要使用多头注意力(Multi-head Attention)

多头注意力把注意力计算拆成多个子空间并行执行,每个头关注不同类型关系。最后再融合。

多头机制提升表达丰富度,让模型同时捕捉语法、语义、指代等不同模式。通常比单头更稳定有效。

多头的意义是“分工协作”,不是简单重复计算。不同头学习到的关注模式往往互补。

26)前馈神经网络(FFN)在 Transformer 中有什么作用

FFN位于注意力层后,对每个位置做非线性变换和特征重组。它提升表示能力和模型容量。

只有注意力不够,FFN负责把上下文融合后的特征进一步抽象。它在参数量中占比也很可观。

我会把Attention看成“信息聚合”,FFN看成“信息加工”,两者组合才构成完整表达能力。

27)什么是位置编码(Positional Encoding)

位置编码给每个token注入位置信息,因为Transformer本身不具备顺序感。它可以是固定编码或可学习编码。

没有位置编码,模型很难区分“我打你”和“你打我”这类顺序敏感语义。它是序列理解必要条件。

位置编码解决的是“序信息缺失”问题,是Transformer从集合处理走向序列建模的关键补丁。

28)什么是残差连接(Residual)

残差连接是把层输入直接加到层输出上,形成跳连。它帮助信息和梯度更顺畅传播。

残差显著提升深层网络可训练性,减轻梯度消失和性能退化。没有它,大模型训练稳定性会下降。

残差是深层网络的稳定器。它不是提升上限的唯一因素,但对可训练性至关重要。

29)什么是损失函数(Loss)

Loss是衡量模型预测与真实目标差距的函数,训练目标是最小化损失。它决定优化方向。

损失函数设计直接影响学习行为和最终效果。不同任务要匹配不同损失定义。

Loss不仅是指标,也是训练“指挥棒”。选错损失,模型可能学到错误目标。

30)什么是交叉熵(Cross Entropy)

交叉熵衡量两个概率分布差异,常用于分类和语言建模。预测分布越接近真实分布,交叉熵越小。

交叉熵与最大似然目标一致,优化性质好,是LLM训练最常用损失之一。

在语言模型里本质是“让正确token概率更高”。训练时常配合label smoothing等策略提升鲁棒性。

31)什么是梯度消失

梯度消失是反向传播到前层时梯度过小,导致参数几乎不更新。深层网络早期特别常见。

梯度消失会导致训练慢、收敛差、性能上不去。架构和初始化设计都要围绕它做缓解。

现代网络通过残差、归一化和激活函数改进大幅缓解梯度问题,但长深网络仍需监控训练稳定性。

32)什么是混合精度训练(FP16、BF16)

混合精度训练是在保证精度可接受前提下,使用低精度计算(FP16/BF16)加速训练并节省显存。

它显著提升训练吞吐,是大模型工程标配。BF16通常在数值稳定性上更友好。

混合精度的核心是“速度和稳定性的平衡”。实践上会配合loss scaling和稳定性监控。

33)模型训练中常见的优化器有哪些

常见优化器有SGD、Adam、AdamW等。大模型训练中AdamW使用最广。

优化器决定收敛速度、稳定性和泛化效果。它与学习率策略、权重衰减必须联动调优。

大模型里我优先关注AdamW+学习率调度组合。很多训练问题本质是优化超参问题。

34)什么是批量归一化(BatchNorm)

BatchNorm通过对批次特征做归一化稳定训练。它在CNN时代非常常见。

在Transformer/LLM中更常见的是LayerNorm,因为序列建模和小批次场景下LayerNorm更稳。理解两者差异很重要。

问到BatchNorm时我会补一句:LLM里主流是LayerNorm,不是BatchNorm,这是架构实践差异。

35)什么是指令微调(SFT)

指令微调是SFT在对话和任务执行场景的具体体现,目标是让模型按指令完成任务并保持格式规范。

它直接决定“模型听不听话”。对客服、Copilot、智能助手类产品至关重要。

指令微调重点不在数据量,而在数据质量和覆盖。要覆盖真实用户问法和边界场景。

36)什么是 DPO(Direct Preference Optimization)

DPO是一种基于偏好对数据的直接优化方法,不走复杂强化学习回路。它通过“优答胜过劣答”的目标更新模型。

DPO实现成本相对低,训练流程更简洁,很多团队把它作为RLHF替代或补充方案。

DPO优势是工程落地快、训练稳定性相对好。关键在偏好数据质量和配对策略。

37)大模型如何处理训练数据

训练数据处理通常包含采集、清洗、去重、质量筛选、脱敏、标注格式化、采样配比和版本管理。

数据质量决定上限,坏数据会把模型能力拉低。数据工程往往比模型结构更影响最终效果。

我会把数据管线当成核心资产建设,重点做质量评估、去重和分布平衡,而不是只追求规模。

38)什么是推理(Inference)

推理是模型上线后根据输入生成输出的过程。它只做前向计算,不更新参数。

用户体验主要受推理阶段影响,延迟、吞吐、稳定性都在这里体现。推理优化是应用工程主战场。

训练决定上限,推理决定体验。真实产品里推理优化的优先级通常非常高。

39)什么是 KV Cache

KV Cache是缓存历史token对应的Key/Value,避免每步重复计算。它是自回归推理加速核心技术。

使用KV Cache后,长对话场景延迟可显著下降。代价是显存占用上升,需要做容量管理。

KV Cache是“用显存换速度”。在多并发场景要重点评估显存压力和回收策略。

40)什么是 QPS(Queries per Second)

QPS表示系统每秒可处理请求数量,是吞吐能力核心指标之一。

QPS直接关系服务容量和成本核算。模型服务部署、扩容、限流都依赖它。

我会把QPS和P95延迟一起看。高QPS但高延迟或高失败率,业务价值并不成立。

41)如何判断模型是否能部署在某显卡上

核心是估算显存需求是否小于可用显存,包括模型权重、KV缓存、激活和框架开销。

这决定了部署方案是单卡、多卡、量化还是模型裁剪。错误估算会导致服务不稳定甚至无法启动。

我会先估参数显存,再估并发下KV Cache,再留系统冗余。必要时用4bit/8bit量化降低门槛。

42)推理延迟和 Token 数量的关系

推理延迟通常随输入和输出token数增加而上升。输入影响prefill阶段,输出影响decode阶段。

控制上下文长度和生成长度是优化延迟成本的直接手段。很多线上策略本质就是token预算管理。

延迟优化我会分两段做:缩短输入上下文和提高解码效率,两者都要看。

43)什么是 RAG(检索增强生成)

RAG是“检索+生成”组合架构。模型不只依赖参数记忆,还依赖实时检索到的外部知识。

它显著提升事实性和时效性,是企业知识问答最常见范式。还能做引用追踪,支持审核和复盘。

我会把RAG看成AI应用可用性的底层保障,而不是锦上添花模块。

44)RAG 能解决哪些大模型问题

RAG主要解决知识过时、私域知识缺失、事实不可追溯和幻觉高发等问题。

它把“模型能力”与“企业知识资产”连接起来,让答案更可靠、更可运营。对B端业务尤其关键。

RAG不是万能,但在知识密集场景是性价比最高的增强方案,收益通常立竿见影。

45)什么是 Self-RAG

Self-RAG是让模型在生成过程中自评估“是否需要检索”“检索证据是否足够”的方法。它强化了检索与生成协同。

Self-RAG可减少无效检索、提升证据使用质量,并在复杂问答中提高稳健性。它是RAG向“自适应检索”演进的一步。

Self-RAG本质是把检索决策内生到推理流程里,重点价值在质量稳定而不只是准确率峰值。

46)什么是 MoE 架构

MoE通过专家网络和门控路由实现稀疏激活。每次请求只激活部分专家,降低计算量。

适合做超大参数模型的训练和推理优化。它在“能力上限”和“计算成本”间提供更优解。

面试问MoE时我会强调两点:稀疏计算收益和路由均衡挑战,这样更工程化。

47)什么是 Prompt Engineering

Prompt Engineering是系统化设计提示词,以获得稳定、可控、高质量输出的方法论。

它是上线前最快见效的优化手段,可显著提升回答格式一致性、任务完成率和安全性。

我会做模板化Prompt、变量化填充和自动评测闭环,让提示词优化从经验驱动变成数据驱动。

48)Zero-shot、One-shot、Few-shot 的区别

Zero-shot不给示例,One-shot给一个示例,Few-shot给多个示例。示例越多,模型越容易对齐任务格式。

这三种方式是成本与效果的平衡工具。简单任务常Zero-shot,复杂格式任务更依赖Few-shot。

我会按任务复杂度选shot策略,并关注上下文成本,避免为了效果无限堆示例。

49)什么是大模型“幻觉”问题

幻觉是模型生成看似合理但事实错误或无依据的内容。它是生成模型常见风险。

幻觉直接影响用户信任和业务风险,尤其在医疗、金融、法律等场景不可接受。治理是上线前必做项。

我会用RAG、工具调用、规则校验和拒答机制组合治理幻觉,不依赖单一手段。

50)什么是 MCP(大模型上下文协议)

MCP可理解为模型与外部工具、资源、上下文系统通信的标准化协议思路。它强调统一接口和可组合性。

标准化协议降低工具接入成本,提升Agent生态扩展效率。对多工具协同场景很关键。

MCP的价值在工程标准化,不是单一模型能力提升。它解决的是“系统连接效率”问题。

51)什么是 LangChain

LangChain是用于构建LLM应用流程的开发框架,覆盖Prompt、检索器、工具、Agent、链路编排等能力。

它可以加速原型开发和模块化集成,减少从0搭建编排系统的工作量。适合快速迭代场景。

我会把LangChain当作工程框架,而不是算法能力本身。选它的理由是开发效率和生态集成。

52)什么是向量数据库

向量数据库用于存储和检索高维向量,支持近似最近邻搜索。它是Embedding检索系统核心组件。

在RAG中,向量数据库决定召回效率和可扩展性。它直接影响问答质量和系统响应时间。

向量库选型我会关注召回质量、索引类型、更新能力和运维成本,不只看单点性能。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐