SFT到RLHF实战指南(非常详细),大模型训练从入门到精通,看这篇就够了!
腾讯 AI Agent 开发工程师二面,太难了!!!
最近金三银四,后台不少读者留言让我聊聊大模型方向的面试经验。恰好上个月我完整经历了某猪场的大模型用算法岗面试,一路从一面到Offer,被问到头皮发麻。
但不得不说,这场面试让我对自己过去两年的技术积累有了全新的梳理。今天我就把面试中被拷问到的问题整理出来,不是简单的题目罗列,而是我当时真实思考的过程、卡壳的地方,以及事后复盘时想明白的点。如果你正在准备类似岗位,或者想系统构建RAG方向的知识体系,这篇文章值得你静下心来看完。
1. 在你的项目中,大模型最关键的性能指标是什么?如何评估?
- 标准答案:
- 关键指标:通常是RAG(检索增强生成)的整体效能。具体来说,我会关注上下文检索准确率(Recall@N)、生成答案的准确性(Exact Match)、响应时延(Latency)和用户满意度(Satisfaction Score)。
- 评估方法:采用自动化评测+人工打分的混合模式。自动化评测用BLEU/ROUGE/EM来筛选;人工评测则通过随机抽样和灰度测试来验证。
- 难点分析:
- 陷阱:很多候选人只会说“准确率高”或“召回率高”。但面试官更想看你是否懂得全链路思考。比如在搜索增强生成(RAG)场景下,只看生成模型的BLEU是没有意义的,因为召回的质量直接决定了上游瓶颈。
2. 如果模型效果不达标,你通常优先优化哪一部分?
- 标准答案:
- 第一步:分析日志,找瓶颈是检索问题还是生成问题。大模型性能大多受召回质量影响。如果检索召回差,模型再强也生成不了好答案。
- 第二步:如果是生成问题,优先检查Prompt和解码策略(如top-p、temperature),而不是急着改模型结构。
- 难点分析:
- 面试官在考察你的debug思维。直接说“调大模型参数”通常是万万不可取的,因为工程成本高且优化空间有限。
3. 大模型生成任务常用自动评测指标有哪些?为什么BLEU / ROUGE不适合评估部分生成任务?
- 标准答案:
- 常用指标:BLEU、ROUGE(针对摘要)、EM(Exact Match)、Recall@N(针对检索)、LLM-as-Judge(基于LLM的评判)。
- 局限性:BLEU/ROUGE过于依赖字面匹配。对于创意写作、代码生成或长答案(如搜索增强生成),只要语义对,词序不对就会被判低分。
- 难点分析:
- 需要体现你对评价指标本质的理解,不能仅仅背概念。
4. 如何设计人工评测流程评估模型回答质量?
- 标准答案:
- 分层抽样:先用自动指标筛选出“中等”水平的样本,再进行人工评测,避免“天花板效应”(好样本直接给满分)。
- 细粒度打分:从准确性、完整性、语言表达、参考价值等维度打分,而不是简单的好坏判断。
5. 在训练大模型时遇到过什么问题嘛?如何解决的啊?
- 标准答案:
- 常见问题:显存溢出(OOM)、梯度爆炸、训练不收敛。
- 解决方案:采用梯度累计、混合精度训练(FP16)、梯度裁剪(GradClip)以及动态学习率调度。
6. 为什么长文本推理时Attention计算会成为瓶颈?如何解决?
- 标准答案:
- 瓶颈原因:Attention是二次复杂度()的算法,文本越长,显存占用越大,速度越慢。
- 解决方案:使用稀疏Attention(如Longformer)、分块推理(Chunked Inference)或检索增强(RAG)来缩短上下文长度。
7. 如果模型回答过于冗长,如何通过 Prompt 优化?
- 标准答案:
- 技巧:在Prompt中加入约束性语言,如“请用三句话以内回答”或“请简洁回答”。也可以调整temperature参数(降低温度会让输出更保守、更短)。
8. DPO 与 RLHF 的核心区别是什么?为什么 DPO 可以不需要 Reward Model?
- 标准答案:
- 核心区别:RLHF通过奖励模型(Reward Model)来间接优化策略,而DPO(Direct Preference Optimization)直接利用对比偏好(Preference Pairs)进行优化,省去了Reward Model的训练步骤。
9. 在 RLHF 中,为什么需要 KL penalty?
- 标准答案:
- 作用:KL惩罚项(KL Penalty)是为了防止模型在追求奖励时偏离原始模型(Base Model)太远,导致“离谱”或不安全的回答。它起到了一种正则化作用。
10. 为什么 PPO 在 LLM 训练中比传统 Policy Gradient 更稳定?
- 标准答案:
- 原因:PPO通过**截断策略(Clipping)**限制每一步更新的幅度,避免了Policy Gradient中可能出现的剧烈震荡和崩溃。
11. 在什么情况下 DPO 效果可能不如 RLHF?
- 标准答案:
- 场景:当偏好数据(Human Preference)非常稀缺或质量不高时,RLHF通过奖励模型的平滑能力可能会比直接用噪声数据进行DPO更好。
12. 大语言模型预训练数据一般由哪些类型构成?预训练语料如何进行清洗与去重?
- 标准答案:
-
去重:使用MinHash或SimHash算法对文档指纹进行比对,过滤掉相似度过高的内容。
-
过滤:剔除低质量(如乱码、广告)、敏感(如个人隐私)和版权风险内容。
-
格式化:统一编码、去除 HTML 标签,分段切分。
-
数据类型:
-
清洗与去重:
- 网络文本:Common Crawl、新闻站点、社区论坛(如知乎)。
- 结构化数据:百科(维基百科)、问答库(StackExchange)。
- 专业领域:医学论文、法律文献、代码仓库(GitHub)。
- 多语言平行语料:用于翻译能力。
- 难点分析:
- 面试官在看你是否理解数据是模型的“根”。如果你只能说“爬网页”,而不提去重和过滤,那么你的模型很可能在实际上线后出现“幻觉”或“泄漏”风险。
13. 如何减少推理延迟(latency)?为什么 batch 推理可以提升吞吐量?
- 标准答案:
-
Temperature:控制输出的随机性。温度低(如 0.2)时模型更确定性,输出更单一;温度高(如 1.0)时更随机,创造力更强。
-
**Top-p (Nucleus Sampling)**:模型只从累计概率达到 p 的词汇中采样,确保高概率词不被遗漏。
-
批处理利用了 GPU 的并行计算能力。单条推理往往无法填满显存,而 batch 推理可以一次性计算多个请求,显著提升吞吐量(TPS)。
-
降低延迟:
-
Batch 推理原理:
-
Temperature / Top-p:
- 模型蒸馏:使用轻量模型(Student)替代大模型(Teacher)。
- FlashAttention:优化显存访问,降低内存带宽瓶颈。
- 模型裁剪:通过 LoRA 或 Adapter 方式,仅加载核心权重。
- 难点分析:
- 这里的关键是Trade-off。比如蒸馏虽然快但可能牺牲知识深度,面试官喜欢问你在实际项目中是如何权衡“准确率 vs 延迟”的。
14. 是否有智能体相关项目?Agent 如何进行 Tool Selection?如果 Agent 经常循环调用工具无法停止,如何解决?
- 标准答案:
-
基于意图识别:Agent 首先判断用户是要搜索信息、绘制图表还是执行代码。
-
基于成本评估:如果搜索结果已经满足需求,则不会调用冗余的图像生成工具,以节约算力。
-
Tool Selection 机制:
-
循环调用解决方案:
- 深度限制:设定一个最大调用深度(如 3 次)。
- 状态缓存:记录每一步的 Tool 输入输出,若发现循环(输入输出不变),立即打断。
- 工具冗余检查:如果已经调用了搜索工具,且搜索结果中已经包含答案,则不再调用搜索工具。
- 难点分析:
- 面试官想看你是否了解 Agent 的“规划层”。一个好的 Agent 不能像“回声室”一样自说自话,需要有全局视野。
15. 如何设计 Agent 的长期记忆(Memory)?大模型在线服务如何实现高并发推理?
- 标准答案:
-
服务拆分:将模型服务化(Serving),前端负责负载均衡,后端负责推理。
-
异步队列:使用 Kafka 或 RabbitMQ 将请求排队,配合 GPU 集群进行调度。
-
缓存策略:对于热点问题,直接返回缓存的答案,避开模型调用。
-
短期记忆:保存在 Prompt 中(如最近的 5 轮对话)。
-
长期记忆:存储在外部数据库(如向量库)中,定期进行摘要压缩,只保留关键事件。
-
长期记忆设计:
-
高并发推理:
- 难点分析:
- 这里面试官考察的是系统设计能力。不是单纯的写几行代码,而是要能描述清楚一个大规模服务是如何搭建的。
16. 如果模型响应时间超过 3 秒,有哪些优化手段?
- 标准答案:
- 硬件层面:使用更高带宽的 HBM2e 显存。
- 软件层面:
- 层级并行:使用 ZeRO 优化器,将模型参数切分到多个 GPU。
- 动态推理:根据输入长度动态裁剪 Transformer 层数(Early Exit)。
- 混合模式:关键任务走大模型,普通问答走小模型。
代码题:无重复字符的最长子串
- 采用滑动窗口 + 哈希表的方式。
- 核心思路:维护一个窗口
[left, right],记录每个字符最后出现的位置。如果右指针遇到重复字符,将左指针移动到重复字符上一次出现位置的右侧。 - 实现:
def length_of_longest_substring(s): char_index = {} left = max_len = 0 for right, char in enumerate(s): if char in char_index and char_index[char] >= left: left = char_index[char] + 1 char_index[char] = right max_len = max(max_len, right - left + 1) return max_len
- 难点:很多候选人会使用两层循环(O(n^2)),面试官更看重你是否掌握了线性时间 O(n) 的解法。
面试总结与复盘建议
核心考点归纳
- 全链路思维:面试官关注的是你是否能从“数据采集 → 训练 → 推理 → 在线服务”完整闭环思考。
- 系统设计能力:特别是 Agent 的 Tool Selection、Memory 设计以及高并发推理,都是考察你能否胜任大模型工程化落地。
- 算法深度:RLHF、Attention 优化、无重复字符的线性解法,这些是必须掌握的硬核基础。
如何打动面试官?
- 结合项目:在回答时尽量引用你之前的项目经验(如“我在某某项目中使用了 LoRA 微调”),而不是空泛的背书。
- 展现 Trade-off:技术选型没有绝对的对错,展示你能平衡性能、成本与风险的能力。
- 关注安全:适当提到 LLM 的安全防护(如过滤敏感词、隐私保护),这是现在大模型工程化的必备意识。
祝你面试顺利,这些知识点掌握好了,不仅能过面试,还能在工作中游刃有余!
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)