腾讯 AI Agent 开发工程师二面,太难了!!!

最近金三银四,后台不少读者留言让我聊聊大模型方向的面试经验。恰好上个月我完整经历了某猪场的大模型用算法岗面试,一路从一面到Offer,被问到头皮发麻。

但不得不说,这场面试让我对自己过去两年的技术积累有了全新的梳理。今天我就把面试中被拷问到的问题整理出来,不是简单的题目罗列,而是我当时真实思考的过程、卡壳的地方,以及事后复盘时想明白的点。如果你正在准备类似岗位,或者想系统构建RAG方向的知识体系,这篇文章值得你静下心来看完。

1. 在你的项目中,大模型最关键的性能指标是什么?如何评估?

  • 标准答案
  • 关键指标:通常是RAG(检索增强生成)的整体效能。具体来说,我会关注上下文检索准确率(Recall@N)、生成答案的准确性(Exact Match)、响应时延(Latency)和用户满意度(Satisfaction Score)。
  • 评估方法:采用自动化评测+人工打分的混合模式。自动化评测用BLEU/ROUGE/EM来筛选;人工评测则通过随机抽样和灰度测试来验证。
  • 难点分析
  • 陷阱:很多候选人只会说“准确率高”或“召回率高”。但面试官更想看你是否懂得全链路思考。比如在搜索增强生成(RAG)场景下,只看生成模型的BLEU是没有意义的,因为召回的质量直接决定了上游瓶颈。

2. 如果模型效果不达标,你通常优先优化哪一部分?

  • 标准答案
  • 第一步分析日志,找瓶颈是检索问题还是生成问题。大模型性能大多受召回质量影响。如果检索召回差,模型再强也生成不了好答案。
  • 第二步:如果是生成问题,优先检查Prompt解码策略(如top-p、temperature),而不是急着改模型结构。
  • 难点分析
  • 面试官在考察你的debug思维。直接说“调大模型参数”通常是万万不可取的,因为工程成本高且优化空间有限。

3. 大模型生成任务常用自动评测指标有哪些?为什么BLEU / ROUGE不适合评估部分生成任务?

  • 标准答案
  • 常用指标:BLEU、ROUGE(针对摘要)、EM(Exact Match)、Recall@N(针对检索)、LLM-as-Judge(基于LLM的评判)。
  • 局限性:BLEU/ROUGE过于依赖字面匹配。对于创意写作、代码生成或长答案(如搜索增强生成),只要语义对,词序不对就会被判低分。
  • 难点分析
  • 需要体现你对评价指标本质的理解,不能仅仅背概念。

4. 如何设计人工评测流程评估模型回答质量?

  • 标准答案
  • 分层抽样:先用自动指标筛选出“中等”水平的样本,再进行人工评测,避免“天花板效应”(好样本直接给满分)。
  • 细粒度打分:从准确性完整性语言表达参考价值等维度打分,而不是简单的好坏判断。

5. 在训练大模型时遇到过什么问题嘛?如何解决的啊?

  • 标准答案
  • 常见问题:显存溢出(OOM)、梯度爆炸、训练不收敛。
  • 解决方案:采用梯度累计混合精度训练(FP16)、梯度裁剪(GradClip)以及动态学习率调度

6. 为什么长文本推理时Attention计算会成为瓶颈?如何解决?

  • 标准答案
  • 瓶颈原因:Attention是二次复杂度()的算法,文本越长,显存占用越大,速度越慢。
  • 解决方案:使用稀疏Attention(如Longformer)、分块推理(Chunked Inference)或检索增强(RAG)来缩短上下文长度。

7. 如果模型回答过于冗长,如何通过 Prompt 优化?

  • 标准答案
  • 技巧:在Prompt中加入约束性语言,如“请用三句话以内回答”或“请简洁回答”。也可以调整temperature参数(降低温度会让输出更保守、更短)。

8. DPO 与 RLHF 的核心区别是什么?为什么 DPO 可以不需要 Reward Model?

  • 标准答案
  • 核心区别:RLHF通过奖励模型(Reward Model)来间接优化策略,而DPO(Direct Preference Optimization)直接利用对比偏好(Preference Pairs)进行优化,省去了Reward Model的训练步骤。

9. 在 RLHF 中,为什么需要 KL penalty?

  • 标准答案
  • 作用:KL惩罚项(KL Penalty)是为了防止模型在追求奖励时偏离原始模型(Base Model)太远,导致“离谱”或不安全的回答。它起到了一种正则化作用。

10. 为什么 PPO 在 LLM 训练中比传统 Policy Gradient 更稳定?

  • 标准答案
  • 原因:PPO通过**截断策略(Clipping)**限制每一步更新的幅度,避免了Policy Gradient中可能出现的剧烈震荡和崩溃。

11. 在什么情况下 DPO 效果可能不如 RLHF?

  • 标准答案
  • 场景:当偏好数据(Human Preference)非常稀缺质量不高时,RLHF通过奖励模型的平滑能力可能会比直接用噪声数据进行DPO更好。

12. 大语言模型预训练数据一般由哪些类型构成?预训练语料如何进行清洗与去重?

  • 标准答案
  • 去重:使用MinHashSimHash算法对文档指纹进行比对,过滤掉相似度过高的内容。

  • 过滤:剔除低质量(如乱码、广告)、敏感(如个人隐私)和版权风险内容。

  • 格式化:统一编码、去除 HTML 标签,分段切分。

  • 数据类型

  • 清洗与去重

  1. 网络文本:Common Crawl、新闻站点、社区论坛(如知乎)。
  2. 结构化数据:百科(维基百科)、问答库(StackExchange)。
  3. 专业领域:医学论文、法律文献、代码仓库(GitHub)。
  4. 多语言平行语料:用于翻译能力。
  • 难点分析
  • 面试官在看你是否理解数据是模型的“根”。如果你只能说“爬网页”,而不提去重和过滤,那么你的模型很可能在实际上线后出现“幻觉”或“泄漏”风险。

13. 如何减少推理延迟(latency)?为什么 batch 推理可以提升吞吐量?

  • 标准答案
  • Temperature:控制输出的随机性。温度低(如 0.2)时模型更确定性,输出更单一;温度高(如 1.0)时更随机,创造力更强。

  • **Top-p (Nucleus Sampling)**:模型只从累计概率达到 p 的词汇中采样,确保高概率词不被遗漏。

  • 批处理利用了 GPU 的并行计算能力。单条推理往往无法填满显存,而 batch 推理可以一次性计算多个请求,显著提升吞吐量(TPS)。

  • 降低延迟

  • Batch 推理原理

  • Temperature / Top-p

  1. 模型蒸馏:使用轻量模型(Student)替代大模型(Teacher)。
  2. FlashAttention:优化显存访问,降低内存带宽瓶颈。
  3. 模型裁剪:通过 LoRA 或 Adapter 方式,仅加载核心权重。
  • 难点分析
  • 这里的关键是Trade-off。比如蒸馏虽然快但可能牺牲知识深度,面试官喜欢问你在实际项目中是如何权衡“准确率 vs 延迟”的。

14. 是否有智能体相关项目?Agent 如何进行 Tool Selection?如果 Agent 经常循环调用工具无法停止,如何解决?

  • 标准答案
  • 基于意图识别:Agent 首先判断用户是要搜索信息、绘制图表还是执行代码。

  • 基于成本评估:如果搜索结果已经满足需求,则不会调用冗余的图像生成工具,以节约算力。

  • Tool Selection 机制

  • 循环调用解决方案

  1. 深度限制:设定一个最大调用深度(如 3 次)。
  2. 状态缓存:记录每一步的 Tool 输入输出,若发现循环(输入输出不变),立即打断。
  3. 工具冗余检查:如果已经调用了搜索工具,且搜索结果中已经包含答案,则不再调用搜索工具。
  • 难点分析
  • 面试官想看你是否了解 Agent 的“规划层”。一个好的 Agent 不能像“回声室”一样自说自话,需要有全局视野。

15. 如何设计 Agent 的长期记忆(Memory)?大模型在线服务如何实现高并发推理?

  • 标准答案
  • 服务拆分:将模型服务化(Serving),前端负责负载均衡,后端负责推理。

  • 异步队列:使用 Kafka 或 RabbitMQ 将请求排队,配合 GPU 集群进行调度。

  • 缓存策略:对于热点问题,直接返回缓存的答案,避开模型调用。

  • 短期记忆:保存在 Prompt 中(如最近的 5 轮对话)。

  • 长期记忆:存储在外部数据库(如向量库)中,定期进行摘要压缩,只保留关键事件。

  • 长期记忆设计

  • 高并发推理

  • 难点分析
  • 这里面试官考察的是系统设计能力。不是单纯的写几行代码,而是要能描述清楚一个大规模服务是如何搭建的。

16. 如果模型响应时间超过 3 秒,有哪些优化手段?

  • 标准答案
  • 硬件层面:使用更高带宽的 HBM2e 显存。
  • 软件层面
  1. 层级并行:使用 ZeRO 优化器,将模型参数切分到多个 GPU。
  2. 动态推理:根据输入长度动态裁剪 Transformer 层数(Early Exit)。
  3. 混合模式:关键任务走大模型,普通问答走小模型。

代码题:无重复字符的最长子串

  • 采用滑动窗口 + 哈希表的方式。
  • 核心思路:维护一个窗口 [left, right],记录每个字符最后出现的位置。如果右指针遇到重复字符,将左指针移动到重复字符上一次出现位置的右侧。
  • 实现
def length_of_longest_substring(s):    char_index = {}    left = max_len = 0        for right, char in enumerate(s):        if char in char_index and char_index[char] >= left:            left = char_index[char] + 1        char_index[char] = right        max_len = max(max_len, right - left + 1)        return max_len
  • 难点:很多候选人会使用两层循环(O(n^2)),面试官更看重你是否掌握了线性时间 O(n) 的解法。

面试总结与复盘建议

核心考点归纳

  1. 全链路思维:面试官关注的是你是否能从“数据采集 → 训练 → 推理 → 在线服务”完整闭环思考。
  2. 系统设计能力:特别是 Agent 的 Tool Selection、Memory 设计以及高并发推理,都是考察你能否胜任大模型工程化落地。
  3. 算法深度:RLHF、Attention 优化、无重复字符的线性解法,这些是必须掌握的硬核基础。

如何打动面试官?

  • 结合项目:在回答时尽量引用你之前的项目经验(如“我在某某项目中使用了 LoRA 微调”),而不是空泛的背书。
  • 展现 Trade-off:技术选型没有绝对的对错,展示你能平衡性能、成本与风险的能力。
  • 关注安全:适当提到 LLM 的安全防护(如过滤敏感词、隐私保护),这是现在大模型工程化的必备意识。

祝你面试顺利,这些知识点掌握好了,不仅能过面试,还能在工作中游刃有余!

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐