6场大模型--真实面试完整问答实录复盘

慢慢的写代码

605人浏览 · 2026-04-01 13:54:01

慢慢的写代码 · 2026-04-01 13:54:01 发布

以下是几场真实面试的完整对话，真题都在对话中自然出现。

第一场：某互联网大厂 - 大模型应用开发岗

面试官：过来面试大模型应用开发的。不用做自我介绍了，简历我看过了。聊一聊MCP吧。

考生：MCP全称是Model Context Protocol，是Anthropic提出的一个协议，主要解决大模型和外部工具、数据源之间的标准化连接问题。我们项目里用MCP来让模型能够访问内部的文档库和数据库。

面试官：你们是怎么来评估RAG效果的？

考生：我们从几个维度来评估：召回方面看检索的准确率和召回率，生成方面看答案的相关性和准确性。线上我们会埋点采集用户反馈，比如点赞、踩、重新提问这些行为，线下会定期抽样做人工评估。

面试官：为什么没有直接用这类现成的组件？

考生：其实刚开始我们也调研过LangChain、LlamaIndex这些框架，但我们的业务场景有一些特殊需求，比如需要对内部文档做权限控制，还有一些定制化的检索逻辑，现成组件很难完全满足，最后就自己搭了一套。

面试官：如果线上突然出问题，你一般会怎么样一步一步来进行排查？

考生：第一步先看监控大盘，确认是模型服务问题还是检索服务问题。如果是模型问题，会检查token消耗、响应时间、错误率这些指标。如果是检索问题，会看向量库的查询日志。定位到具体问题后，会先降级处理，比如切到备用模型或者返回缓存结果，然后再深入排查根因。

面试官：你们在RAG里边是怎么样来处理上下文和memory的多轮对话的历史信息你们是怎么使用的？

考生：我们用滑动窗口来管理上下文，保留最近N轮对话。对于memory，我们会把用户的关键信息抽取出来存到用户画像里，比如用户的偏好、历史行为这些，这样即使对话窗口清空了，模型还是能记住用户的一些重要信息。

面试官：你未来的职业规划是什么？是更想要往传统后端走，还是往AI方向去进行发展？

考生：我会继续往AI方向发展。现在大模型应用层还有很多值得探索的地方，比如Agent、多模态这些方向我都挺感兴趣的。

面试官：你觉得你相比其他的候选人最突出的优势是什么？

考生：我觉得是我的工程落地能力。我不仅懂模型原理，更重要的是能把模型真正用起来解决业务问题，中间踩过的坑、积累的经验都挺宝贵的。

面试官：好了，今天的面试就到这儿，后续会有HR联系你。

第二场：某创业公司 - 大模型应用开发岗

面试官：过来面试大模型应用开发的。我看过你简历，你先简单做一个自我介绍吧，然后重点挑一个你参与过的AI项目。

考生：好的，我之前在XX公司负责智能客服项目，主要做的是基于RAG的问答系统，能够自动回答用户关于产品的各种问题，减少了60%的人工客服工单量。

面试官：我看你们项目里面有做过意图识别，你能具体说一说是怎么实现的吗？

考生：我们用了一个小的分类模型来做意图识别，把用户的问题分到不同的类别里，比如产品咨询、投诉建议、技术支持这些。识别完意图后，会路由到不同的处理逻辑，比如产品咨询就走RAG检索，投诉建议就直接转人工。

面试官：为什么最终会选这个模型？

考生：我们对比过几个方案，包括关键词匹配、传统机器学习分类器和深度学习模型。最后选了一个基于BERT微调的小模型，主要是考虑到准确率和推理速度的平衡，在线上能够做到50毫秒以内的响应。

面试官：在过程当中有做过哪些优化？

考生：做过几个优化：一个是数据增强，用大模型生成了一些训练样本；另一个是知识蒸馏，把大模型的知识迁移到小模型上；还有就是做了模型量化，减少了部署资源占用。

面试官：你们是怎么样来构建知识图谱的数据来源更新机制？这些能不能给我聊一聊。

考生：我们的知识来源主要有三块：内部文档、用户历史问答、外部爬取的行业知识。更新机制是定时的，每天凌晨跑一次增量更新。对于结构化数据我们会直接进图数据库，非结构化的会用大模型抽取实体和关系再入库。

面试官：你们在搭建Agent的过程当中，大致会用什么样的框架？

考生：我们自己搭了一套轻量级的框架，核心模块包括任务规划器、工具调用器和记忆管理器。规划器负责把复杂任务拆分成子任务，工具调用器负责执行各种工具调用，记忆管理器负责上下文和历史信息的管理。

面试官：你在Agent里边会怎么样去使用memory？

考生：我们分短期记忆和长期记忆。短期记忆就是当前对话的上下文，用滑动窗口管理。长期记忆会把用户的关键信息、历史行为存到数据库里，下次对话的时候会先检索相关的记忆信息，注入到prompt里面。

面试官：你提到了做上下文工程，能具体举一个例子说说看怎么样来管理长对话的上下文的吗？

考生：比如说用户在做多轮商品咨询，我们会把对话历史按轮次存起来，然后用一个摘要模型把早期的对话压缩成摘要，这样既保留了关键信息，又不会让上下文太长。同时我们会提取关键实体，比如用户提到的商品型号、预算这些，放在一个单独的结构里方便检索。

面试官：你觉得为什么用Agent的架构比传统的workflow要更好？

考生：Agent更灵活，能够根据用户的输入动态调整执行路径。传统的workflow是预先定义好的流程，遇到用户跳出流程的情况就很难处理。Agent可以根据当前情况自己规划下一步该做什么，更接近人的思考方式。

面试官：在你们的业务当中有没有带来实际上的收益？

考生：有的，用Agent架构后，用户的任务完成率提升了20%左右，因为Agent能够处理一些意料之外的场景。另外开发效率也提升了，不需要写很多if-else的分支逻辑。

面试官：好的，感谢你今天的时间。

第三场：某AI独角兽 - AI Agent开发岗

面试官：过来面试Agent开发的。先简单做一个自我介绍吧，说一说你在工作当中遇到的最大的困难是什么？

考生：我之前负责一个智能问答项目，最大的困难是模型在专业领域的回答质量不稳定，有时候会出现幻觉，给出错误的答案。这个问题困扰了我们挺久的。

面试官：你最后是怎么样解决的？

考生：我们用了一个组合方案：一是引入RAG，让模型基于检索到的文档来回答，减少幻觉；二是做了一个置信度评估模块，对低置信度的答案会提示用户确认或者转人工；三是建立了一套bad case的反馈和优化机制。

面试官：你项目里面有哪些典型的bad case，后来又是怎么样来分析和优化的？

考生：典型的问题有几类：一类是模型编造不存在的产品功能；一类是理解错用户意图，答非所问；还有一类是检索不到相关信息，模型就开始乱答。我们会定期收集这些bad case，分析原因，如果是检索问题就优化知识库，如果是模型问题就调整prompt或者微调模型。

面试官：你对Agent是怎么理解的？

考生：我觉得Agent是大模型应用的高级形态，核心是让模型能够自主地规划和执行任务。一个好的Agent需要具备几个能力：理解用户意图、规划执行步骤、调用工具、记忆上下文、反思和纠正错误。现在的Agent还在发展阶段，但未来会是主流方向。

面试官：RAG的整体架构和流程你能简单说一说吗？

考生：RAG的核心流程分检索和生成两部分。检索阶段：用户问题先经过query改写和扩展，然后去向量库检索相关文档，检索结果经过排序后作为上下文。生成阶段：把检索到的文档和用户问题一起输入大模型，让模型基于这些信息生成答案。我们还会加一个后处理模块，做答案的校验和润色。

面试官：实际在做RAG的过程当中，经常会遇到召回率不高或者生成幻觉，你们是怎么样来处理这类的问题的？

考生：召回率不高的话，我们会从几个方面优化：query层面做改写和扩展，检索层面用混合检索（向量加关键词），重排层面用更强的排序模型。幻觉问题的话，主要是在prompt里强调要基于检索内容回答，同时加一层事实校验，对于模型答不出来的问题要敢于说不知道。

面试官：你们是怎么评估RAG的效果，你的项目当中是怎么样去做Prompt的优化的？

考生：评估分线上和线下。线下我们会构建测试集，用Ragas框架来评估答案的准确性和相关性。线上主要看用户的行为数据，比如答案的采纳率、用户的追问率这些。Prompt优化的话，我们会用一些模板框架，然后通过A/B测试来比较不同版本的效果。

面试官：你们做的这个模型评估一般是怎么走流程的？

考生：我们的评估流程是：先定义评估维度，比如准确性、流畅性、安全性这些；然后构建测试集，包括典型问题和边界情况；接着用自动化工具跑评估，生成各项指标；最后对低分案例做人工复核，找出问题原因。

面试官：如果让你设计一套Agent的评估指标，你会关注哪些方面？

考生：我会关注几个维度：任务完成率，看Agent能不能把任务做完；步骤正确性，看Agent规划的步骤对不对；工具调用准确性，看Agent是否正确使用了工具；效率，看完成任务用了多少步和多少时间；还有用户体验相关的指标，比如响应时间、对话轮数这些。

面试官：如果现在让你去设计一款AI融合场景的产品，你会怎么样去设计？

考生：我会先明确用户的核心痛点，然后评估AI在这个场景下的价值点。产品形态上，我会让AI作为增强而不是替代，让AI在合适的环节介入。交互上要自然，不能让用户感觉在和一个机器人对话。同时要有合理的预期管理，让用户知道AI能做什么不能做什么。

面试官：今天的面试就到这里，感谢你的分享。

第四场：某电商平台 - AI产品经理岗

面试官：先简单做一个自我介绍吧，然后重点介绍一下你之前做过的一个AI产品，你们当时是怎么去衡量用户满意度和响应度的。

考生：我之前负责过智能客服产品。满意度我们主要看用户反馈，每轮对话后会有点赞踩的评价，以及对话结束后的整体评分。响应度看的是首次响应时间、问题解决率、用户是否还会转人工这些指标。

面试官：如果发现一批bad case的满意度特别低的情况下，你们会怎么样去处理？

考生：我们会先对这批bad case做分类，看看问题出在哪里。如果是检索问题，就优化知识库或者检索策略；如果是模型理解问题，就优化prompt或者补充训练数据；如果是产品逻辑问题，就调整交互流程。处理完会做回归测试，确保问题真正解决了。

面试官：能不能分享一个你通过数据发现问题，然后推动解决的实际案例？

考生：有一次我们发现某类问题的用户满意度突然下降，分析后发现是知识库里的一篇重要文档过期了，模型检索到的信息已经不准确。我们连夜更新了知识库，同时建立了一个监控机制，对文档的时效性做定期检查，类似问题就没再发生过。

面试官：你在上一段工作当中，AI产品当中的某一个功能，你们是怎么样一步一步去改进和迭代它的？

考生：我们有个智能推荐功能，刚开始效果不好。第一步我们收集了用户的反馈数据，分析为什么不准；第二步是优化推荐算法，引入更多特征；第三步是小流量灰度测试；第四步是根据测试结果调优；最后才全量上线。上线后还要持续监控效果，形成闭环。

面试官：我看你在产品里边有用到RAG，能具体说一说它起到了什么样的作用吗？

考生：RAG是我们的核心能力，让客服机器人能够回答用户关于产品的各种问题。如果没有RAG，模型只能根据预训练的知识回答，但这些知识是有限的而且可能过时。有了RAG，我们可以实时更新知识库，模型就能回答最新的业务问题。

面试官：那你们是怎么样去设计提示词的？

考生：我们的prompt分几个部分：角色定义、任务描述、背景知识（检索到的文档）、输出格式要求。我们还会在prompt里加一些约束，比如要求基于检索内容回答、不要编造信息、不确定的时候要说明。prompt是持续优化的，我们会定期review bad case来调整。

面试官：如果产品上线之后发现有幻觉问题，你们会从哪些层面去解决它？

考生：几个层面：prompt层面加强约束，要求模型基于事实回答；检索层面确保召回的内容相关且准确；后处理层面加校验模块，检测答案是否合理；产品层面设置兜底机制，对不确定的问题提示用户确认或者转人工。

面试官：在调Prompt的过程当中，你们遇到的最大的挑战是什么？最后是怎么样去解决的？

考生：最大的挑战是prompt的通用性和准确性的平衡。prompt写得太死，模型会比较机械；写得太活，又容易产生幻觉。我们的解决方案是分场景设计不同的prompt模板，然后加一层意图识别，把用户问题路由到对应的prompt上。

面试官：如果说现在让你从零去设计一款智能客服的产品，你会用哪些数据指标来评估它是不是成功了？

考生：核心指标有几个：问题解决率，看用户问题是否得到了解决；人工转接率，看有多少比例需要人工介入；用户满意度，直接反映用户体验；响应时间，影响用户等待体验；还有成本指标，看AI能替代多少人工工作量。

面试官：你一般会怎么样去评估智能客服的对话流畅度和用户体验呢？

考生：对话流畅度我们会看平均对话轮数、用户追问率、意图识别准确率。用户体验除了满意度评分，还会看任务完成时间、用户留存率这些。我们也会做一些用户访谈，收集定性的反馈，能发现一些数据看不到的问题。

面试官：好的，今天的面试就到这里。

第五场：某互联网公司 - 大模型开发岗（春招）

面试官：你不用自我介绍了，你的简介我都看过了。可以把你项目里边挑一个挑战最大的来分享一下吗？

考生：好的，我做过一个多模态文档理解项目，挑战最大的是表格理解。用户上传的文档里有各种复杂的表格，模型很难准确提取结构化的信息。我们最后用了一个多阶段的方案：先做表格检测和结构识别，再用专门的模型做内容理解，准确率提升了很多。

面试官：那在这个项目当中，你的最大挑战是什么？可以举个例子说明一下吗？

考生：最大的挑战是跨页表格的处理。有些表格会跨页，模型容易把它们当成两个独立的表格。我们用了一些启发式规则来判断表格是否连续，比如看表头是否一致、行号是否衔接，再加上人工校验，问题缓解了不少。

面试官：当时是怎么解决这个问题的，最后的上线效果是什么样子？

考生：我们分三步解决：第一步是建立表格分割的规则库，第二步是训练一个分类模型来判断表格是否应该合并，第三步是人工审核机制。上线后表格提取的准确率从70%提升到了90%以上，用户的反馈也比较好。

面试官：我看这个项目应该也结束了好几个月了。如果站在今天的视角让你重新再做一遍这个项目，你会优化哪些方向？

考生：我会考虑几个方向：一是引入更强的视觉模型，现在有一些专门做文档理解的模型效果更好；二是增加few-shot学习的能力，让系统能够快速适应新的表格格式；三是构建一个持续学习的机制，让模型能够从用户的修正中学习。

面试官：那如果研发和你的需求定义不太一样，中间你会怎么样去协调，怎么样去解决？

考生：这种情况确实会遇到。我会先搞清楚差异在哪里，是理解偏差还是技术限制。如果是理解偏差，我会用更具体的例子来说明需求；如果是技术限制，我会和研发一起讨论有没有替代方案。关键是保持沟通，不要让问题拖到最后才发现。

面试官：你知道RAG吗，讲讲RAG的基本原理？

考生：RAG是Retrieval-Augmented Generation，检索增强生成。基本原理是在生成答案之前，先从知识库中检索相关的文档片段，然后把这些片段作为上下文，和用户问题一起输入大模型，让模型基于这些信息来生成答案。这样做的好处是模型可以获得最新的、特定领域的知识，减少幻觉。

面试官：大模型微调和RAG分别有哪些优劣势？

考生：微调的优势是模型能深入学习领域知识，推理时不需要外部检索，速度更快。劣势是知识有截止时间，更新成本高，需要大量标注数据。RAG的优势是知识可以实时更新，不需要重新训练，可解释性强，能追溯答案来源。劣势是依赖检索质量，推理速度慢一些，需要维护向量库。

面试官：在AI产品开发和优化的过程当中，你们是怎么样去考虑处理伦理隐私这一类的问题的？

考生：我们会从几个方面处理：数据层面，对敏感信息做脱敏处理，用户数据加密存储；模型层面，避免使用有偏见的数据训练，对输出内容做安全审核；产品层面，明确告知用户数据的使用方式，提供数据删除的选项；合规层面，遵守相关的法律法规，做隐私影响评估。

面试官：在产品开发过程当中，你又是怎么样去处理数据质量问题？

考生：数据质量是AI产品的基础。我们会建立一套数据治理流程：数据采集时做格式校验和去重；数据清洗时处理缺失值、异常值；数据标注时制定清晰的标注规范，做多轮质检；数据使用时持续监控效果，对问题数据做标注和修正。整个过程形成一个闭环。

面试官：那咱们今天的面试就先到这儿，感谢你今天能抽出时间来面试。

第六场：某科技公司 - AI产品经理岗

面试官：先简单做一个自我介绍吧，然后重点介绍一下你之前做过的一个AI产品。

考生：我之前在一家公司负责智能写作助手，帮助用户快速生成营销文案。产品上线后日活达到10万，用户平均创作效率提升了3倍。

面试官：你们当时是怎么去衡量用户满意度和响应度的？

考生：满意度我们用的是NPS评分加上功能使用率。响应度我们看的是生成速度、用户等待时长，以及用户是否会中途取消生成。这些指标都有实时监控，异常时会告警。

面试官：如果发现一批bad case的满意度特别低的情况下，你们会怎么样去处理？

考生：我们会先分析这批bad case的特征，看看是哪类用户、什么场景、什么类型的内容出问题。然后针对性地优化，可能是prompt调整，可能是增加训练样本，也可能是产品交互的改进。优化后要验证效果，确保问题解决。

面试官：能不能分享一个你通过数据发现问题，然后推动解决的实际案例？

考生：有一次我们发现晚上10点后用户满意度明显下降，排查后发现是那个时段服务器负载高，生成速度变慢，用户等不及就随便给了差评。我们做了两件事：一是优化了模型推理速度，二是做了弹性扩容。之后晚上时段的满意度就恢复到了正常水平。

面试官：你在上一段工作当中，AI产品当中的某一个功能，你们是怎么样一步一步去改进和迭代它的？

考生：我们有个功能是根据图片生成文案。第一版效果一般，我们收集了用户反馈，发现是图片理解不够准确。第二版我们换了一个更好的视觉模型，效果提升但成本也上来了。第三版我们做了智能路由，简单图片用轻量模型，复杂图片用重量模型，平衡了效果和成本。

面试官：我看你在产品里边有用到RAG，能具体说一说它起到了什么样的作用吗？

考生：我们的产品里RAG主要用于两个场景：一是用户可以上传自己的素材库，生成文案时会参考这些素材的风格；二是我们会检索热门文案作为参考，让生成的内容更符合当前的趋势。RAG让产品更个性化、更时效。

面试官：那你们是怎么样去设计提示词的？

考生：我们的prompt模板分几块：角色设定让模型扮演一个专业文案；任务描述说清楚要生成什么类型的内容；风格指南定义文案的调性和格式；示例提供几个好的参考。我们还有一个动态部分，会根据用户的历史偏好调整prompt。

面试官：如果产品上线之后发现有幻觉问题，你们会从哪些层面去解决它？

考生：我们会从几个层面解决：输入层面加强对用户意图的理解，减少歧义；检索层面确保参考素材的质量和相关性；生成层面在prompt里加约束，要求输出有依据；输出层面做内容审核，检测是否有夸大或者编造的内容。

面试官：在调Prompt的过程当中，你们遇到的最大的挑战是什么？最后是怎么样去解决的？

考生：最大的挑战是不同用户对文案风格的要求差异很大，很难用一套prompt满足所有人。我们的解决方案是做了风格分类，让用户在生成前选择风格，然后路由到不同的prompt模板。后续还做了个性化学习，记住用户的偏好。

面试官：如果说现在让你从零去设计一款智能客服的产品，你会用哪些数据指标来评估它是不是成功了？

考生：我会看几个核心指标：问题解决率是最重要的，说明AI是否真的帮用户解决了问题；人工转接率，看AI能独立处理多少比例；用户满意度CSAT；首次响应时间；对话轮次，太多轮说明效率不高；还有运营成本，看节省了多少人力。

面试官：你一般会怎么样去评估智能客服的对话流畅度和用户体验呢？

考生：对话流畅度我会看：意图识别准确率、槽位填充成功率、平均对话轮数、用户是否频繁重复问题。用户体验除了满意度，还会看：首次解决率、用户是否需要切换到其他渠道、用户留存和复购这些业务指标。我们也会定期做用户访谈，了解深层问题。

面试官：今天的面试就到这里，感谢你的时间。

以上就是6场真实面试的完整对话，希望能帮到你。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 模型部署自动化脚本开发

而自动化脚本开发通过代码化、流程化的方式，显著提升了模型部署的效率和可靠性，成为企业实现AI规模化落地的核心工具。例如，使用Docker容器化技术封装模型依赖，结合Kubernetes编排工具，实现跨平台的标准化部署，避免因环境差异导致的运行失败。例如，当模型性能通过验证后，脚本自动将流量切换至新版本，完成零干预升级。例如，利用Terraform管理不同云平台的资源，结合Ansible同步配置，确

AtomGit开源社区

大湾区医疗健康EMBA实测解析与科学选型指南

师资团队国际化程度极高，外籍教师占比约50%，100%博士学历，汇聚哈佛、剑桥、斯坦福、哥伦比亚等全球顶级高校学者，覆盖战略管理、资本运作、市场营销、宏观经济、组织变革等全领域，兼具学术深度与企业实战经验。二是数字化转型，助力传统医疗企业落地AI医疗、智能设备研发等科技升级；依托港科大顶尖的AI、数据科学科研实力，精准匹配当下智慧医疗、医疗数字化转型的行业趋势，同时完善的跨境课程与全球游学体系，完

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、