从 LLM 到 RAG：后端面试中最常见的 AI 名词整理（通俗版）

填满你的记忆

554人浏览 · 2026-03-23 19:28:41

填满你的记忆 · 2026-03-23 19:28:41 发布

今年开始 AI 在业务中的落地越来越多，后端面试中也开始频繁涉及相关内容。相比算法细节，面试官更关注的是：你是否理解这些概念，以及能不能结合实际项目讲清楚它们的用途。

　　今天这篇文章从后端工程视角出发，把常见 AI 名词串起来讲清楚。

1、LLM（大语言模型）

　　LLM 是当前大多数 AI 应用的基础能力，本质上是一个通过海量数据训练出来的文本生成模型。可以简单理解为：输入一段内容，它会根据上下文预测最合理的输出。

　　在后端系统中，LLM 通常不会直接暴露给用户，而是作为一个能力层存在。例如智能客服、AI 问答、内容生成等场景，底层都是通过调用大模型来完成。

　　实际开发中，后端的职责并不是“训练模型”，而是围绕模型做一层封装，包括请求构建、结果处理以及异常控制。同时还需要考虑成本控制和接口稳定性，这些才是工程上的重点。

2、Prompt（提示词）

　　Prompt 是输入给模型的指令，它直接决定了模型输出的质量。在实际项目中，Prompt 并不是简单的一句话，而更像是一种“结构化输入”。

　　通常会包含几个部分：角色设定、任务描述、输入数据以及输出约束。例如可以设定模型是一个“电影推荐助手”，并明确要求它只能基于给定内容进行回答。

　　在后端开发中，Prompt 往往是动态拼接的，一部分是固定模板，一部分来自用户输入，还有一部分来自系统检索的数据。设计合理的 Prompt，可以明显降低模型的不稳定性，也是面试中比较容易被追问的点。

3、Token

　　Token 是模型处理文本的基本单位，一段文本在模型内部会被拆分成多个 Token，而不是直接按字符串处理。

　　这个概念在工程中非常关键，因为模型的调用成本通常是按 Token 数量计算的。同时，每个模型都有最大上下文限制，如果输入内容过长，就会出现截断或者直接报错。

　　在后端系统中，常见的优化方式包括限制历史对话长度、裁剪无关信息以及控制检索数据的数量。简单来说，就是在保证效果的前提下尽量减少 Token 消耗。

4、Embedding（向量化）

　　Embedding 的作用是把文本转换成向量，从而可以用数学方式计算文本之间的相似度。

　　比如两句话语义接近，那么它们对应的向量距离也会比较近。通过这种方式，可以实现比关键词匹配更智能的搜索能力。

　　在实际项目中，Embedding 常用于语义搜索、相似推荐以及 RAG 架构中的检索环节。对于后端来说，一般会把文本先转成向量，再存入数据库，查询时再进行相似度匹配。

5、向量数据库

　　向量数据库是专门用来存储和检索向量数据的系统。与传统数据库不同，它的核心能力是“相似度查询”，而不是条件过滤。

　　当用户输入一段内容时，可以先将其转成向量，再去数据库中找到最相似的几条记录。这种方式特别适合处理自然语言相关的场景。

　　在实际应用中，向量数据库经常用于知识库问答、推荐系统以及内容检索。对于后端开发来说，它通常作为一个独立的存储组件存在，需要和 embedding 服务配合使用。

6、RAG（检索增强生成）

　　RAG 是目前最常见的 AI 架构之一，它的核心思想是把“检索”和“生成”结合起来。

　　传统大模型在回答问题时，往往依赖自身训练数据，无法获取实时信息，也不了解私有数据。而 RAG 的做法是，在模型生成之前，先从知识库中检索相关内容，再把这些内容一起提供给模型。

　　这样做的好处是可以显著提升回答的准确性，并减少模型“编造内容”的情况。在企业知识库、智能客服等场景中，RAG 已经成为一个标准方案。

7、Agent（智能体）

　　Agent 可以理解为一种更高级的 AI 形态，它不仅能回答问题，还可以根据目标自主决策并调用工具。

　　和普通问答不同，Agent 更强调“执行能力”。比如用户提出一个复杂需求，它可以拆解任务、调用不同接口，并最终给出结果。

　　在后端系统中，Agent 通常需要和各种服务打通，例如数据库查询、搜索接口或业务 API。它的出现，让 AI 从“信息生成”进一步升级为“任务执行”。

8、Function Calling（函数调用）

　　Function Calling 是连接大模型和后端系统的一种重要机制。通过这种方式，模型可以在生成过程中决定调用某个函数，并给出对应参数。

　　后端接收到调用请求后执行实际逻辑，比如查询数据库或调用外部接口，然后再把结果返回给模型，模型再继续生成最终答案。

　　在实际项目中，这种机制可以让 AI 具备操作能力，而不仅仅是生成文本。例如订单查询、天气查询等场景，都可以通过这种方式实现。

9、Fine-tuning（微调）

　　微调是指在已有模型基础上，用特定数据再次训练，使模型更适合某个业务领域。

　　比如用企业内部数据去训练模型，可以让它更理解业务语境和专业术语。

　　不过在大多数后端项目中，通常不会优先选择微调，而是通过 Prompt 和 RAG 来解决问题。原因在于微调成本较高，而且模型更新和维护复杂，只有在对效果要求非常高的情况下才会考虑。

10、Hallucination（幻觉）

　　幻觉是指模型生成了看似合理但实际上错误的内容，这是大模型中比较常见的问题。

　　本质原因在于模型并不是在“查事实”，而是在“预测概率”。因此即使没有相关信息，也可能生成看起来很真实的答案。

　　在工程中，通常会通过增加约束来减少幻觉，例如使用 RAG 引入真实数据，或者在 Prompt 中明确限制模型只能基于给定内容回答。

11、Context（上下文）

　　上下文是模型在生成答案时可以看到的全部信息，包括用户输入、历史对话以及系统提供的数据。

　　上下文越丰富，模型理解能力越强，但同时也会带来成本增加和长度限制的问题。

　　在后端设计中，需要对上下文进行合理控制，比如只保留最近几轮对话，或者只传递最相关的检索结果，以平衡效果和性能。

12、Streaming（流式输出）

　　流式输出是指模型生成结果时不是一次性返回，而是逐步输出内容。

　　这种方式在用户体验上更加自然，可以让用户更快看到结果，类似聊天应用中的“打字效果”。

　　在后端实现上，一般会通过 SSE 或类似机制，把模型生成的数据实时推送给前端。这一块在实际项目中也比较常见，属于体验优化的重要手段。

总结

　　从整体来看，这些 AI 名词可以分成三个层面来理解。

　　第一层是模型能力，比如 LLM 和 Prompt，决定了系统“能生成什么”；
　　第二层是数据能力，比如 Embedding、向量数据库和 RAG，决定了“生成得准不准”；
　　第三层是执行能力，比如 Agent 和函数调用，让 AI 从“回答问题”升级为“完成任务”。

　　对于后端开发来说，真正的核心并不是掌握模型原理，而是如何把这些能力组合起来，融入到业务系统中。

　　当你能从工程实现的角度，把这些概念讲清楚并结合实际场景说明时，基本已经具备 AI 方向面试的核心竞争力了。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

知网AI率超50%怎么破？2026高效降AI工具方法指南

AtomGit开源社区

2026实用降AI工具测评：选这几款高效不踩坑

AtomGit开源社区

知网AI率超50%怎么破？2026高效降AI工具方法指南

AtomGit开源社区

所有评论(0)

查看更多评论

填满你的记忆

@Tjy2186987211

已为社区贡献5条内容

从 LLM 到 RAG：后端面试中最常见的 AI 名词整理（通俗版）

填满你的记忆

1、LLM（大语言模型）

2、Prompt（提示词）

3、Token

4、Embedding（向量化）

5、向量数据库

6、RAG（检索增强生成）

7、Agent（智能体）

8、Function Calling（函数调用）

9、Fine-tuning（微调）

10、Hallucination（幻觉）

11、Context（上下文）

12、Streaming（流式输出）

总结

所有评论(0)

温馨提示：您尚未绑定手机号

填满你的记忆