【大模型实战 1】RAG 到底是什么？为什么 LLM 需要外挂知识库？

程序学到昏

286人浏览 · 2026-05-08 17:16:03

程序学到昏 · 2026-05-08 17:16:03 发布

前阵子咱们刚聊完怎么把大模型跑起来。模型跑通了，很多人第一个念头就是：“喂，这玩意儿怎么老瞎编？”或者“怎么连昨天的新闻都不知道？”

别急着去搞什么微调、训练。今天咱们聊聊大模型最实用的外挂技能 —— RAG。

🤔 为什么大模型总爱“一本正经地胡说八道”？

用过 ChatGPT、文心一言或者自己部署过 Gemma、Llama 的朋友，大概率遇到过这两种情况：

1. 幻觉问题：你问它“鲁迅为什么暴打周树人”，它真能给你编出一段民国秘闻，连时间地点都有鼻子有眼。
2. 知识过期：你问它“2026 年 LPL 春季赛冠军是谁”，它告诉你训练数据只到 2024 年，然后开始瞎猜。

这真不是模型笨，而是它们的出厂设置决定了这一点。

大模型本质上是个“概率接龙机器”。你给它上半句，它根据以前读过的海量文本，猜出下半句概率最高的词。它不是在“思考”，而是在“回忆”。

如果它记忆里没这事儿，或者记混了，它就会自信地给你编一个。这就是幻觉（Hallucination）。

那怎么治？

📖 闭卷考试 vs 开卷考试

想象一下你参加高考：

纯大模型 = 闭卷考试
全靠脑子里以前背的东西答题。没复习到的盲区，只能靠蒙。蒙错了还觉得自己特对。
RAG（检索增强生成） = 开卷考试
允许你带一本厚厚的参考书进考场。答题前先翻书，找到原文，然后结合原文用自己的话把答案写出来。

RAG 的全称是 Retrieval-Augmented Generation（检索增强生成）。

翻译成人话就是：先查资料，再回答问题。

它不改动模型的任何参数（不用重新训练），只是在模型回答之前，先给它塞点“参考资料”。

⚙️ RAG 到底是怎么工作的？

别看名字高大上，RAG 的核心流程就三步。咱们拆开看，一点都不复杂。

第一步：切块（Chunking）

你总不能把一本 500 页的 PDF 直接扔给模型吧？模型有“胃口限制”（上下文窗口），一次吃不下太多。而且扔太多，它也找不到重点。

所以，得把文档切成小块。

一本厚厚的员工手册
  ↓
切成一段一段的
  ↓
[第1块：考勤制度]
[第2块：报销流程]
[第3块：年假规定]
...

切多大合适？一般 300-500 字一块。太大模型抓不住重点，太小上下文不连贯。

第二步：向量化（Embedding）

切完块，怎么存？怎么查？

传统的搜索是靠“关键词匹配”。你搜“请假”，文档里必须有“请假”这两个字才能命中。

但大模型时代，我们用的是向量搜索。

简单说，就是把每一段文字变成一串数字（向量）。这串数字代表了这段话的“意思”。

“怎么申请年假” 和 “休假流程怎么走” 意思相近，它们的向量在数学空间里就离得很近。
“怎么请假” 和 “今天天气不错” 意思完全不搭边，向量就离得十万八千里。

这一步就是把所有的文本块，都转化成数字，存进一个叫向量数据库的地方。

第三步：检索+生成（Retrieve & Generate）

用户提问了：“年假怎么休？”

1. 检索：系统把这个问题也变成向量，去向量库里找“意思最接近”的那几块资料。
2. 拼装：找到资料后，把问题和资料拼在一起，发给大模型。

请根据以下资料回答问题：
【资料】员工每年享有 5 天带薪年假，需提前 3 天在 OA 系统提交申请。
【问题】年假怎么休？

3. 生成：模型看着资料，老老实实地总结出答案：“你需要提前 3 天在 OA 系统提交申请，每年有 5 天带薪年假。”

完美。没有瞎编，因为答案就在资料里。

🆚 既然能学，为什么不直接“微调”模型？

经常有人问：“我把公司手册喂给模型微调一下，不就能直接回答问题了吗？干嘛搞得这么麻烦？”

这就好比：

- 微调（Fine-tuning）
= 让员工去背下整本员工手册。

优点：背熟了反应快。
缺点：背错了改起来麻烦（得重新背）；手册更新了得重新背；而且人脑容量有限，背了这本忘了那本。

- RAG
= 给员工发一本随时更新的手册，让他现场查。

优点：手册改了不用重新培训员工；永远能查到最新版；不用死记硬背。
缺点：现场查书需要一点时间（延迟稍高）；如果书里写得不清楚，员工也可能答不好。

结论：

想要模型学会说话风格、专业术语、特定格式 → 选微调。
想要模型掌握最新知识、公司私有数据、频繁变动的信息 → 选 RAG。

绝大多数企业应用（客服、知识库、文档问答），RAG 都是性价比最高的选择。

🎯 哪些场景最适合上 RAG？

如果你的需求符合下面任意一条，RAG 就是你的菜：

场景	为什么适合 RAG
企业内部知识库	规章制度天天变，微调跟不上，RAG 随时更新
智能客服	产品说明书几十万页，模型记不住，RAG 现查现答
法律/医疗咨询	必须严谨，不能瞎编，RAG 能给出引用来源
个人笔记问答	把自己写的 Markdown 笔记丢进去，随时问“我上周写了啥”

🛠️ 搞 RAG 需要准备啥？

别被吓到，RAG 不是非得大公司才能玩。个人电脑完全能跑通最小可行性版本（MVP）。

你需要准备三样东西：

1. 一个大模型：咱们之前部署的 Gemma 4、Ollama 里的 Llama 3 都行。不用太大，7B-9B 足够处理检索后的短文本。
2. 一个向量数据库：别一听数据库就头大。新手直接用 Chroma 或者 FAISS，几行 Python 代码就能跑起来，连安装都不用，纯本地文件存储。
3. 一套文档处理流程：把 PDF/Word 转成文本，切块，存起来。Python 的 LangChain 或者 LlamaIndex 框架都帮你封装好了。