很多团队做 RAG,第一反应是换更强的大模型。 但真正做过系统后,你会发现:

RAG 的上限,很多时候并不由模型决定,而是由前面的检索链路决定。

用户问同一个问题,为什么有时答得很好,有时却答非所问? 问题往往出在这四个环节:

  • 分块
  • 检索
  • 重排序
  • Prompt

如果这四个地方做得粗糙,再强的模型也很难稳定发挥。


一、分块:为什么“怎么切文档”会决定回答质量


图片

分块是 RAG 里最容易被低估的一环。 因为知识库不是把整篇文档直接丢进去就结束了,而是要先拆成可检索的小片段。

但问题来了:到底怎么切?

1. 固定长度切分

这是最简单的方法。 比如每 500 个字符切一块。

优点是实现简单、管理方便。 但问题也很明显: 它可能把一个完整句子、一个完整步骤、一个完整条款硬生生切开。

结果就是: 检索到了“半句话”,模型理解自然会出错。

2. 语义切分

更合理的做法,是按照段落、章节、句子边界来切。 也就是说,尽量保证一个块里承载的是一段完整意思。

这样做的好处是:

  • 语义更完整
  • 检索命中后更容易直接回答
  • 上下文更连贯

但代价是实现更复杂,也更依赖规则或模型能力。

3. 递归切分

这是工程上很常见的一种折中方案。 思路是:优先按章节、段落来切;如果还太长,再按句子切;再不行,最后才用固定长度兜底。

这种方式既保留了结构感,也兼顾了可控性。 对于企业文档、说明书、制度手册来说,通常比单纯固定切分更稳。

4. 分块到底怎么选

一个简单判断标准是:

  • 如果块太小,信息不完整
  • 如果块太大,噪声太多
  • 如果没有适当重叠,关键信息可能被切断

所以分块本质上不是“切得越细越好”, 而是要找到 语义完整性、召回率和性能开销 之间的平衡。


二、检索:为什么只用向量搜索往往不够


图片

很多人一提 RAG,就默认是“向量检索”。 但真实系统里,单一向量检索并不总是最优解。

1. 向量检索擅长什么

向量检索最大的优势是能理解语义。

比如用户问:“怎么提高系统性能?”

文档里可能写的是“系统优化方案”。 虽然字面不同,但语义接近,向量检索通常能找到。

这类“意思相近但措辞不同”的问题,向量检索很有优势。

2. 向量检索不擅长什么

它的短板也很明显:

  • 对术语、ID、报错码的精确匹配不够稳定
  • 对短查询有时理解不足
  • 对噪声较敏感

比如用户问:“Error 404 是什么意思?”

这类查询其实更适合关键词精确匹配。

3. 为什么要混合检索

成熟的 RAG 通常会把:

  • 向量检索
  • BM25 关键词检索

结合起来使用。

原因很简单:

  • 向量检索负责“懂意思”
  • 关键词检索负责“找得准”

对于技术文档、代码库、制度条款、报错信息这类场景,混合检索通常比单一路径更稳。

4. 工程上的一个实用原则

如果你的问题里包含:

  • 产品型号
  • 错误代码
  • 专有名词
  • 版本号
  • 年份/季度

那关键词检索的重要性通常会明显上升。

而如果你的问题是自然语言解释型问题, 比如“如何申请报销”“怎样处理噪声故障”, 向量检索的价值会更大。


三、重排序:检索到了,不等于排序就对了


图片

检索拿到的 Top-K 结果,并不一定就是最适合回答问题的结果。

这时候就需要 Rerank(重排序)。

你可以把检索理解为“广泛找候选”, 把重排序理解为“二次精挑细选”。

1. 为什么需要重排序

因为初步检索往往更注重“召回”, 而真正送给模型的上下文,更需要“高相关”。

如果把一堆边缘相关内容都交给模型, 模型很可能会被干扰,甚至答偏。

2. 重排序能解决什么

它能帮助系统:

  • 把真正相关的信息排到前面
  • 降低噪声内容进入 Prompt 的概率
  • 提高 Top-1、Top-3 的命中质量

对 RAG 来说,这一步常常直接影响最终答案的准确率。

3. 常见做法

比较典型的方式是:

  • 先用向量检索或混合检索拿到 Top 20 或 Top 50
  • 再用更精细的模型做重排序
  • 最终只把前几条高质量结果送给大模型

这类重排序模型,往往比基础检索更懂“问题和文档之间真正是否匹配”。


四、Prompt:为什么有资料,模型还是会答错


图片

很多人以为只要把检索结果扔给模型就行。 实际上,Prompt 设计会直接决定模型有没有“老老实实看资料”。

1. Prompt 的核心作用

一个好的 Prompt,不只是告诉模型“请回答问题”, 还要明确三件事:

  • 你的角色是什么
  • 你必须依据什么回答
  • 上下文不足时应该怎么办

如果没有这些约束,模型很可能重新依赖它自己的参数记忆,产生幻觉。

2. 一个好 Prompt 至少要做到什么

至少要告诉模型:

  • 你是一个知识库助手
  • 回答必须基于提供的上下文
  • 如果上下文不足,不要编造
  • 输出尽量简洁、专业、结构清晰

这听起来只是几句话,但它往往能明显降低“看起来很像对,其实没依据”的回答。

3. Prompt 还能怎么继续优化

在更成熟的系统里,Prompt 还会进一步做:

  • 针对不同问题类型动态切换模板
  • 保留多轮对话历史
  • 规定输出格式
  • 加入安全约束
  • 引导模型优先引用上下文中的关键信息

所以,Prompt 不是装饰,而是 模型执行规则。


五、如果你要排查 RAG 效果,先看这四件事


图片

当一个 RAG 系统答得不稳定时,不要第一时间怪模型。 先从这四个问题排查:

1. 文档是不是切坏了

关键信息是否被切断?块是不是太大或太小?

2. 检索是不是太单一

是不是只用了向量检索,漏掉了关键词精确匹配?

3. 结果排序是不是不够准

是不是把边缘相关内容送给了模型?

4. Prompt 是不是约束不够

是不是没有明确要求“必须基于上下文作答”?

很多时候,把这四个环节调顺, 效果提升比换模型更明显,也更省成本。


结语

RAG 不是“上一个向量库”就万事大吉。 真正稳定的系统,往往不是靠某个单点技术取胜,而是靠多个细节同时到位。

对初学者来说,只要先抓住这四个关键词:

分块、检索、重排序、Prompt,

你就已经理解了 RAG 调优最核心的骨架。

下一篇,我们讲更现实的问题:RAG 到底怎么评估?它为什么会失败?又适合落地在哪些业务场景里?

这里给大家精心整理了一份全面的AI大模型学习资源包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

7. 资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐