RAG幻觉并非LLM自身缺陷,而是pipeline环节问题导致LLM基于错误信息生成答案。文章提出“先分类、再定位、后治理”的核心思路,将幻觉分为检索缺失型、检索噪声型、生成背离型、知识冲突型四类,并针对每类给出检测和修复手段。强调通过阶段归因测试定位幻觉来源,并分别从检索侧(提升召回、降低噪声)和生成侧(忠实度约束、置信度感知生成)进行治理。最后介绍RAGAS和自建体系进行幻觉自动化评估,以及知识冲突型幻觉的专项处理方法。

RAG 出现幻觉,并不是 LLM 本身不够聪明——更多时候,是整个 pipeline 的某个环节出了问题,让 LLM 在一个错误或不足的信息基础上去生成答案。

这道题的难度在于:它没有一个固定的"标准答案框架",考察的是你能不能把"幻觉"这个笼统的现象拆解成可定位、可操作的具体问题。

很多人回答这道题时,第一反应是说"用更好的 LLM"或者"加强 Prompt 工程"。这两个方向不能说错,但它们都是末端的补救。如果你不能准确定位幻觉来自 pipeline 的哪个环节,任何补救措施都只是碰运气。

要回答好这道题,核心思路是:先分类、再定位、后治理。把幻觉按照在 pipeline 中的产生位置分成几类,针对每类给出对应的检测和修复手段,这样答案才有体系感,而不是零散的"我试过这些方法"。

RAG幻觉分类与治理知识框架总览图

RAG 幻觉不是一个问题,是四类问题

"幻觉"在 RAG 语境下是一个过于笼统的��法。把它拆开来看,可以分成四种来源不同、治理手段也不同的类型。

检索缺失型幻觉是最基础的一类:知识库里根本没有问题的答案,或者检索没有把相关文档召回来。LLM 面对空洞的上下文,只能用自身参数知识去"脑补"。这类幻觉的外在表现往往是答案看起来很流畅、很有逻辑,但和文档内容完全无关。在金融保险场景里,这种幻觉是最危险的——用户问具体条款,LLM 给出了听起来很合理但完全不来自合同文档的内容。

检索噪声型幻觉:文档召回了,但召回的 Chunk 质量太差——和问题只是表面上有词汇重合,实际上不包含有效的答案内容。LLM 拿到一堆噪声文档,在没有任何相关信息的情况下仍然倾向于"生成一个答案",而不是说"我不知道"。这是 LLM 的固有倾向:生成能力越强的模型,越不容易主动承认"检索结果不包含答案"。

生成背离型幻觉:文档检索到了,内容也相关,但 LLM 在生成时没有忠实地基于文档内容,而是加入了自己的"发挥"——推断了文档没有明说的结论,或者把文档 A 的内容错误地归因到了实体 B 上。这类幻觉最难被用户发现,因为生成内容和文档内容高度相似,只是在关键细节上发生了偏移。

知识冲突型幻觉:检索文档与 LLM 的参数知识发生冲突,或者多个检索文档之间相互矛盾。LLM 在处理冲突信息时没有明确的优先级规则,可能随机选择其中一个来源,也可能生成一个"折中"的答案,两边都只说了一半。

这四种类型不是互斥的,一个错误答案可能同时涉及多种。但分类的价值在于——它让你在定位时有明确的检查方向,而不是在黑盒里瞎猜。

阶段归因:幻觉出在哪一步

定位幻觉的正确姿势是阶段归因测试:把 RAG pipeline 拆成几个节点,在每个节点上单独检查输出质量,快速确定幻觉的来源。

检索阶段归因:拿到一批有幻觉的问答对后,先不看 LLM 的回答,直接看检索到的 Chunk 列表。问两个问题:(1)这些 Chunk 里有没有包含问题的答案?(2)如果有,答案所在的 Chunk 排在 Top-K 的第几位?

如果答案所在文档根本不在 Top-K 里,幻觉来自检索层,重点优化召回率和检索策略。如果答案在 Top-K 里但排名靠后(比如在第 5、6 位),幻觉可能来自 Rerank 或 Chunk 排序,优化精排策略。如果答案排在 Top-1 或 Top-2,但 LLM 还是给了错误答案,幻觉来自生成层,看生成侧的治理手段。

生成阶段归因:专门针对"检索正确但生成错误"的情况,检查 LLM 是否忠实于文档内容。一个可操作的方法是做"直接引用测试":把正确的文档 Chunk 直接放进 Prompt,要求 LLM 只能基于给定文档回答,不得使用其他知识。如果这种强约束下 LLM 仍然给出错误答案,说明是 LLM 本身的生成忠实度问题。如果强约束下给出了正确答案,说明是上下文组织或 Prompt 设计问题。

在我们的训练营 RAG 实战项目中,排查一批幻觉样本时,我们发现约 60% 的幻觉来自检索层(文档未召回或噪声文档排名过高),约 25% 来自生成层(LLM 在模糊语境下过度推断),约 15% 来自知识冲突(不同版本的保险条款在同一知识库里共存)。这个分布让我们把优先级放在了检索优化上,而不是一开始就去做 LLM 微调,节省了大量工程成本。

RAG幻觉阶段归因测试流程图

检索侧幻觉的治理手段

针对检索层的幻觉,治理手段可以分为"提升相关文档的召回"和"降低噪声文档的干扰"两个方向。

提升召回的核心手段已经在其他题目里讲过(查询改写、混合检索、分块策略优化),这里重点说一个在幻觉治理语境下特别重要的细节:召回率的评估必须和幻觉率联动。很多团队在优化检索时只看 Precision@K(前 K 个结果里有多少相关文档),但在幻觉治理里,Recall@K 更重要——只要包含答案的文档被召回了,就算它排在第 K 位,后续的 Rerank 也有机会把它提上来。如果包含答案的文档根本没有被召回,后续任何手段都无济于事。

噪声过滤是另一个被低估的手段。在检索 Top-K 的结果里,往往有相当一部分 Chunk 和问题只是词汇上有重叠,实际上不包含有效信息。如果把这些噪声 Chunk 全部送进生成上下文,LLM 面对大量低质量文档时,幻觉率会显著上升。

两种常见的噪声过滤方法:(1)设置相似度阈值,低于阈值的 Chunk 直接丢弃,不进入生成上下文;(2)用 Cross-Encoder Reranker 对 Top-K 做精排,Cross-Encoder 能更准确地判断文档和 query 的真实相关性,把噪声文档的得分压低,让其自然被截断。

**相关性验证(Relevance Verification)**是一个更进一步的手段:在生成前,用一个轻量级模型专门判断检索到的每个 Chunk 是否真的包含当前问题的答案(而不只是"话题相关"),不包含答案的 Chunk 即使通过了相似度阈值也直接过滤掉。这个额外步骤会增加延迟,通常用在对准确性要求极高的场景(比如法律、医疗、金融合规)。

在我们的训练营 RAG 项目里,引入 Cross-Encoder Reranker 之后,上下文里噪声 Chunk 的比例从约 40% 降到了 18%,对应的幻觉率下降了 22 个百分点。这个数据说明,噪声 Chunk 对 LLM 生成质量的负面影响比直觉上更大——LLM 在处理混入大量噪声的上下文时,"忽略无关信息"的能力是有上限的。

生成侧幻觉的治理手段

检索侧做好之后,生成侧仍然是一道防线。LLM 的生成忠实度(Faithfulness)问题不会因为检索变好而自动消失。

忠实度约束 Prompt:在系统提示词里明确告诉 LLM"只能基于以下参考文档回答,不得使用文档之外的知识,如果文档不包含答案,明确说明’文档中未找到相关信息’"。这条指令看起来简单,但措辞细节很重要。"不得使用文档之外的知识"比"尽量基于文档回答"有效得多——前者是约束,后者是建议,LLM 遵守约束的比率远高于遵守建议。

实践中还有一个有效的技巧:要求 LLM 在回答中标注引用来源——“请在回答的每个关键论断后面,用【来源:第N段】的格式标注你引用的文档段落”。这个要求一方面迫使 LLM 在生成时必须找到对应的文档依据,减少"脑补"的空间;另一方面让用户可以验证答案的来源,提升系统可信度。

置信度感知生成(Confidence-Aware Generation):训练或 Prompt LLM 在不确定时表达不确定性,而不是给出一个看起来很自信的错误答案。这个能力很多 LLM 在标准场景下表现得并不好——它们倾向于生成流畅的答案,即使内心"不确定"。可以通过 few-shot 示例来引导:给 LLM 几个"文档不足时应该如何表达不确定"的示例,让它学会说"根据现有文档,这个问题无法完全确认,但……"。

幻觉自检(Self-Consistency Check):对于高风险的问答,在生成后让同一个(或另一个)LLM 检查回答是否有超出文档的内容。具体做法是给 LLM 展示文档和生成的答案,问它:“这个答案中是否包含参考文档中没有明确说明的内容?”。这个自检步骤增加了一次 LLM 调用的成本,适合对准确性要求极高的场景,不适合高并发实时场景。

生成侧幻觉治理手段演进图

幻觉的自动化评估:RAGAS 和自建体系

人工检查幻觉在 demo 阶段可以,到了生产环境就必须有自动化评估体系。

RAGAS 框架是目前最常用的 RAG 评估工具,它定义了几个和幻觉直接相关的核心指标:

Faithfulness(忠实度):答案中每个声明是否都能在检索文档中找到支撑。计算方式是把答案拆成若干原子陈述,逐一判断是否有文档依据,有依据的比例就是 Faithfulness 分数。分数低表示生成背离型幻觉严重。

Answer Relevancy(答案相关性):答案是否真正回答了用户的问题。可以用一个反向测试:让 LLM 基于给定的答案生成可能的问题,如果生成的问题和原始问题相似度高,说明答案确实回答了问题。这个指标能抓住"答非所问"类型的幻觉。

Context Precision / Context Recall:检索到的上下文中有多少是真正有用的(Precision),以及所有有用的信息有多少被检索到了(Recall)。这两个指标直接指向检索层的幻觉根源。

RAGAS 的局限性在于它依赖 LLM 做评估(LLM-as-Judge),而 LLM 评估本身也不是100%准确的,且成本不低。在实际工程中,通常把 RAGAS 用于离线的批量评估(定期抽样跑一批问答对),而不是线上每次请求都跑一遍。

对于不想引入外部评估框架的团队,可以自建一套轻量评估体系:

  • 用 BERTScore 或词汇重叠度(ROUGE)粗筛答案和文档的相似度,低于阈值的标记为疑似幻觉
  • 用关键实体抽取对比:从问题、文档、答案中分别抽取关键实体,检查答案里是否出现了文档中没有的实体
  • 构建一批已知答案的"黄金问答集",定期用新版本的 pipeline 跑,追踪幻觉率的变化趋势

在我们的训练营 RAG 实战项目中,我们最终采用了一套分层评估方案:每天晚上用 RAGAS 跑一批抽样评估,设定 Faithfulness < 0.7 的自动告警;同时维护一个 100 道题的黄金测试集,每次迭代必须保证黄金集上的答案质量不下降。这套机制让我们在快速迭代的同时,对幻觉率有了可量化的把控。

RAG幻觉评估指标对比表格图

知识冲突型幻觉的专项处理

知识冲突是一个容易被忽略但在生产环境里相当棘手的幻觉来源,值得单独拿出来说。

冲突有两种形式:文档内冲突(同一知识库里不同文档对同一问题给出了矛盾的陈述,常见于版本迭代的场景)和文档-参数冲突(检索文档的内容和 LLM 的参数知识相矛盾,常见于时效性知识或领域专有知识)。

对于文档内冲突,工程上的处理优先级是:

  1. 知识库维护层面

    :建立文档版本管理机制,同一主题下只保留最新有效版本的文档,过期文档及时归档。这是治本的手段,但需要持续的运营投入。

  2. 检索时冲突检测

    :在生成前,检查 Top-K 文档中是否存在针对同一主题的相互矛盾内容。可以用简单的关键词+日期字段粗筛,发现冲突时触发专门的冲突处理流程。

  3. 生成时冲突告知

    :在 Prompt 中显式告知 LLM"以下文档可能存在矛盾,请指出矛盾所在并以最新日期的文档为准,同时告知用户存在版本差异"。

对于文档-参数冲突,主流的处理原则是优先使用文档知识,而不是 LLM 的参数知识——因为在 RAG 场景下,文档通常是更新、更具体、更权威的信息来源。这个优先级需要在 Prompt 里明确声明,否则 LLM 可能在冲突时倾向于相信自己的参数知识(毕竟它被大量文本训练过,"自信心"很强)。

面试如何回答这道题

这道题的加分在于有没有"先分类再定位"的体系感。答题路径建议如下:

第一层:给幻觉分类(30秒)

直接说出四类幻觉:检索缺失型、检索噪声型、生成背离型、知识冲突型,每类一句话说明外在表现。这一步让面试官知道你对这个问题有结构性认知,不是泛泛而谈。

第二层:说定位方法(1分钟)

阶段归因测试是核心——先看检索结果质量(答案在不在 Top-K),再看生成忠实度(约束测试)。提一下 RAGAS 的 Faithfulness 和 Context Recall 指标,体现评估体系的概念。

第三层:分层治理方案(1.5分钟)

检索侧:召回率优化 + 噪声过滤 + Reranker 精排。生成侧:忠实度约束 Prompt + 引用标注 + 幻觉自检(说明各自的适用场景和成本)。

第四层(加分项):知识冲突专项 + 自动化评估体系

说出文档内冲突的版本管理和冲突处理 Prompt,以及自建评估体系(黄金测试集 + RAGAS 批量评估)。这两个细节是深度加分项,大多数候选人答不到这层。

追问准备:

  • “Faithfulness 分数低,怎么提升?” — 检查是否是 Prompt 约束不够、还是检索噪声太多,对症处理
  • “知识库更新频率很高,幻觉怎么控制?” — 版本管理 + 定期重新评估黄金测试集
  • “幻觉自检会不会让 LLM 自己检查自己?” — 可以用不同温度、不同 Prompt 的同一模型,或用另一个更小的专项判别模型

面试答题框架图

RAG 幻觉问题的本质是一个可靠性工程问题,不是单一技术问题。能把它从"这个系统会说假话"拆解成"pipeline 的第 N 步出了什么问题、对应的修复手段是什么",这才是面试官想看到的工程成熟度。

从分类到定位,从检索侧治理到生成侧控制,再到自动化评估体系——这条主线覆盖了实际项目里 90% 的幻觉场景。剩下的 10%,往往是知识库本身的质量问题,属于数据工程而不是模型工程,但提一句"数据治理是幻觉治理的前提"也是加分的。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐