大模型判断检索到的文档列表能否回答问题,是通过一套概率计算、模式匹配和语义理解完成的。

简单来说,LLM不是确定,而是推断文档列表是否有可能包含了回答问题的信息。

这里尝试基于网络资料,梳理LLM判断文档能否回答问题常用流程,分析其原理以及前沿技术。

1 常用流程

这里首先示例RAG系统LLM判断检索文档是否能回答问题的常用处理流程。

1.1 理解问题和文档

LLM 将用户问题和检索到的文档列表都转换成它可以处理的格式,通常是向量。

1)问题向量,捕捉了问题的核心语义、意图和关键词。

2)文档块向量,每个文档块,比如一段文字,也被转换成向量。

1.2 判断相关性

这是最核心的一步。LLM 或其配套的检索器会计算问题和每个文档块之间的语义相似度。

它会在高维语义空间里计算问题向量和文档块向量的距离。

距离越近,比如余弦相似度越高,说明它们在语义上越相关。

示例如下

问题:“中国的首都是哪里?”
-  文档A:“北京是中国的政治、文化中心。”(语义距离近,高度相关)
-  文档B:“上海是中国的经济中心,拥有庞大的港口。”(语义距离稍远,部分相关)
-  文档C:“西红柿炒鸡蛋是一道家常菜。”(语义距离非常远,不相关)

检索器会对文档进行一个初步的、粗粒度的相关性打分和排序。

1.3 评估信息充分性

这是LLM真正思考是否能回答问题的阶段。

当相关文档被送入 LLM 的上下文窗口后,它会进行更深层的分析:

1)答案覆盖度扫描

LLM 会尝试在文档中寻找能够直接回答问题的答案片段。相当于

从这些文本的词汇和语义组合来看,评估是否推理出一个符合问题期望的答案,概率有多大?

2)逻辑连贯性检查

如果问题需要多步推理。比如

苹果公司创始人哪年出生?

LLM 会检查文档是否提供了所有必要的推理链。

文档A:“苹果公司创始人是乔布斯。”
文档B:“乔布斯生于1955年。”

只有当这两条信息都存在,并能逻辑串联起来时,LLM才能推断出“1955年”这个答案。

3)信息缺失检查

RAG系统检索的文档有可能遗漏关键信息。

比如,所有文档都只讨论了苹果公司的产品,而没有提及创始人。

如果是问苹果公司创始人,限制使用RAG文档,LLM内在机制会计算出一个很低的答案存在概率。

此时,LLM倾向于回答,“根据提供的文档,无法回答这个问题。”

4)信息冲突检查

现实世界中,很多信息不是明确的,有可能是隐含的,也有可能相互冲突。

文档A说“事件发生在2020年”

文档B说“事件发生在2021年”,

LLM 会捕捉到这种矛盾。

当提供的信息前后矛盾是,目前大部分LLM会说明文档中存在矛盾信息。

部分LLM能根据多数证据、信息源的权威性来选择一种更可能或合适的回答。

1.4 知识和指令

LLM不仅仅依赖文档,还可以结合内部知识和遵循指令回答问题。

1)内部知识

现实场景中,RAG检索文档中没有直接答案。

LLM 可能会利用预训练阶段学到的内部知识来补充或理解文档。

例如,如果文档提到“那个人”,LLM需要结合上下文推断出“那个人”指的是谁。

当然,如果过度联想和过度推理,有可能导致异常幻觉和意长结论。

所以,大部分RAG在提示词中限制LLM主要依据检索到文档来回答,即遵循指令。

2)遵循指令

LLM的判决过程深受提示词的影响,以下是一个RAG 系统的提示词示例。

“你是一个问答助手。你**只能**基于以下提供的文档内容来回答问题。

如果文档中没有足够信息来给出确定答案,请直接说‘文档中未找到相关信息’,不要编造答案。”

这相当于给LLM设定了一个行为准则,LLM会尽力遵循这个准则去判断信息是否足够。

2 前沿探索

以上示例了LLM判断检索文档能否回答问题的经典常用流程。

这里进一步学习这些流程背后原理的论文,以及相关前沿技术论文。

 2.1 相关性匹配

这些研究试图打开黑箱,看看模型内部到底在算什么。

论文: Pathway to Relevance: How Cross-Encoders Implement a Semantic Variant of BM25》

这篇论文用mechanistic interpretability的方法,像拆解一台精密仪器一样,拆解了一个基于BERT的交叉编码器模型。发现网络内部在模拟一个经典的信息检索算法BM25。

1)“软”词频统计

模型中的特定attention heads注意力头,不仅在统计查询词在文档中出现的次数即词频,还在统计语义相近词的出现次数。作者称之为 `soft-TF`。例如,查询“汽车”,文档中的“轿车”也会被计入。

2)逆文档频率

模型能够捕捉到词语的稀缺性信息。一个词在整个文档集合中越少见,当它出现在文档中时,对相关性分数的贡献就越大。

3)信息聚合

在模型的中间层到后层,这些被提取出的“软词频”、“词稀缺性”等信号,会像BM25算法那样被组合起来,最终计算出文档与查询的相关性得分。

为了证明这些组件的存在,研究者采用了因果介入法。通过精心设计的诊断数据集,比如,在文档中插入一个查询词的同义词,观察模型特定“注意力头”的行为变化,从而建立起因果关系,而不仅仅是相关性。

论文: "基于双向文本扩展的信息检索重排方法"

这篇论文提供了一个非常实用的增强匹配新思路。

它提出了一种双向文本扩展方法,不改变模型结构,通过丰富查询和文档的“上下文”来提升匹配准确率。

1)生成伪文档

对于用户输入的查询,让LLM“脑补”一篇它可能想找的理想文档。

2)生成伪查询

对于库里的每一篇文档,也让LLM“猜测”什么样的查询会命中它。

3)双向融合

最后通过加权融合“原始查询-原始文档”和“伪查询-伪文档”的相似度得分,得到最终的排序结果。这相当于在查询和文档之间架起了多座语义理解的桥梁。

该方法在TREC DL19和DL20两个公开数据集上效果显著,证明了通过生成技术增强表征,可以有效提升相关性匹配的性能。

2.2 评估体系

当用LLM做评判时,它评判得准不准?这个方向的研究就是来解决这个问题的。

论文: CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation

这篇论文提出了一个名为 CCRS(Contextual Coherence and Relevance Score)的评估框架。

它是零样本和端到端,不需要任何训练,直接用一个LLM从五个维度对RAG输出进行打分。

1)Contextual Coherence (CC,上下文连贯性),生成的答案与检索到的上下文是否逻辑连贯?

2)Question Relevance (QR,问题相关性),检索到的文档是否与用户问题相关?

3)Information Density (ID,信息密度),检索到的文档中,有多少信息被用到了最终答案里?是否存在信息冗余?

4)Answer Correctness (AC,答案正确性),生成的答案本身是否正确、忠实于事实?

5)Information Recall (IR,信息召回),正确答案所需关键信息,是否都从检索文档中被召回了?

论文将CCRS与当时复杂的RAGChecker框架进行了对比,证明其在评估召回率和忠实度等关键指标上,拥有同等甚至更强的区分能力,但计算效率却高得多,为RAG系统的迭代优化提供了一个非常实用的工具。

论文: RAGEvalX: An Extended Framework for Measuring Core Accuracy, Context Integrity, Robustness, and Practical Statistics in RAG Pipelines》

CCRS是专精深,RAGEvalX追求的就是广而全。

它提出了一个更全面的四维评估框架,旨在衡量RAG系统的整体健康状况。

1)Core RAG Accuracy 核心准确度),包括答案的忠实度(Faithfulness)和相关性(Relevancy),这是基础。

2)Context Integrity (上下文完整性),评估检索到的信息的质量。例如,是否包含了足够的信息来回答问题?
3)Robustness (鲁棒性),评估系统在面对输入扰动(如错别字、同义词替换)时,是否还能稳定输出正确答案。这对于实际应用至关重要。
4)Practical Statistics (实用统计指标),提供用于运营监控的指标,如检索延迟、系统吞吐量等。

RAGEvalX旨在为开发者提供一个可落地的、标准化的评估指南,帮助优化RAG系统,使其不仅准确,而且可靠、健壮。

2.3 挑战黑箱

这个方向的研究最具想象力,它们试图从根本上改变我们看待LLM与知识关系的方式。

论文:QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

这篇论文直指现有RAG系统的痛点,LLM自身的置信度信号,如输出概率、熵,是不可靠的。

模型经常对错误答案也表现出迷之自信,QuCo-RAG提出彻底放弃依赖模型内部信号,转而从模型的预训练语料中寻找客观证据来判断不确定性。

1)生成前检查

在生成答案之前,就先识别出用户问题中包含的低频实体。如果一个问题涉及大量在预训练语料中罕见的实体,就意味着它可能触及了模型的知识盲区,此时**必须检索**。

2)生成中验证

在生成过程中,实时检查生成的实体对如 <乔布斯,创立,苹果>在预训练语料中的共现频率。如果两个实体从未一起出现过,模型就极有可能在幻觉,此时应立即触发检索来纠正或补充信息。

3)高效工具

整个过程依赖于一个名为Infini-gram的索引工具,可以在毫秒级内查询超过4万亿token的语料库,保证了方案的可行性。

在多跳问答基准测试中,QuCo-RAG相比当时最先进的方法,在EM(Exact Match,精确匹配)分数上取得了5-12个百分点的显著提升,并且能很好地迁移到其他未公开训练数据的模型上。

论文:RAG as a Scientific Instrument: Measuring Evidence Completeness, Uncertainty, and Knowledge Gaps in Generative AI Systems

这篇论文不再把RAG仅仅看作一个答案生成器,而是把它当作一台科学仪器,用来测量、揭示和描述支撑其输出的知识状态的仪器。

该框架定义了与传统评估正交的全新维度:

1)Evidence Completeness (证据完备性),支撑结论的证据是否足够?

2)Sufficiency (充分性),现有证据在多大程度上能必然推导出结论?

3)Conflict (冲突检测),检索到的文档之间是否存在相互矛盾的信息?

4)Temporal Validity (时间有效性),支撑答案的信息是否已经过时?

5)Absence (信息缺失),明确指出哪些支撑信息是不存在的。

通过这样的框架,RAG系统可以明确地标识出哪些主张是证据不足的,并能区分不确定性和无知。这为构建**更透明、更值得信赖**的AI决策支持系统奠定了基础。

reference

---

Pathway to Relevance: How Cross-Encoders Implement a Semantic Variant of BM25

https://arxiv.org/abs/2502.04645

基于双向文本扩展的信息检索重排方法

http://dianda.cqvip.com/Qikan/Article/Detail?id=7201861783

CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation

https://arxiv.org/abs/2506.20128

QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

https://arxiv.org/pdf/2512.19134

RAG as a Scientific Instrument: Measuring Evidence Completeness, Uncertainty, and Knowledge Gaps in Generative AI Systems

https://www.techrxiv.org/doi/full/10.36227/techrxiv.176784506.69820111/

Seven Failure Points When Engineering a Retrieval Augmented Generation System

https://ar5iv.labs.arxiv.org/html/2401.05856v1

LLM-GUIDED HIERARCHICAL RETRIEVAL

https://arxiv.org/pdf/2510.13217

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐