LLM判断检索文档能否回答问题的探索
大模型判断检索到的文档列表能否回答问题,是通过一套概率计算、模式匹配和语义理解完成的。
简单来说,LLM不是确定,而是推断文档列表是否有可能包含了回答问题的信息。
这里尝试基于网络资料,梳理LLM判断文档能否回答问题常用流程,分析其原理以及前沿技术。
1 常用流程
这里首先示例RAG系统LLM判断检索文档是否能回答问题的常用处理流程。
1.1 理解问题和文档
LLM 将用户问题和检索到的文档列表都转换成它可以处理的格式,通常是向量。
1)问题向量,捕捉了问题的核心语义、意图和关键词。
2)文档块向量,每个文档块,比如一段文字,也被转换成向量。
1.2 判断相关性
这是最核心的一步。LLM 或其配套的检索器会计算问题和每个文档块之间的语义相似度。
它会在高维语义空间里计算问题向量和文档块向量的距离。
距离越近,比如余弦相似度越高,说明它们在语义上越相关。
示例如下
问题:“中国的首都是哪里?”
- 文档A:“北京是中国的政治、文化中心。”(语义距离近,高度相关)
- 文档B:“上海是中国的经济中心,拥有庞大的港口。”(语义距离稍远,部分相关)
- 文档C:“西红柿炒鸡蛋是一道家常菜。”(语义距离非常远,不相关)
检索器会对文档进行一个初步的、粗粒度的相关性打分和排序。
1.3 评估信息充分性
这是LLM真正思考是否能回答问题的阶段。
当相关文档被送入 LLM 的上下文窗口后,它会进行更深层的分析:
1)答案覆盖度扫描
LLM 会尝试在文档中寻找能够直接回答问题的答案片段。相当于
从这些文本的词汇和语义组合来看,评估是否推理出一个符合问题期望的答案,概率有多大?
2)逻辑连贯性检查
如果问题需要多步推理。比如
苹果公司创始人哪年出生?
LLM 会检查文档是否提供了所有必要的推理链。
文档A:“苹果公司创始人是乔布斯。”
文档B:“乔布斯生于1955年。”
只有当这两条信息都存在,并能逻辑串联起来时,LLM才能推断出“1955年”这个答案。
3)信息缺失检查
RAG系统检索的文档有可能遗漏关键信息。
比如,所有文档都只讨论了苹果公司的产品,而没有提及创始人。
如果是问苹果公司创始人,限制使用RAG文档,LLM内在机制会计算出一个很低的答案存在概率。
此时,LLM倾向于回答,“根据提供的文档,无法回答这个问题。”
4)信息冲突检查
现实世界中,很多信息不是明确的,有可能是隐含的,也有可能相互冲突。
文档A说“事件发生在2020年”
文档B说“事件发生在2021年”,
LLM 会捕捉到这种矛盾。
当提供的信息前后矛盾是,目前大部分LLM会说明文档中存在矛盾信息。
部分LLM能根据多数证据、信息源的权威性来选择一种更可能或合适的回答。
1.4 知识和指令
LLM不仅仅依赖文档,还可以结合内部知识和遵循指令回答问题。
1)内部知识
现实场景中,RAG检索文档中没有直接答案。
LLM 可能会利用预训练阶段学到的内部知识来补充或理解文档。
例如,如果文档提到“那个人”,LLM需要结合上下文推断出“那个人”指的是谁。
当然,如果过度联想和过度推理,有可能导致异常幻觉和意长结论。
所以,大部分RAG在提示词中限制LLM主要依据检索到文档来回答,即遵循指令。
2)遵循指令
LLM的判决过程深受提示词的影响,以下是一个RAG 系统的提示词示例。
“你是一个问答助手。你**只能**基于以下提供的文档内容来回答问题。
如果文档中没有足够信息来给出确定答案,请直接说‘文档中未找到相关信息’,不要编造答案。”
这相当于给LLM设定了一个行为准则,LLM会尽力遵循这个准则去判断信息是否足够。
2 前沿探索
以上示例了LLM判断检索文档能否回答问题的经典常用流程。
这里进一步学习这些流程背后原理的论文,以及相关前沿技术论文。
2.1 相关性匹配
这些研究试图打开黑箱,看看模型内部到底在算什么。
论文: Pathway to Relevance: How Cross-Encoders Implement a Semantic Variant of BM25》
这篇论文用mechanistic interpretability的方法,像拆解一台精密仪器一样,拆解了一个基于BERT的交叉编码器模型。发现网络内部在模拟一个经典的信息检索算法BM25。
1)“软”词频统计
模型中的特定attention heads注意力头,不仅在统计查询词在文档中出现的次数即词频,还在统计语义相近词的出现次数。作者称之为 `soft-TF`。例如,查询“汽车”,文档中的“轿车”也会被计入。
2)逆文档频率
模型能够捕捉到词语的稀缺性信息。一个词在整个文档集合中越少见,当它出现在文档中时,对相关性分数的贡献就越大。
3)信息聚合
在模型的中间层到后层,这些被提取出的“软词频”、“词稀缺性”等信号,会像BM25算法那样被组合起来,最终计算出文档与查询的相关性得分。
为了证明这些组件的存在,研究者采用了因果介入法。通过精心设计的诊断数据集,比如,在文档中插入一个查询词的同义词,观察模型特定“注意力头”的行为变化,从而建立起因果关系,而不仅仅是相关性。
论文: "基于双向文本扩展的信息检索重排方法"
这篇论文提供了一个非常实用的增强匹配新思路。
它提出了一种双向文本扩展方法,不改变模型结构,通过丰富查询和文档的“上下文”来提升匹配准确率。
1)生成伪文档
对于用户输入的查询,让LLM“脑补”一篇它可能想找的理想文档。
2)生成伪查询
对于库里的每一篇文档,也让LLM“猜测”什么样的查询会命中它。
3)双向融合
最后通过加权融合“原始查询-原始文档”和“伪查询-伪文档”的相似度得分,得到最终的排序结果。这相当于在查询和文档之间架起了多座语义理解的桥梁。
该方法在TREC DL19和DL20两个公开数据集上效果显著,证明了通过生成技术增强表征,可以有效提升相关性匹配的性能。
2.2 评估体系
当用LLM做评判时,它评判得准不准?这个方向的研究就是来解决这个问题的。
论文: CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation
这篇论文提出了一个名为 CCRS(Contextual Coherence and Relevance Score)的评估框架。
它是零样本和端到端,不需要任何训练,直接用一个LLM从五个维度对RAG输出进行打分。
1)Contextual Coherence (CC,上下文连贯性),生成的答案与检索到的上下文是否逻辑连贯?
2)Question Relevance (QR,问题相关性),检索到的文档是否与用户问题相关?
3)Information Density (ID,信息密度),检索到的文档中,有多少信息被用到了最终答案里?是否存在信息冗余?
4)Answer Correctness (AC,答案正确性),生成的答案本身是否正确、忠实于事实?
5)Information Recall (IR,信息召回),正确答案所需关键信息,是否都从检索文档中被召回了?
论文将CCRS与当时复杂的RAGChecker框架进行了对比,证明其在评估召回率和忠实度等关键指标上,拥有同等甚至更强的区分能力,但计算效率却高得多,为RAG系统的迭代优化提供了一个非常实用的工具。
论文: RAGEvalX: An Extended Framework for Measuring Core Accuracy, Context Integrity, Robustness, and Practical Statistics in RAG Pipelines》
CCRS是专精深,RAGEvalX追求的就是广而全。
它提出了一个更全面的四维评估框架,旨在衡量RAG系统的整体健康状况。
1)Core RAG Accuracy 核心准确度),包括答案的忠实度(Faithfulness)和相关性(Relevancy),这是基础。
2)Context Integrity (上下文完整性),评估检索到的信息的质量。例如,是否包含了足够的信息来回答问题?
3)Robustness (鲁棒性),评估系统在面对输入扰动(如错别字、同义词替换)时,是否还能稳定输出正确答案。这对于实际应用至关重要。
4)Practical Statistics (实用统计指标),提供用于运营监控的指标,如检索延迟、系统吞吐量等。
RAGEvalX旨在为开发者提供一个可落地的、标准化的评估指南,帮助优化RAG系统,使其不仅准确,而且可靠、健壮。
2.3 挑战黑箱
这个方向的研究最具想象力,它们试图从根本上改变我们看待LLM与知识关系的方式。
论文:QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation
这篇论文直指现有RAG系统的痛点,LLM自身的置信度信号,如输出概率、熵,是不可靠的。
模型经常对错误答案也表现出迷之自信,QuCo-RAG提出彻底放弃依赖模型内部信号,转而从模型的预训练语料中寻找客观证据来判断不确定性。
1)生成前检查
在生成答案之前,就先识别出用户问题中包含的低频实体。如果一个问题涉及大量在预训练语料中罕见的实体,就意味着它可能触及了模型的知识盲区,此时**必须检索**。
2)生成中验证
在生成过程中,实时检查生成的实体对如 <乔布斯,创立,苹果>在预训练语料中的共现频率。如果两个实体从未一起出现过,模型就极有可能在幻觉,此时应立即触发检索来纠正或补充信息。
3)高效工具
整个过程依赖于一个名为Infini-gram的索引工具,可以在毫秒级内查询超过4万亿token的语料库,保证了方案的可行性。
在多跳问答基准测试中,QuCo-RAG相比当时最先进的方法,在EM(Exact Match,精确匹配)分数上取得了5-12个百分点的显著提升,并且能很好地迁移到其他未公开训练数据的模型上。
论文:RAG as a Scientific Instrument: Measuring Evidence Completeness, Uncertainty, and Knowledge Gaps in Generative AI Systems
这篇论文不再把RAG仅仅看作一个答案生成器,而是把它当作一台科学仪器,用来测量、揭示和描述支撑其输出的知识状态的仪器。
该框架定义了与传统评估正交的全新维度:
1)Evidence Completeness (证据完备性),支撑结论的证据是否足够?
2)Sufficiency (充分性),现有证据在多大程度上能必然推导出结论?
3)Conflict (冲突检测),检索到的文档之间是否存在相互矛盾的信息?
4)Temporal Validity (时间有效性),支撑答案的信息是否已经过时?
5)Absence (信息缺失),明确指出哪些支撑信息是不存在的。
通过这样的框架,RAG系统可以明确地标识出哪些主张是证据不足的,并能区分不确定性和无知。这为构建**更透明、更值得信赖**的AI决策支持系统奠定了基础。
reference
---
Pathway to Relevance: How Cross-Encoders Implement a Semantic Variant of BM25
https://arxiv.org/abs/2502.04645
基于双向文本扩展的信息检索重排方法
http://dianda.cqvip.com/Qikan/Article/Detail?id=7201861783
CCRS: A Zero-Shot LLM-as-a-Judge Framework for Comprehensive RAG Evaluation
https://arxiv.org/abs/2506.20128
QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation
https://arxiv.org/pdf/2512.19134
RAG as a Scientific Instrument: Measuring Evidence Completeness, Uncertainty, and Knowledge Gaps in Generative AI Systems
https://www.techrxiv.org/doi/full/10.36227/techrxiv.176784506.69820111/
Seven Failure Points When Engineering a Retrieval Augmented Generation System
https://ar5iv.labs.arxiv.org/html/2401.05856v1
LLM-GUIDED HIERARCHICAL RETRIEVAL
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)