这是一篇由天津大学团队撰写的研究论文,发表于ACL 2025 长文赛道,核心聚焦多跳问答(MHQA) 任务中的推理与检索融合问题。针对现有迭代式 RAG 方法存在的 “知识缺口识别被动、检索针对性不足、检索信息组织混乱” 三大痛点,论文提出了 “推理增强查询(RaQ)+ 渐进式知识聚合(pKA)” 的双流程框架 DualRAG,通过主动识别知识需求、生成靶向查询、结构化整合知识,实现推理与检索的深度协同,在多个多跳问答数据集上取得 SOTA 性能,且支持小模型微调部署。

一、研究背景与核心问题

1.1 研究动机

多跳问答需要模型整合多源信息、完成多步骤推理,是检验 LLMs 复杂能力的核心任务。现有方法虽通过迭代式 RAG 提升性能,但存在显著局限:

  • 知识缺口识别被动:多数方法依赖预设触发条件(如固定迭代步数、输出不确定性),无法主动预判推理过程中的知识需求,易导致推理中断;
  • 检索针对性不足:基于原始问题或中间推理结果生成的查询缺乏靶向性,难以精准填补知识缺口,影响相关文档召回率;
  • 检索信息组织混乱:迭代检索积累的文档含噪声,且缺乏结构化整合,导致知识碎片化,干扰推理链构建。

1.2 核心问题

  • 如何设计主动机制,让模型在推理过程中动态识别知识缺口,生成针对性检索查询?
  • 如何有效组织多轮检索到的信息,过滤噪声、强化知识关联,支撑连贯多跳推理?
  • 如何让框架适配不同规模 LLM,在小模型上保持核心性能,降低部署成本?

1.3 研究贡献

  1. 提出DualRAG 双流程框架:通过 RaQ 与 pKA 的闭环协同,主动识别知识需求、结构化整合知识,解决现有迭代式 RAG 的核心痛点;
  2. 设计实体中心的检索与聚合机制:RaQ 基于关键实体生成靶向查询,pKA 围绕实体构建知识大纲,强化知识关联性;
  3. 实现小模型适配:构建专用数据集微调小模型,在降低计算成本的同时保留核心性能;
  4. 全面实证验证:在 3 个多跳问答数据集、2 个单跳问答数据集、2 个长文本问答数据集上验证有效性,性能接近 Oracle 上限。

二、DualRAG 核心方法

DualRAG 的核心设计理念是 “推理与检索的深度耦合”,通过 RaQ 与 pKA 两个紧密关联的流程,形成 “识别需求→检索知识→整合知识→优化推理” 的闭环,框架如图 2 所示。

2.1 任务形式化定义

给定用户多跳问题x和大规模文档语料D={di​}i=1N​,目标是通过多轮推理与检索,生成准确答案a^,形式化表述为:

  • 第t轮迭代中,RaQ 基于历史知识大纲Kt−1和推理记录Rt−1,生成推理结果rt和检索文档Dt;
  • pKA 将Dt整合到知识大纲,更新为Kt;
  • 迭代终止后,基于最终KT和RT生成答案a^。

2.2 核心流程 1:推理增强查询(Reasoning-augmented Querying, RaQ)

RaQ 扮演 “主动研究者” 角色,核心功能是推进推理、识别知识缺口、生成靶向检索查询,包含两个关键组件:

(1)推理器(Reasoner)
  • 核心逻辑:基于当前知识大纲Kt−1和历史推理记录Rt−1,逐步推进推理,判断是否需要检索;
  • 触发机制:若推理过程中发现知识缺口(如缺少关键实体属性、事件关联),则设置检索触发标记ft=True,中断推理以启动检索;若已能得出答案,则ft=False,直接进入答案生成阶段;
  • 形式化表达:rt,ft=MR​(Kt−1,x,rt−1),其中MR​为 LLM 实现的推理模块。
(2)实体识别器(Entity Identifier)
  • 核心逻辑:当触发检索时,识别与当前知识缺口相关的关键实体,生成靶向查询,确保检索精准性;
  • 实体链接:关联当前实体与历史迭代中的同义实体,保持一致性;
  • 查询生成:为每个关键实体生成多个差异化查询(同一含义最多 2 种表达),覆盖不同知识维度,提升召回率;
  • 文档过滤:按实体分组检索结果,通过重排器(bgereranker-v2-m3)筛选 Top-10 相关文档;
  • 形式化表达:Et,{Qt(e)}e∈Et​=MEI​(Kt−1,x,rt),其中Et为关键实体集,Qt(e)为实体e对应的查询集。

2.3 核心流程 2:渐进式知识聚合(progressive Knowledge Aggregation, pKA)

pKA 扮演 “专职助手” 角色,核心功能是过滤噪声、结构化整合检索知识,为 RaQ 提供清晰的知识支撑,包含两个关键组件:

(1)知识摘要器(Knowledge Summarizer)
  • 核心逻辑:以 “满足推理需求” 为导向,对检索文档进行摘要,保留关键信息、过滤冗余与噪声;
  • 关键特性:不仅关注与最终答案直接相关的信息,还保留多跳推理所需的中间上下文与关联信息;
  • 形式化表达:对每个实体e,生成知识片段ke​=MKS​(x,Rt,e,Qt(e),De​),其中De​为实体e的检索文档。
(2)渐进式知识大纲(Progressive Knowledge Outline)
  • 核心逻辑:围绕关键实体构建结构化知识存储,将新生成的知识片段与历史知识融合,形成动态更新的知识大纲;
  • 存储结构:以实体为索引,每个实体关联其所有相关知识片段,便于 RaQ 快速调用;
  • 初始化与更新:初始知识大纲K0=∅,第t轮更新为Kt(e)=Kt−1(e)∪{ke​}。

2.4 小模型微调适配(Fine-Tuning for Compact Models)

为让 DualRAG 适配小模型、降低部署成本,构建专用微调数据集并优化:

(1)数据集构建
  • 生成轨迹:用 Qwen2.5-72B-Instruct 在 HotpotQA、2WikiMultiHopQA、MuSiQue 数据集上生成 5000 条正确推理轨迹;
  • 数据处理:
    • 实体识别器优化:通过交叉编码器计算实体相似度,移除冗余实体,减少无效检索;
    • 知识摘要器优化:对比模型摘要与真实文档,补充遗漏的关键推理信息;
  • 最终数据集:包含 87,068 条样本,覆盖 Reasoner、Entity Identifier、Knowledge Summarizer 三大组件的优化目标。
(2)微调设置
  • 框架:采用 LLamaFactory,基于 DeepSpeed ZeRO Stage 3 优化;
  • 参数:学习率3e−6,余弦学习率调度器,16 张 NVIDIA A100-80GB GPU 训练约 10 小时。

三、实验设计与结果

3.1 实验设置

(1)数据集
  • 核心多跳问答:HotpotQA、2WikiMultiHopQA、MuSiQue(各随机采样 1000 个验证 / 测试样本);
  • 扩展任务:单跳问答(NQ、PopQA)、长文本问答(ASQA、ELI5);
  • 语料:HotpotQA 使用官方 Wikipedia 语料,其余数据集合并支持 / 非支持段落构建语料。
(2)对比方法
  • 非检索基线:Direct(无外部检索,仅用 LLM 预训练知识);
  • 标准 RAG:NativeRAG(检索 - 读取范式);
  • 迭代式 RAG:IRCoT(固定间隔检索)、MetaRAG(生成启发式答案后迭代优化)、GenGround(拆分问题检索);
  • 上限对照:Oracle(直接输入真实相关文档关键信息,跳过检索环节)。
(3)模型与工具
  • 基础 LLM:Qwen2.5-72B-Instruct(大模型)、Qwen2.5-7B-Instruct(小模型,含微调版 DualRAG-FT);
  • 检索工具:faiss-gpu 构建向量索引,bge-small-env1.5 作为文档编码器,bgereranker-v2-m3 作为重排器;
  • 评估指标:Exact Match(EM)、Acc(答案 substring 匹配)、Token-level F1、Acc†(LLM 作为裁判评估正确性)。

3.2 核心实验结果

(1)多跳问答数据集核心结果

表格

基础 LLM 方法 HotpotQA(F1) 2WikiMultiHopQA(F1) MuSiQue(F1)
Qwen2.5-72B Direct 36.4 35.0 17.5
Qwen2.5-72B NativeRAG 60.3 48.1 33.6
Qwen2.5-72B IRCoT 67.4 67.5 48.1
Qwen2.5-72B MetaRAG 66.9 61.2 51.7
Qwen2.5-72B GenGround 61.8 70.3 43.0
Qwen2.5-72B Oracle 79.6 83.5 69.1
Qwen2.5-72B DualRAG 65.7 77.3 56.3
Qwen2.5-7B Direct 25.0 28.2 9.9
Qwen2.5-7B NativeRAG 49.5 30.9 20.2
Qwen2.5-7B IRCoT 52.8 48.8 24.6
Qwen2.5-7B MetaRAG 56.8 46.5 37.9
Qwen2.5-7B GenGround 50.0 47.5 30.6
Qwen2.5-7B Oracle 67.6 59.3 48.1
Qwen2.5-7B DualRAG 58.6 64.4 44.9
Qwen2.5-7B DualRAG-FT 61.6 74.6 46.5

关键结论:

  1. DualRAG 在大模型与小模型上均显著超越传统 RAG 和迭代式 RAG,大模型版在 2WikiMultiHopQA 上 F1 达 77.3,接近 Oracle 上限(83.5);
  2. 小模型微调后性能大幅提升,DualRAG-FT 在 2WikiMultiHopQA 上 F1 达 74.6,超越同规模其他方法,甚至优于大模型版 NativeRAG;
  3. 所有含检索的方法均优于 Direct,证明外部知识对多跳推理的必要性;迭代式 RAG 整体优于标准 RAG,验证多轮检索的价值。
(2)扩展任务结果
  • 单跳问答(NQ/PopQA):DualRAG F1 达 45.0/52.8,超越 NativeRAG 和多数迭代式 RAG,证明框架对简单任务的兼容性;
  • 长文本问答(ASQA/ELI5):DualRAG 在 ASQA 上 Rouge-L 达 31.7,ELI5 上 Rouge-L 达 18.1,显著优于标准 RAG,体现结构化知识整合对长文本生成的优势。

3.3 消融实验(验证核心组件有效性)

以 Qwen2.5-72B 为基础模型,通过移除关键组件验证其必要性:

表格

方法 HotpotQA(F1) 2WikiMultiHopQA(F1) MuSiQue(F1)
DualRAG(完整) 65.7 77.3 56.3
移除主动推理(w/o R) 64.2 73.2 48.6
移除实体识别(w/o EI) 65.3 72.5 48.4
移除知识大纲(w/o KO) 64.0 72.8 49.8

关键结论:

  • 三个组件均对性能有重要贡献,其中实体识别(EI)和知识大纲(KO)的影响更为显著,证明靶向检索与结构化整合的核心价值;
  • 移除主动推理后性能下降,验证主动识别知识缺口比被动触发检索更有效。

3.4 效率分析

  • 迭代次数:DualRAG 平均每问题迭代 1.64-2.20 次,远低于 IRCoT(3.76-4.26 次)和 MetaRAG(2.93-3.14 次),减少推理中断;
  • Token 消耗:平均每问题输出 598.1 个 token,与主流迭代式 RAG 相当,未因结构化整合增加额外开销;
  • 小模型优势:DualRAG-FT(Qwen2.5-7B)的计算成本仅为大模型版的 1/10 左右,却能保持 70% 以上的核心性能。

3.5 案例分析

以问题 “Which film has the director who was born later, El Extraño Viaje or Love In Pawn?” 为例,展示 DualRAG 的推理流程:

  1. 第 1 轮:RaQ 识别关键实体(两部电影),生成查询 “El Extraño Viaje director”“Love In Pawn director”,检索到导演分别为 Fernando Fernán Gómez 和 Charles Saunders;
  2. 第 2 轮:RaQ 发现缺少导演出生年份,生成查询 “Fernando Fernán Gómez birth year”“Charles Saunders birth year”,检索到出生年份为 1921 年和 1904 年;
  3. 第 3 轮:pKA 将导演信息、出生年份整合到知识大纲,RaQ 基于此推理得出 “El Extraño Viaje 的导演出生更晚” 的结论。

案例证明,DualRAG 能主动预判知识缺口,通过靶向检索逐步填补,最终构建完整推理链。

四、相关工作对比

表格

方法类型 代表工作 核心差异
标准 RAG NativeRAG 单轮检索,无动态适配能力,无法应对多跳推理的知识需求变化
迭代式 RAG(固定触发) IRCoT 按预设间隔检索,被动响应,缺乏主动知识缺口识别
迭代式 RAG(问题拆分) GenGround 需显式拆分问题,对复杂模糊问题适配性差,缺乏结构化整合
迭代式 RAG(答案优化) MetaRAG 先生成启发式答案再优化,检索针对性不足,噪声敏感
本研究(DualRAG) - 双流程闭环,主动识别知识缺口,实体中心的靶向检索与结构化整合,支持小模型适配

五、局限性与未来方向

5.1 局限性

  1. 噪声鲁棒性有限:面对含矛盾、过时信息的真实语料,知识摘要器难以完全过滤无效信息;
  2. 多轮检索 latency:虽迭代次数少于同类方法,但多轮检索仍会增加响应延迟;
  3. 复杂推理适配不足:对需 4 跳以上推理的超复杂问题,性能仍有下降空间。

5.2 未来方向

  1. 增强噪声处理:优化知识摘要器,增加矛盾信息检测与解决机制;
  2. 知识复用机制:扩展知识大纲,支持跨问题的知识积累与复用,减少重复检索;
  3. 强化学习优化:引入强化学习,基于推理效果动态调整检索与整合策略;
  4. 跨领域适配:将框架应用于科学计算、法律推理等专业领域,验证领域泛化性。

六、结论

DualRAG 通过 “推理增强查询(RaQ)” 与 “渐进式知识聚合(pKA)” 的双流程设计,实现了多跳问答中推理与检索的深度协同。其核心创新在于:主动识别知识缺口生成靶向查询,围绕实体构建结构化知识大纲,既提升了检索精准性,又强化了知识关联性。实验证明,DualRAG 在多个数据集上显著超越现有方法,性能接近 Oracle 上限,且通过微调能在小模型上高效部署。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐