前言:当前的深度搜索代理(Deep Search Agents)陷入了一个“扩展性悖论”:单步串行搜索因信息覆盖不足而遇到瓶颈,而多步并行搜索则因缺乏结构化聚合能力导致推理混乱,两者均无法实现真正的测试时搜索扩展(Test-Time Search Scaling)。来自首尔大学与 LG AI Research 的研究团队提出了 HybridDeepSearcher,一种创新的混合搜索架构。它通过引入HDS-QA 数据集进行监督微调,教会模型在每一步中动态结合宽泛的并行查询显式的证据聚合,从而在深入推理前构建完整的知识图谱。实验表明,该方法在 FanOutQA 和 BrowseComp 等高难度基准上分别提升 15.99.2 个 F1 点,且是唯一一个随着搜索次数(Turns)和调用量(Calls)增加而性能持续单调上升的模型。

简单来说这篇文章提出了一个多跳问答的数据集

📄 论文基本信息

项目 内容
论文标题 Hybrid Deep Searcher: Scalable Parallel and Sequential Search Reasoning
核心方法名 HybridDeepSearcher
作者/机构 Dayoon Ko, Jihyuk Kim et al. (Seoul National Univ, LG AI Research)
发表年份/会议 ICLR 2026
核心领域 Agentic RAG, Test-Time Scaling, Hybrid Search, Supervised Fine-Tuning
关键数据集 HDS-QA (新构建), FanOutQA, BrowseComp, MuSiQue, FRAMES, MedBrowseComp
基座模型 Qwen3-8B (主要), Qwen2.5-7B, Qwen3-32B (用于数据生成)
代码开源 Project Page

🔍 研究背景与痛点

1. “搜索扩展性失效” (The Failure of Search Scaling)

  • 现象:现有的 Large Reasoning Models (LRMs) 结合 RAG 后,虽然能进行多步推理,但增加计算资源(搜索次数)并不能线性提升性能
    • 串行搜索 (Sequential Search):如 Search-R1,每步只发一个查询。
      • 后果:信息覆盖窄,容易陷入局部最优。例如问“John Carpenter 导演最长的电影”,它可能先搜到一部,再搜下一部,效率极低且易漏掉关键影片。
    • 并行搜索 (Parallel Search):如 RAG-R1,每步发多个查询。
      • 后果:缺乏结构化聚合。模型一次性扔出大量文档,却不知道怎么在下一步推理前把这些信息“消化”掉,导致上下文混乱,过早终止搜索。
  • 本质:现有方法要么广度不够(串行),要么深度不足(并行但无聚合),无法像人类专家那样“先广泛搜集线索,再综合归纳,最后深入挖掘”。

2. 现有解决方案的局限

  • 纯 RL 训练:如 Search-R1 使用 GRPO 强化学习,倾向于让模型生成长链条,但往往只是机械地增加步数,并未学会高效的搜索策略。
  • 静态分解:如 GenDec,预先分解问题,无法根据中间检索结果动态调整策略(如发现线索不够时自动扩大搜索面)。
  • 数据缺失:现有的训练数据(如 HotpotQA)大多只包含简单的 2 跳推理,缺乏教导模型如何进行“大规模并行搜集 + 深度串行推理”的复杂轨迹。

3. HybridDeepSearcher 的核心洞察

  • 混合即扩展:真正的可扩展搜索必须是混合式的。在需要广度的步骤(如列举所有电影)执行并行查询,在需要深度的步骤(如比较时长)执行显式聚合后的串行推理。
  • 监督即可学会:不需要昂贵的在线 RL,通过高质量的**混合搜索轨迹数据(HDS-QA)**进行监督微调(SFT),就能让模型内化这种复杂的搜索策略。

🛠️ 核心方法:HybridDeepSearcher 架构详解

HybridDeepSearcher 的核心在于数据驱动的策略内化。它不依赖复杂的提示工程或在线奖励优化,而是通过特制的数据集教会模型何时并行、何时串行。
在这里插入图片描述

1. HDS-QA 数据集构建 —— “制造混合推理场景”

这是本文最大的贡献之一。作者设计了一套自动化流水线,专门生成需要先并行后串行的复杂问题。

  • 四步生成法

    1. 实体提取与相关问题收集:从单跳问题(如“Queen 乐队主唱是谁?”)提取实体,利用 Google “People Also Ask” 收集该实体的多个独立特征(如“成名曲”、“解散时间”、“风格”)。
    2. 特征摘要:将检索到的文档摘要为简洁的特征描述。
    3. 并行跳问题构造:利用这些特征构造一个隐式问题,不直接提及实体名,迫使模型必须同时搜索多个特征才能锁定实体(并行需求)。
      • :“哪个摇滚乐队以歌剧风格融合闻名,且有一首常在体育赛事播放的国歌?”(答案隐含是 Queen)。
    4. 混合跳问题集成:将上述隐式问题作为条件,嵌入到原始的单跳问题中,形成最终的混合跳问题串行需求)。
      • 最终问题:“那个以歌剧风格融合闻名…的乐队,其主唱是谁?”
      • 推理路径:Step 1 (并行搜特征 -> 锁定 Queen) -> Step 2 (串行搜主唱 -> Freddie Mercury)。
  • 轨迹生成:使用 Qwen3-32B 生成包含并行查询块的正确推理轨迹。只有最终答案正确的轨迹会被保留,确保训练数据的准确性。共收集 2,111 条高质量轨迹。

💡 核心逻辑:传统数据教模型“一步步走”,HDS-QA 教模型“一步看全貌(并行),再走下一步(串行)”。

2. 混合搜索代理 (The Hybrid Agent)

基于 Qwen3-8B 微调而成的 HybridDeepSearcher,其推理过程具有独特的结构:

  • 思维链 (Reasoning):在 <think> 标签中分析当前缺口。
  • 混合查询 (Querying)
    • 模型被训练为在单个步骤中输出多个由分号分隔的查询
    • 格式:<|begin search queries|> Query A; Query B; Query C <|end search queries|>
    • 系统会并行执行这些查询。
  • 显式聚合 (Aggregation)
    • 检索结果经过外部大模型(Summarizer)去噪和摘要。
    • 所有结果的摘要被拼接并包裹在 <|begin search results|> 标签中,作为一个整体输入给模型。
    • 模型必须在下一个 <think> 步骤中综合阅读这些结果,提炼出关键信息,再进行下一步决策。
类比解释:侦探办案
  • 传统串行 (Search-R1):侦探每次只问一个证人。问完 A 再想问谁,效率低,容易漏掉关键团伙成员。
  • 传统并行 (RAG-R1):侦探一次性把所有人叫来,七嘴八舌说话,侦探听晕了,没法理清线索,草草结案。
  • HybridDeepSearcher:侦探先列出所有需要核实的线索(如:案发时间、地点、嫌疑人特征),同时派助手去调查(并行)。助手回来后,侦探先开会总结(显式聚合),整理出一份清晰的情报简报,然后再决定下一步抓谁(串行)。

🏆 实验结果与分析

作者在 5 个高难度基准上进行了全面评估,重点考察准确性扩展性

1. 性能全面碾压 SOTA

数据集 任务特点 HybridDeepSearcher (F1) 最强基线 (F1) 提升幅度
FanOutQA 需检索大量分散实体 44.1 RAG-R1 (28.2) ↑ 56.0%
BrowseComp† 极难的网络浏览推理 15.1 RAG-R1 (5.9) ↑ 155.9%
FRAMES 复杂多跳事实核查 39.1 RAG-R1 (35.8) ↑ 9.2%
MuSiQue 标准多跳 QA 31.2 Search-R1 (26.6) ↑ 17.3%
MedBrowseComp 医疗专业搜索 19.8 DeepResearcher (14.7) ↑ 34.7%
  • 注意:在 FanOutQA 这种需要“扇出”大量检索的任务中,优势最为巨大,证明了并行能力的有效性。

2. 真正的“测试时搜索扩展” (Test-Time Search Scaling)

这是本文最核心的发现。作者通过限制最大搜索轮数(Turns)和调用次数(Calls)来观察性能变化。

  • 基线表现
    • 串行模型:随着 Turns 增加,性能很快** plateau (停滞)**,因为单步信息量太少,搜再多也没用。
    • 并行模型:随着 Calls 增加,性能也停滞,因为无法有效聚合过多信息。
  • HybridDeepSearcher 表现
    • 单调上升:无论是增加 Turns (1→8) 还是 Calls (2→16),性能都持续线性增长
    • 数据:在 BrowseComp 上,当 Turns 从 1 增加到 8 时,F1 从 4.0 飙升至 15.1 (3.8 倍提升);当 Calls 从 2 增加到 16 时,F1 从 3.4 飙升至 15.1 (4.4 倍提升)。
    • 结论:只有混合策略才能真正利用更多的计算资源来解决更难的问题。

3. 证据覆盖率 (Evidence Coverage)

  • 在 FanOutQA 上,HybridDeepSearcher 的金标证据覆盖率高达 61.0%,而最强的并行基线 RAG-R1 仅为 53.2%,串行基线 Search-o1 仅为 38.3%。
  • 这证明模型确实学会了“把网撒得更大”,从而捕获了更多必要的碎片信息。

4. 消融实验与 RL 的对比

  • 混合行为是关键:如果只用 HDS-QA 数据但强制模型单步单查(去除并行),性能大幅下降,甚至不如基线。证明并行+聚合的混合行为本身才是增益来源。
  • SFT vs RL:作者在 HybridDeepSearcher 基础上又加了 GRPO (RL) 训练。
    • 结果:RL 能略微提升准确率,但会导致搜索步数显著增加,效率 (AUC) 反而下降
    • 启示:对于搜索策略的学习,高质量的监督微调 (SFT) 比盲目试错的 RL 更高效、更直接

💡 主要创新点总结

  1. 提出“混合搜索”范式:首次明确指出了单纯串行或并行搜索在扩展性上的缺陷,并提出了“并行搜集 + 显式聚合 + 串行推理”的闭环架构。
  2. 构建 HDS-QA 数据集:填补了训练数据中“大规模并行推理轨迹”的空白,通过自动化流水线生成了 2000+ 条高质量混合跳问答数据。
  3. 验证了 SFT 的有效性:证明了通过精心设计的监督数据,小模型(8B)也能学会复杂的搜索调度策略,且效果优于昂贵的在线 RL 方法。
  4. 实现了真正的测试时扩展:模型性能随资源投入(搜索次数)单调递增,解决了当前 Agentic RAG“算力堆砌无效”的痛点。

⚠️ 局限性与挑战

  • 数据依赖性:模型的表现高度依赖于 HDS-QA 数据的质量和分布。如果真实场景中的问题模式与训练数据差异过大(如不需要并行只需极深串行),效果可能打折。
  • 摘要器开销:为了处理并行检索的大量噪音,系统依赖一个强大的外部摘要模型(实验中用了 32B 模型),这增加了系统的延迟和成本(尽管论文提到用 8B 摘要器效果下降不多)。
  • 长上下文压力:虽然做了聚合,但在极端并行下,聚合后的上下文长度仍可能对基座模型的注意力机制构成挑战。

🚀 对开发者的实战建议

如果你正在构建需要高准确度、复杂推理的 RAG 应用(如深度研报、法律案情分析):

  1. 实施“并行 - 聚合”循环

    • 不要让用户的问题直接触发单条搜索。让 Agent 先思考:“要回答这个问题,我需要哪几个方面的信息?”
    • 动作:一次性并发执行 3-5 个不同维度的搜索查询。
    • 关键:在拿到结果后,必须有一个独立的步骤(或 Prompt 指令)让模型对这些结果进行“综合摘要”或“冲突消解”,然后再决定是否进行下一轮搜索。
  2. 构建自己的“混合轨迹”数据

    • 如果资源允许,模仿 HDS-QA 的思路,收集一些需要多路并行的复杂问题,并人工或通过大模型编写“标准推理过程”(包含并行查询和综合步骤)。
    • 用这些数据对你的 RAG Agent 进行微调,比单纯调 Prompt 效果好得多。
  3. 动态资源分配

    • 对于简单问题,限制并行度;对于检测到实体多、条件复杂的问题(如“比较 A、B、C 三个产品的参数”),自动放宽并行查询的数量限制。
  4. 优先选择 SFT 而非 RL

    • 在搜索策略优化上,先尝试构建高质量的 Few-shot 示例或进行 SFT。除非你有极强的算力和奖励模型设计能力,否则不要轻易上 PPO/GRPO,性价比可能不高。

一句话总结:HybridDeepSearcher 证明了**“先广撒网(并行),再精提炼(聚合),后深挖掘(串行)”**是人类解决复杂问题的核心智慧,也是让 AI 搜索代理真正具备扩展性的唯一路径。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐