OpenSeeker 论文解读：首个完全开源训练数据的前沿搜索 Agent，仅 11.7k 样本单次 SFT 即超越工业级系统

狮子座明仔

495人浏览 · 2026-03-18 11:56:58

狮子座明仔 · 2026-03-18 11:56:58 发布

OpenSeeker 论文解读：首个完全开源训练数据的前沿搜索 Agent，仅 11.7k 样本单次 SFT 即超越工业级系统

一句话总结：上海交大团队开源了 OpenSeeker——首个完全公开训练数据的搜索 Agent，仅用 11.7k 合成样本、单次 SFT 训练就在 BrowseComp 等基准上超越了阿里通义 DeepResearch 等需要预训练+SFT+RL 的工业级系统，彻底打破了搜索 Agent 领域的"数据护城河"。

📋 论文信息

标题：OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
作者：Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai, Siheng Chen
机构：上海交通大学
发布日期：2026年3月16日
开源资源：
- 🔗 代码：GitHub - OpenSeeker
- 📊 数据：HuggingFace - OpenSeeker-v1-Data
- 🤖 模型：HuggingFace - OpenSeeker-v1-30B-SFT

🎯 一个灵魂拷问：为什么搜索 Agent 的数据这么稀缺？

想象一下这个场景：你想训练一个能像人类一样在网上"深挖"信息的 AI Agent——它需要能够多轮搜索、筛选信息、跨页面关联线索，最终找到那个藏在互联网角落里的答案。

听起来很酷对吧？但问题来了：数据从哪来？

传统的 QA 数据集（比如 SQuAD、TriviaQA）里的问题太简单了，一次 Google 就能搞定。而真正需要"深度搜索"能力的问题——比如"找到某部 1987 年电影中某个配角演员的出生地"——这种数据根本不存在。

更尴尬的是，即使有人造出了这样的数据，他们也不愿意公开。看看现在的玩家：

玩家	模型开源	数据开源
OpenAI Deep Research	❌	❌
Google Gemini Deep Research	❌	❌
Kimi K2/K2.5	✅	❌
通义 DeepResearch	✅	❌
OpenSeeker	✅	✅

大厂们都很默契地守着自己的"数据护城河"——模型可以开源（反正也能重新训），但数据？门都没有。

这就是 OpenSeeker 要解决的问题：打破数据垄断，让学术界也能玩得起搜索 Agent。

OpenSeeker 方法总览

图1：OpenSeeker 的核心方法流程——左侧是事实驱动的 QA 合成（通过网络图拓扑扩展和实体混淆生成高难度问题），右侧是去噪轨迹合成（通过非对称上下文训练让模型学会在噪声中提取关键信息）

📖 BrowseComp 是什么？为什么它这么难？

在聊 OpenSeeker 的方法之前，得先说说它的"考场"——BrowseComp。

2025 年 4 月，OpenAI 开源了 BrowseComp 基准测试，包含 1266 道"变态级"信息检索题。这些题目有几个特点：

答案难找但易验证：比如问"某个 NBA 球员大学时期的室友现在在哪家公司工作"，答案可能只出现在某个小众论坛的一个帖子里
需要多跳推理：不是一次搜索就能搞定，需要搜 A → 从 A 找到 B → 再从 B 找到 C
信息分散：答案的线索分布在互联网的多个角落

当时 OpenAI 自己的 Deep Research Agent 在这个基准上拿了 51.5% 的准确率，而普通的 LLM（比如 GPT-4o）只能拿到个位数。

到了 2026 年 3 月，这个基准的分数天花板已经被推到了 50% 以上。OpenSeeker 在 BrowseComp 的中文版（BrowseComp-ZH）上拿到了 48.4%，超过了通义 DeepResearch 的 46.7%。

关键是——通义用了持续预训练 + SFT + RL 三阶段训练，OpenSeeker 只用了单次 SFT。

🧠 核心创新一：事实驱动的可扩展可控 QA 合成

OpenSeeker 的第一个杀手锏是它的 QA 合成方法。简单说就是：把互联网当成一张图，在图上"造题"。

为什么传统方法不行？

传统的 QA 合成有两个路子：

从现有数据集抽样：问题太简单，根本不需要深度搜索
让 LLM 凭空生成：容易产生幻觉，生成的问题可能根本没有真实答案

OpenSeeker 的思路不一样：从真实的网页链接结构出发，反向生成需要遍历这些链接才能回答的问题。

具体怎么做？

想象互联网是一张巨大的有向图，每个网页是一个节点，超链接是边。OpenSeeker 的合成流程如下：

Step 1：图扩展

从一个种子页面（比如某个维基百科词条）出发，沿着出边遍历，形成一个局部子图。比如：

电影《泰坦尼克号》 → 导演詹姆斯·卡梅隆 → 他的另一部电影《阿凡达》 → 阿凡达的特效公司

Step 2：实体提取与子图重组

把文本噪声去掉，只保留关键实体和它们的关系，形成一个"实体子图"：

泰坦尼克号 --导演--> 卡梅隆 --执导--> 阿凡达 --特效--> Weta Digital

Step 3：基于子图生成问题

让 LLM 根据这个实体子图生成问题，要求问题必须遍历多条边才能回答：

"《泰坦尼克号》导演执导的另一部科幻电影的特效是由哪家公司制作的？"
答案：Weta Digital

Step 4：实体混淆（这一步最骚）

把问题里的具体实体替换成模糊的描述，强迫 Agent 先"消歧"：

原问题："《泰坦尼克号》导演执导的另一部科幻电影..."
混淆后："那部 1997 年获得 11 项奥斯卡奖的爱情灾难片的导演..."

这就像把"詹姆斯·卡梅隆"换成了"那个拍过海底纪录片的导演"——Agent 需要先搜索确认这个人是谁，才能继续下一步。

Step 5：双重验证

生成的 QA 必须同时满足两个条件：

难度验证：基础模型"闭卷"答不出来（确保需要搜索）
可解性验证：给模型完整的子图内容，它能答对（确保问题有解）

QA 合成方法详解

图2：事实驱动的 QA 合成流程——从网页图的拓扑扩展到实体混淆，再到双重验证，形成一套完整的高难度 QA 生产线

这个方法为什么好？

特性	说明
事实性	基于真实网页拓扑，问题必有答案
可扩展性	互联网有 TB 级网页存档，理论上可以无限生成
可控性	通过调整子图深度控制问题难度

🔧 核心创新二：去噪轨迹合成

有了高质量的 QA，还需要高质量的"解题过程"（轨迹）来训练 Agent。但问题是：真实网页充满噪声。

打开任何一个网页，你会看到：广告、导航栏、侧边栏、评论区、推荐链接……真正有用的信息可能只占 10%。让 Agent 在这些噪声中学习正确的搜索策略，简直是 mission impossible。

OpenSeeker 的解法很巧妙：合成时去噪，训练时加回来。

合成阶段：给老师一个干净的环境

在让教师模型（比如 GPT-4o）生成轨迹时，OpenSeeker 用了一个"总结历史 + 原始近期"的协议：

上下文 = [步骤1的摘要, 步骤2的摘要, ..., 步骤(t-1)的原始观察]

也就是说，历史步骤只保留关键信息的总结，只有最近一步保留完整内容。这样教师模型能在一个相对干净的环境里生成高质量的"黄金轨迹"。

训练阶段：给学生一个嘈杂的环境

但学生模型训练时，OpenSeeker 把所有的总结都换回了原始的噪声内容：

训练上下文 = [步骤1的原始观察, 步骤2的原始观察, ..., 步骤(t-1)的原始观察]

这就像：

老师在安静的办公室里写出了标准答案
学生被要求在嘈杂的食堂里，照着这个答案学习

为什么要这么折腾？

因为实际部署时，Agent 面对的就是噪声满满的真实网页。如果训练时就用干净数据，模型一上线就懵逼了。这种"非对称训练"强迫模型学会：在噪声中提取关键信息，然后做出正确决策。

去噪轨迹合成

图3：去噪轨迹合成的核心思想——教师模型在压缩的历史上下文中生成高质量动作，学生模型在完整的噪声上下文中学习复现这些动作

🧪 实验结果：11.7k 样本，单次 SFT，直接登顶

实验设置

基础模型：Qwen3-30B-A3B-Thinking-2507（30B 参数，3B 激活的 MoE 架构）
训练数据：仅 11.7k 合成样本
训练方法：单次 SFT，无数据过滤，无超参数调优

基准测试

基准	语言	说明
BrowseComp	英文	OpenAI 发布的深度搜索基准
BrowseComp-ZH	中文	BrowseComp 的中文版
xbench-DeepSearch	混合	多语言深度搜索评测
WideSearch	混合	广度搜索能力评测

主要结果

结果一：超越资源密集型工业基线

模型	训练方式	BrowseComp-ZH
通义 DeepResearch	CPT + SFT + RL	46.7%
OpenSeeker	仅 SFT	48.4%

通义用了三阶段训练管线（持续预训练 + 监督微调 + 强化学习），OpenSeeker 只用了 SFT。这说明什么？数据质量 >> 训练花样。

结果二：同参数量、同训练方式下的统治级表现

在 ~30B 参数、仅 SFT 的模型中：

模型	数据量	BrowseComp-ZH	WideSearch
MiroThinker	147k	25.8%	34.6%
WebSailor-V2-SFT	15k	28.3%	28.7%
WebLeaper	10k	32.5%	30.4%
OpenSeeker	11.7k	48.4%	45.3%

MiroThinker 用了 147k 样本，是 OpenSeeker 的 12 倍，结果呢？被吊打。

结果三：数据难度对比

OpenSeeker 合成的数据有多难？看一个指标——平均工具调用次数：

数据集	平均工具调用数
BrowseComp-ZH	26.98
OpenSeeker 合成数据	46.35

OpenSeeker 的训练数据比测试基准还难 70%，这就是"考试都没训练难"的降维打击。

实验结果对比

图4：BrowseComp-ZH 上的性能对比——OpenSeeker 在 ~30B 参数级别中遥遥领先，甚至超过了使用更复杂训练流程的工业级系统

工具调用对比

图5：数据复杂度对比——OpenSeeker 的合成数据在问题长度、轨迹长度、工具调用次数等维度上都远超现有基准

💡 我的观点与启发

1. 数据质量的胜利

这篇论文最大的启示是：在 Agent 训练中，数据质量远比数量重要。

MiroThinker 用 147k 样本，被 11.7k 样本的 OpenSeeker 吊打。为什么？因为 MiroThinker 的数据来自现有数据集的聚合，问题难度不够；而 OpenSeeker 从图拓扑出发"定制化造题"，每道题都确保需要多轮搜索才能解。

这给我们一个工程启示：与其花时间清洗海量数据，不如设计一套能生成高质量数据的方法论。

2. 非对称训练是个好思路

"合成时去噪、训练时加噪"这个设计非常巧妙。它解决了一个经典矛盾：

教师模型需要干净环境才能生成好轨迹
学生模型需要在噪声环境中学习才能部署

类似的思路其实在其他领域也有应用。比如语音识别中的"clean teacher + noisy student"训练，或者图像领域的数据增强。OpenSeeker 把这个范式迁移到了 Agent 训练中，效果立竿见影。

3. 学术界的逆袭

说实话，看到"纯学术团队超越工业级系统"这种新闻，我是有点激动的。

工业界一直有"数据飞轮"优势——用户交互产生数据，数据训练更好模型，更好模型吸引更多用户。学术界在这个循环里天然吃亏。

但 OpenSeeker 证明了：如果你能在数据合成方法上取得突破，就可以绕过数据飞轮的限制。这给学术界做 Agent 研究提供了一个可行路径。

4. 一些潜在问题

当然，这篇论文也不是完美的。我有几个疑问：

Q1：图扩展的种子节点怎么选？

论文没有详细说明种子页面的选择策略。如果种子覆盖面有偏，生成的 QA 分布也会有偏。

Q2：实体混淆会不会过度？

把"詹姆斯·卡梅隆"换成"那个拍过海底纪录片的导演"是很好的混淆。但如果换成"某个知名导演"，可能就太模糊了，导致问题有多个合理答案。混淆的"度"怎么把握？

Q3：中英文数据分布如何？

论文提到在 BrowseComp-ZH（中文）上效果特别好，那英文呢？如果合成数据以中文为主，在英文基准上的泛化性如何？

🔗 与其他工作的对比

工作	团队性质	模型开源	数据开源	训练方式	BrowseComp-ZH
OpenAI Deep Research	工业	❌	❌	未知	-
通义 DeepResearch	工业	✅	❌	CPT+SFT+RL	46.7%
REDSearcher	工业+学术	✅	部分	Mid-training+SFT+RL	26.8%
OpenResearcher	学术	✅	✅	SFT	-
OpenSeeker	学术	✅	✅	仅 SFT	48.4%

OpenSeeker 是第一个"三全"的工作：全开源（模型+数据）、纯学术、SOTA 性能。

📝 总结

OpenSeeker 这篇论文给搜索 Agent 领域带来了几个重要贡献：

方法论创新：事实驱动的图合成 QA + 去噪轨迹合成，提供了一套可复现的高质量数据生产线
打破数据壁垒：首次完全开源前沿搜索 Agent 的训练数据，让学术界也能参与竞争
效率标杆：证明了仅用 11.7k 样本、单次 SFT 就能达到甚至超越复杂多阶段训练的效果

对于想做搜索 Agent 的团队，这篇论文的代码和数据是非常好的起点。对于关心 AI Agent 发展的读者，这篇论文揭示了一个重要趋势：合成数据的质量，可能比真实数据的数量更重要。

📚 参考文献

OpenSeeker GitHub: https://github.com/rui-ye/OpenSeeker
OpenSeeker 数据集: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
BrowseComp 基准: https://openai.com/research/browsecomp

觉得有启发的话，欢迎点赞、在看、转发。跟进最新AI前沿，关注我的微信公众号：机器懂语言

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一个GitHub Issue就能投毒Claude Code？我拆解了整条供应链攻击链

上周Claude Code刚被AMD AI负责人用23万次调用记录实锤"越更新越差"[1]，这周它的GitHub Actions又被安全研究者扒出了一个供应链级别的漏洞——一个恶意GitHub Issue，就能让Claude Code帮你把仓库Secret全偷走，甚至往你的代码里投毒[2]。这个漏洞有多严重？CVSS v4.0评分7.8，Anthropic为此支付了4800美元赏金。更可怕的是，A