华为:挖掘未索引信息的智能体

📖标题:UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking
🌐来源:arXiv, 2603.08117v2; ICLR 2026
🌟摘要
基于LLM的信息搜索代理的最新进展在既定基准上取得了破纪录的性能。然而,这些代理仍然严重依赖search-engine-indexed知识,留下了一个关键的盲点:无索引信息搜索(UIS)。本文确定并探讨了UIS问题,其中重要信息不被搜索引擎爬虫捕获,例如被忽略的内容、动态网页和嵌入文件。尽管UIS意义重大,但它仍然是一个未被充分利用的挑战。为了弥补这一差距,我们引入了UIS-QA,这是第一个专门的UIS基准,由110个专家注释的QA对组成。值得注意的是,即使是最先进的代理在UIS-QA上的性能也会大幅下降(例如,从GAIA上的70.90和BrowseComp-zh上的46.70下降到UIS-QA上的24.55),这凸显了问题的严重性。为了缓解这种情况,我们提出了UIS-Digger,这是一个新颖的多代理框架,它结合了双模浏览,并支持同时的网页搜索和文件解析。UIS-Digger使用SFT和RFT训练策略优化了相对较小的30B参数骨干LLM,将27.27%的基线设定得很好,优于集成了O3和GPT-4.1等复杂LLM的系统。这表明了与未索引源的主动交互对于有效和全面的信息搜索的重要性。我们的工作不仅揭示了当前代理人评估范式的一个基本限制,而且为推进UIS研究提供了第一个工具包,为强大的信息搜索系统确定了一个新的和有希望的方向。
🛎️文章简介
🔸研究问题:现有基于大语言模型的信息寻求智能体过度依赖搜索引擎索引内容,如何有效解决关键信息隐藏在未被索引网页、动态交互或嵌入文件中的“未索引信息寻求”难题?
🔸主要贡献:论文提出了首个未索引信息寻求基准UIS-QA及多智能体框架UIS-Digger,通过双模式浏览和两阶段训练显著提升了在此类任务上的表现。
📝重点思路
🔸构建UIS-QA基准:由专家标注 110 个高质量问答对,涵盖政府公报、财报等需深度交互(如日期选择、文件下载)才能获取答案的场景,并经过严格过滤确保无法仅凭索引信息解答。
🔸设计多智能体架构:UIS-Digger包含规划者、搜索者、冲浪者和文件阅读器四个角色,其中冲浪者采用文本与视觉共享记忆的双模式浏览策略,平衡理解完整性与执行效率。
🔸实施两阶段训练策略:利用真实网站和模拟环境合成数据,先进行监督微调(SFT)让模型掌握基础工具调用,再通过拒绝采样微调(RFT)强化对高难度任务的探索与推理能力。
🔸扩展动作空间:系统支持并发搜索、深层网页爬取、复杂表单交互及多种格式文件解析,突破了传统代理仅能处理浅层索引信息的局限。
🔎分析总结
🔸现有顶尖智能体在UIS-QA上性能断崖式下跌,准确率从GAIA等基准的70%降至约25%,证明未索引信息寻求是当前技术的重大盲区。
🔸主要失败模式包括未能检索到根源网站、在搜索结果中选错知识源,以及虽到达正确页面但无法完成复杂的多步交互操作。
🔸SFT阶段显著提升了模型调用爬虫工具的意愿和能力,而RFT阶段则优化了导航效率,使成功轨迹中的无效浏览尝试大幅减少。
🔸即使使用参数量较小的30B模型,经过专用训练的UIS-Digger也能超越集成GPT-4.1或O3等超大模型的通用系统,验证了针对性架构与训练的重要性。
💡个人观点
论文指出了当前信息寻求评估中的“索引依赖”偏差,并首次形式化了未索引信息寻求问题,提出的双模式共享记忆浏览机制巧妙解决了纯文本或纯视觉模式的短板。
🧩附录


AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)