顶级 AI 都「看了等于没看」:南洋理工新基准撕开多模态 Agent 的真实天花板

Gemini-3.1-Pro 在最新交织搜索基准上只拿了 46%,GPT-5.4 / Claude-Sonnet-4.6 全军跌破 50%。原因不是它们看不懂图,而是它们不会因为「看到了一张图」而改变行动。
- 论文:InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search(arXiv:2605.07510,2026-05-08)
- 作者机构:南洋理工大学 · 山东大学 · 阿里巴巴达摩院 · 南方科技大学
- 数据:2,061 题,三层级渐进式(视觉证据获取 → 离线交织搜索 → 开放网络多分支)
- 结果:8 个顶级模型最佳 < 50%,GPT-5.4 / Claude-Sonnet-4.6 / Gemini-3.1-Pro / Qwen3.6-Plus 全军覆没
- 真正的瓶颈:图像检索召回(仅 35%),不是看图答题
- 代码数据:github.com/hbhalpha/InterLV-Search-Bench(CC BY 4.0)
一、所有现有多模态搜索基准都在测什么?
过去两年涌出的多模态搜索 benchmark 像 MMSearch、VisBrowse、BrowseComp-V、MMSearch-Plus,看起来五花八门,但骨子里只测两种模式:
模式 A:图作为输入起点
[图] + 文字问题 → Agent 搜文字 → 答案
模式 B:图作为答案终点
文字问题 → Agent 搜图找答案 → [图]
问题在哪? 真实世界的多模态推理几乎从不长这样。
举个例子,你在网上找一辆车的车型——
看到车的照片 → 注意到车身上的某个标志 → 搜这个标志是什么活动
→ 找到活动主办城市 → 搜这个城市的一个具体地标 → 看地标照片确认
→ 拼出最终答案
视觉证据是搜索链中部反复出现的"路标",不是起点也不是终点。
InterLV-Search 论文一句话戳破现状:
Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint, rather than as part of an interleaved search trajectory.
「现有的基准要么把视觉证据限制在输入端,要么当成答案终点,而不是把它视为交织搜索轨迹的一部分。」
这是 2026 年 Agent 评测最重要的一次范式转向。
二、InterLV-Search 是怎么测的:三关递进难度
整套 benchmark 2061 题,分三层级,每往上一层,搜索环境复杂度指数级上升。
Level 1:主动视觉证据获取(975 题)
测什么:从纯文字需求出发,主动把图片找回来,并从图片细节中读出答案。
典型题:
「1966 年出生、与某历史政治人物同名的公众人物,其深色领饰上绣着什么图案?」
要答对这道题:
- Agent 要先靠文字搜出这个公众人物是谁
- 再去搜他的照片
- 在照片里看到深色领饰
- 识别领饰上的图案 → 答案是「热气球」
环境是离线的 MMKG-W 知识图谱,最多 3 轮对话搞定。
Level 2:离线交织多模态搜索(225 题)
测什么:在受控离线数据库(约 1.5 万实体)里完成多轮文字+视觉交替搜索。
典型题:
杭州 → 武汉 → 加拉茨(东欧河港)→ 孟买 → 某栋拱形窗建筑的大圆顶颜色?
中间需要做 2 次以上视觉中转——先搜出加拉茨的某地标的图,再用图里的视觉特征搜出下一个目标。最多 7 轮,单链推理,答案:「红色」。
Level 3:开放网络交织多模态搜索(861 题,含 340 道多分支)
测什么:直接连真实网络,处理网页噪声 + 多分支并行搜索 + 平行实体比较。
典型多分支题:
找三部电影各自时长,比较取中间值(如 79 分钟的 Krakatoa),再查该电影标题文字后升起的自然现象。
要答对:
- 同时维护 3 条平行搜索线
- 比较时长选出中位数那部
- 再切回视觉证据查标题字效
- 答案:「火山喷发」
最多 10 轮,开放网络,机器主导 + 人工监督双层质量保障。
三、跑完 8 个顶级模型,结果触目惊心
测试模型清单:
5 个商业闭源:
- GPT-5.4
- GPT-5
- Gemini-3.1-Pro
- Claude-Sonnet-4.6
- Qwen3.6-Plus
3 个开源搜索专用:
- MMSearch-R1-7B
- VDR-8B
- SenseNova-MARS-32B
统一评测框架 InterLV-Agent:文字搜索、图片搜索、反向图搜、网页浏览、网页截图、图像裁剪、代码执行 + 短/长期两层记忆。裁判模型用 GPT-5.4-mini 做语义等价判定。
最佳成绩:Gemini-3.1-Pro
| 层级 | 准确率 |
|---|---|
| Level 1 | 46.05% |
| Level 2 | 41.33% |
| Level 3 | 46.46% |
整体卡在 40% 出头。没有一个模型整体过 50%——这是用真金白银训出来的最强一代多模态 Agent。
5 个反常识发现
发现 1:不用工具时所有模型 Level 3 不到 20%
证明题目无法靠记忆蒙混。模型必须真在搜索,否则连 1/5 都答不到。
发现 2:商业模型加工具大涨,开源模型加工具反而变差
Gemini-3.1-Pro:加工具后 Level 2/3 提升 10-30 个百分点
MMSearch-R1-7B:加工具后表现下降
为什么?因为开源专用模型只优化了文字搜索。一遇到该切换到视觉搜索的关键节点,反而被工具调用噪声打乱。
深层启示:纯文字检索的强化训练会损害多模态切换能力。这是一种"专项优化的诅咒"。
发现 3:找到正确图 vs 没找到,准确率天差地别
Gemini-3.1-Pro 在 Level 2 的细分数据:
| 情况 | 准确率 |
|---|---|
| 检索到目标图 | 73.75% |
| 未检索到目标图 | ~23–34% |
结论:视觉证据找回来之后,模型其实能答对七八成。真正的瓶颈是图像检索召回率(只有约 35%)——找不到那张正确的图。
这个发现对 Agent 工程师极其重要:与其优化"看图答题",不如优化"图像检索 pipeline"。
发现 4:开放网络 vs 离线评测差异显著
同一个模型,从受控数据库切到真实网络,准确率波动可达 10+ 个百分点。离线评测得高分 ≠ 真实可用。
发现 5:去掉记忆系统,Level 3 大跳水
去掉短期/长期记忆后:
- Level 2 影响有限
- Level 3 准确率显著下降
长链多跳任务必须有"案件笔记本"——靠 LLM 上下文窗口扛不住。
四、两个失败案例:AI 是怎么"看了等于没看"的
案例 1:双层巴士与气候大会
正确推理链:
- 看到旅游页面里的双层巴士照片
- 识别车身涂装是 COP30 气候大会标志
- 锁定 COP30 主办城市贝尔蒙
- 查询贝尔蒙所在州的州旗
- 回答州旗对角线的颜色
AI 实际失败路径:
- 看到双层巴士照片
- ❌ 仅在文字层面搜 “双层巴士 + 旅游”
- ❌ 完全跳过车身涂装这一视觉枢纽
- ❌ 信息链断裂
- ❌ 凭直觉乱猜——把背景红和对角白条带混淆
病灶诊断:模型识别出图片"是辆双层巴士",但没意识到要从图里继续提取信息。这就是论文反复强调的——“看了等于没看”。
案例 2:Tate 美术馆 + 柏林电影节
模型找到了相关页面,但从未把页面与各自的视觉符号系统建立连接。
最后瞎猜「蓝色」,正确答案是「紫色」。
这两个案例精准呈现了一个事实:当代多模态 Agent 的瓶颈不在感知,而在"感知触发的行动切换"。
五、揭示的 5 大能力缺口
| # | 能力缺口 | 具体表现 |
|---|---|---|
| 1 | 视觉证据"路标"使用 | 习惯把图当起点或终点,不会当中转 |
| 2 | 图像检索召回 | 多模态嵌入 + 检索 pipeline 不行,找不到那张图 |
| 3 | 搜索时机判断 | 不知道何时该从文字切换到视觉 |
| 4 | 多分支协调 | 无法同时维护多条平行推理链 + 比较选择 |
| 5 | 状态管理 | 长链中"忘记自己在找什么" |
六、对 Agent 设计的 5 条直接启示
如果你在做 AI Agent(不论是 Coding Agent、Research Agent、还是 Customer Service Agent):
启示 1:视觉搜索不应是「备选工具」
它应该是 Agent 工具箱的一等公民。要训练模型主动识别"此处必须看图"的时机,而不是只在用户明确说"看一下这张图"时才用。
启示 2:图像检索能力是上限
很多团队把精力放在优化"模型怎么看图",但 InterLV-Search 的数据告诉你:先把图找回来比看懂更难。
提升多模态嵌入与检索召回率,比优化答题逻辑更重要。
启示 3:必须设计专门的搜索状态管理
长链多跳任务需要可靠的记忆/笔记本机制。不能依赖 LLM 上下文窗口——一旦超过 5-7 轮,模型就会忘记自己在找什么。
具体设计可参考:
- 短期记忆:当前任务 + 当前步骤的临时笔记
- 长期记忆:跨任务的实体/关系/经验沉淀
- 结构化笔记本:搜索路径、已检验/未检验、置信度
启示 4:多分支并行能力是新前沿
未来 Agent 必须支持同时维护多条假设并做证据比较。这意味着:
- 工具调用要支持并行(不能纯串行)
- 上下文要能管理多个"思考分支"
- 答案合成要有比较/选择/折中逻辑
启示 5:专项优化可能有害
MMSearch-R1 等开源模型加工具反而变差这个数据,警告所有 Agent 工程师:
不要只在单一类型工具上做强化训练,否则会损害多模态切换能力。
平衡的训练范式应该让模型见过:
- 文字搜索成功的例子
- 视觉搜索成功的例子
- 从文字切换到视觉的例子(这是关键)
- 从视觉切换回文字的例子
七、横向对比:MMSearch-Plus vs InterLV-Search
InterLV-Search 不是孤例。同时期的 MMSearch-Plus(ICLR 2026)也在做类似的事——311 个任务测试多模态浏览 Agent 的真实视觉推理。
两个 benchmark 的差异:
| 维度 | MMSearch-Plus | InterLV-Search |
|---|---|---|
| 任务量 | 311 | 2061 |
| 重点 | provenance(来源追溯) | interleaved(交织搜索) |
| 难度分层 | 单层 | 三层渐进 |
| 多分支任务 | ❌ | ✅ |
| 离线/开放网络 | 主要离线 | 双轨(离线 + 开放网络) |
结论:2026 年是多模态 Agent 评测范式跃迁的一年。从"看一张图答一个问题",转向"用图引导搜索、在长链中管理多分支证据"。
八、对 OpenClaw 这类 AI Agent 系统的直接启示
如果你在设计自己的 Agent 系统,把这五条做进去:
✅ 工具集要明确"何时用文字搜 / 何时用视觉搜 / 何时切换"
✅ 视觉搜索的召回率比答题准确率更重要——优先优化前者
✅ 必须有结构化记忆系统(不能只靠 context window)
✅ 工具调用支持并行(多分支推理的基础)
✅ 训练数据要包含"模态切换"样本,而不是单一模态强化
特别是第 5 条——模态切换样本的稀缺是当前所有开源多模态 Agent 共同的盲区。
九、写在最后
InterLV-Search 真正的价值不在分数本身,而在它把多模态 Agent 评测从"识别能力"推到了"行动能力"。
过去我们问:「这个模型看得懂这张图吗?」
现在我们问:「这个模型看到这张图之后,会不会改变行动?」
最强的 Gemini-3.1-Pro 拿 46%。这不是失败——这是 2026 年多模态 Agent 真实能力的天花板第一次被透明地量化展示出来。
接下来一年,能在这个 benchmark 上把分数拉到 70%+ 的团队,就是下一代多模态 Agent 的真正赢家。
参考资料
- 📄 论文原文:arXiv:2605.07510
- 💾 代码与数据:github.com/hbhalpha/InterLV-Search-Bench
- 📰 中文深度解读:科技行者 · WisPaper
- 🔬 同期对比基准:MMSearch-Plus(ICLR 2026)
作者:路易乔布斯 · 一深思AI
本文专栏:AI Agent 实战系列
首发平台:CSDN
转载请注明出处
如果觉得有用,点赞 + 收藏,让更多 Agent 工程师看到这篇分析。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)