这是一篇由 OPPO 研究院与 OPPO AI 中心联合撰写的研究论文,发布于 arXiv(2025 年 8 月更新),核心聚焦多模态检索增强生成(mRAG) 系统的规划能力优化。针对现有 mRAG 方法检索策略僵化、视觉信息利用不足、冗余搜索严重等问题,论文提出了 E-Agent 智能体框架,并构建了 RemPlan 基准数据集,实现了检索效率与问答准确性的双重提升,为真实场景下的多模态问答提供了高效解决方案。

一、研究背景与核心问题

1.1 研究动机

多模态检索增强生成(mRAG)通过融合外部多模态知识,有效弥补了多模态大语言模型(MLLMs)在时效性、专业领域知识上的局限,广泛应用于新闻分析、热点话题问答等真实场景。但现有 mRAG 方法存在三大核心缺陷:

  • 检索策略僵化:采用固定流程(如先图像 caption 再文本检索),无法根据查询特性动态选择模态与工具;
  • 视觉信息利用不足:以文本为中心的处理范式,难以直接利用图像特征,导致信息检索不完整;
  • 冗余搜索严重:迭代式规划方法(如 OmniSearch)需多次工具调用,计算开销大、 latency 高,且易引入噪声。

1.2 核心问题

  • 如何设计动态规划机制,让 mRAG 系统根据查询与图像上下文,自适应选择检索工具与流程?
  • 如何构建标准化基准,全面评估 mRAG 系统的规划能力(而非仅关注答案准确性)?
  • 如何在提升问答准确性的同时,减少冗余工具调用,实现高效检索?

1.3 研究贡献

  1. 提出E-Agent 框架:采用 “规划 - 执行” 分离架构,通过单轮动态规划协调多模态工具,平衡准确性与效率;
  2. 构建RemPlan 基准数据集:首个聚焦 mRAG 规划能力的评估基准,包含 4 类问题与明确的工具调用标注;
  3. 实证验证优势:在 RemPlan 及 3 个主流数据集上,E-Agent 比 SOTA 方法准确率提升 13%,冗余搜索减少 37%。

二、RemPlan 基准数据集构建

为解决现有 mRAG 评估 “重答案、轻规划” 的问题,论文设计了 RemPlan 基准,专门用于评估系统的动态规划与工具协调能力。

2.1 数据集构建流程

采用 “图像收集 - 问题标注 - 计划生成 - 人工验证” 四阶段流程,确保数据质量与实用性:

  1. 图像收集:整合真实场景 VQA 数据与网络新闻图像,经自动去重与专家审核,筛选高分辨率、多样化视觉内容;
  2. 问题标注:标注员针对图像撰写问题,并标记是否需要视觉识别或外部检索;
  3. 计划生成:利用 GPT-4o 生成标准化 mRAG 执行计划,明确工具调用序列与参数;
  4. 人工验证:由具备研究生学历与英语高级水平的专家团队,验证计划可行性、问题 - 计划一致性,并标注标准答案。

最终数据集包含 200 个 “图像 - 问题 - 计划 - 答案” 四元组,覆盖真实场景中的多模态检索需求。

2.2 数据集核心特征

(1)四类问题类型

按检索需求分类,全面覆盖 mRAG 场景,比例分布如图 3a 所示:

表格

问题类型 核心定义 示例 占比
基础型(Fundamental) 无需外部检索,仅依赖 MLLM 预训练知识即可回答 “图中男孩乐队来自哪个国家?” 19%
视觉识别型(Visual-Recognition) 需图像检索识别实体(人物、地点等),无需文本检索 “为什么图中男士的背心是橙色的?” 37%
信息查询型(Information-Seeking) 需文本检索获取实时 / 专业知识,无需图像检索 “该景点的门票价格是多少?” 30%
多维度型(Multi-Faceted) 需图像检索 + 文本检索协同,复杂推理 “该球员当前的转会价值是多少?” 14%
(2)关键创新:解耦式评估标注

每个样本包含双重标注,实现 “规划能力” 与 “执行效果” 的分离评估:

  • 答案标注:基于网络信息的标准答案;
  • 计划标注:明确的工具调用序列(如图像检索、文本检索、MLLM 响应)与参数,示例:“image_search (I) → requery (Q’, I) → text_search (Q’) → response (Q, I, ts_res)”。
(3)数据多样性
  • 图像多样性:采用香农熵计算图像相似度矩阵,多样性显著高于 MMSearch、Dyn-VQA 等数据集(图 3b);
  • 答案长度:平均答案长度更长,更贴近真实场景的详细回答需求。

2.3 评估指标

设计五维评估指标,全面量化规划能力,突破传统仅关注答案准确性的局限:

表格

指标 核心定义 说明
工具精确率 / 召回率(IS-P/IS-R、TS-P/TS-R) 图像 / 文本检索工具的调用精准度与覆盖度 评估工具选择的合理性
计划准确率(Plan-acc) 完整规划流程与标注计划的一致性 评估整体规划逻辑的正确性
参数准确率(Param-acc) 工具调用参数的有效性 评估参数设置的合理性
参数语义相似度(Param-sim) 生成参数与标注参数的语义一致性 评估参数语义的准确性
答案质量(Ans.) GPT-4o 评分(0-2 分) 0 分错误、1 分部分正确、2 分完全正确

三、E-Agent 框架设计

E-Agent 采用 “计划 - 执行” 两阶段架构,核心目标是通过单轮动态规划,实现多模态工具的高效协调,避免冗余调用。

3.1 整体架构

框架包含两大核心模块:mRAG 规划器(mRAG Planner)与任务执行器(Task Executor),流程如图 4 所示:

  1. 输入:用户查询(文本)+ 图像上下文;
  2. 规划:mRAG 规划器生成单轮完整 mRAG 计划,明确工具调用序列、参数与 MLLM 功能;
  3. 执行:任务执行器按计划调用工具,生成最终响应。

3.2 核心模块 1:mRAG 规划器(mRAG Planner)

核心创新在于 “单轮动态规划”,通过一次前向传播完成三大决策:

  • 工具选择:决定是否调用图像检索、文本检索,或直接使用 MLLM 响应;
  • MLLM 功能配置:指定 MLLM 作为 “重新查询工具(Requery)” 或 “响应工具(Response)”;
  • 参数生成:生成工具调用的关键参数(如文本检索关键词、图像检索条件)。

规划器基于 InternVL2-8B 模型,通过 10K “图像 - 问题 - 计划” 样本微调得到,能精准理解多模态上下文并生成优化计划。

3.3 核心模块 2:任务执行器(Task Executor)

负责解析并执行规划器生成的计划,包含四类核心工具,工具调用参数与功能明确:

表格

工具类型 核心功能 应用场景
重新查询工具(Requery) 结合图像、查询与图像检索结果,生成优化的文本检索关键词 多维度型问题,需将视觉实体转化为文本查询
响应工具(Response) 整合图像、查询、检索结果,生成最终用户响应 所有问题的终端处理,确保回答连贯准确
图像检索工具(Image Search) 基于反向图像搜索 API(百度图像搜索),返回相关网页内容 视觉识别型问题,识别图像中的实体(人物、地点等)
文本检索工具(Text Search) 基于关键词的网络检索(Tavily),获取实时 / 专业知识 信息查询型问题,补充 MLLM 未掌握的外部知识

执行器会根据计划自动选择适配的 MLLM 提示模板,确保工具协同与结果整合的有效性。

3.4 关键优势

  • 单轮规划:避免迭代式规划的冗余调用,降低计算开销;
  • 工具感知:明确各类工具的功能边界,实现精准调用;
  • 多模态协同:直接利用图像检索工具,充分挖掘视觉信息,突破文本中心范式。

四、实验设计与结果

4.1 实验设置

(1)数据集与评估指标
  • 核心数据集:RemPlan(规划能力评估);
  • 对比数据集:MMSearch、Dyn-VQA(mRAG 专用)、A-OKVQA(传统信息型 VQA);
  • 评估指标:RemPlan 采用五维规划指标 + 答案质量,其他数据集采用答案质量(Ans.)或准确率。
(2)模型配置
  • MLLM 骨干:Qwen2-VL-72B;
  • 规划器:InternVL2-8B(微调后);
  • 检索工具:百度图像搜索(图像检索)、Tavily(文本检索);
  • 对比方法:Qwen2-VL-72B(无检索)、MMSearch(静态 mRAG)、OmniSearch(迭代式动态 mRAG)。

4.2 核心实验结果

(1)RemPlan 基准上的表现

表 2 与表 3 展示了 E-Agent 与对比方法的性能与工具调用情况:

表格

方法 答案质量(Ans.) 计划准确率(Plan-acc) 平均工具调用次数
Qwen2-VL-72B 1.09 - 0(无检索)
MMSearch 0.55 - 2.00(检索)+3.00(MLLM)
OmniSearch 0.82 0.49 1.96(检索)+1.96(MLLM)+2.96(规划器)
E-Agent-fewshot 1.23 0.32 1.05(检索)+1.77(MLLM)
E-Agent-sft 1.25 0.86 1.05(检索)+1.54(MLLM)

关键结论:

  • E-Agent-sft 在答案质量与计划准确率上均居首位,计划准确率达 86%,远超 OmniSearch 的 49%;
  • 工具调用次数显著减少:检索工具调用从 2.0 次降至 1.05 次,MLLM 调用从 3.0 次降至 1.54 次,冗余搜索大幅减少。
(2)不同问题类型的表现
  • 基础型问题:E-Agent 表现最优(Ans.1.65),而 MMSearch/OmniSearch 因冗余检索引入噪声,性能低于纯 MLLM;
  • 视觉识别型 / 信息查询型问题:E-Agent 凭借精准工具选择,答案质量分别达 1.17、1.00,显著超越对比方法;
  • 多维度型问题:虽因复杂度高表现略低(Ans.0.89),但仍领先于所有对比方法。
(3)其他数据集的泛化性验证

表格

数据集 方法 答案质量 / 准确率 平均检索工具调用次数
Dyn-VQA E-Agent-sft 0.89(Ans.) 1.26
Dyn-VQA OmniSearch 0.82(Ans.) 2.03
MMSearch E-Agent-sft 0.76(Ans.) 1.42
MMSearch MMSearch 0.65(Ans.) 2.00
A-OKVQA E-Agent-sft 88%(准确率) 0.13
A-OKVQA Qwen2-VL-72B 88%(准确率) 0.00

关键结论:

  • E-Agent 在 mRAG 专用数据集(Dyn-VQA、MMSearch)上均实现 SOTA,且工具调用次数减少 38%-49%;
  • 在传统 VQA 数据集(A-OKVQA)上,E-Agent 准确率与纯 MLLM 持平(88%),但检索工具调用仅 0.13 次,避免了过度检索的性能损耗。

4.3 案例分析

(1)成功案例

问题:“该人物目前效力于哪支俱乐部?”

  • 计划:图像检索(识别人物)→ 重新查询(生成关键词)→ 文本检索(获取转会信息)→ 响应(整合结果);
  • 结果:正确识别球员为杨政,检索到其 2024 年 CBA 选秀加盟四川金强蓝鲸俱乐部,回答准确。
(2)失败案例
  • 案例 1(工具执行失败):问题 “该瀑布高度多少米?”,计划正确但图像检索错误(误判瀑布为安赫尔瀑布),导致答案错误;
  • 案例 2(规划失败):问题 “该食物适合减脂期食用吗?”,规划器未调用图像检索识别食物,也未检索营养信息,MLLM 无法给出确定答案。

案例证明:E-Agent 的规划能力关键,但工具执行质量(如检索准确性)也直接影响最终结果。

五、相关工作对比

表格

研究方向 代表工作 核心差异
静态 mRAG 方法 MMSearch 固定检索流程,无动态规划,冗余调用多
迭代式 mRAG 方法 OmniSearch 迭代式规划, latency 高,计算开销大
多模态 VQA 基准 A-OKVQA、INFOSEEK 仅关注答案准确性,无规划能力评估
本研究(E-Agent+RemPlan) - 单轮动态规划 + 规划能力专用基准,平衡准确性与效率

六、局限性与未来方向

6.1 局限性

  1. 复杂推理能力不足:单轮规划难以处理多跳推理任务,缺乏中间验证步骤;
  2. 工具依赖性强:依赖预定义工具集,难以适配新增多模态工具;
  3. 数据集规模较小:RemPlan 仅含 200 个样本,需扩大规模以提升评估可靠性。

6.2 未来方向

  1. 层级化规划:设计 “高层策略 + 低层调整” 架构,支持复杂多跳推理;
  2. 动态反思模块:引入检索反馈机制,实时优化规划;
  3. 自适应工具管理:支持新增工具的自动适配与集成;
  4. 扩展 RemPlan 规模:增加更多领域、更多复杂场景的样本。

七、结论

E-Agent 通过 “单轮动态规划 + 工具感知执行” 的创新架构,有效解决了现有 mRAG 系统的僵化与冗余问题。其核心优势在于:通过 mRAG 规划器实现多模态工具的自适应协调,在提升问答准确性的同时减少冗余调用;配套的 RemPlan 基准填补了 mRAG 规划能力评估的空白,为该领域的标准化研究提供了关键工具。

实验证明,E-Agent 在多个数据集上均显著超越现有方法,准确率提升 13%、冗余搜索减少 37%,为真实场景下的多模态问答提供了高效、可靠的解决方案。未来通过层级化规划与动态反思模块的优化,有望进一步提升复杂推理能力,拓展应用场景。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐