Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation

thesky123456

858人浏览 · 2026-03-25 09:18:54

thesky123456 · 2026-03-25 09:18:54 发布

一、研究背景与问题提出

在数据爆炸的时代，多模态检索系统成为电商、医疗、科研等领域的核心需求，但当前 RAG 技术仍面临三大关键挑战：

单模态局限：传统文本 RAG 无法处理视觉内容，图像 RAG 又难以建立视觉与文本的跨模态关联，无法满足多模态问答的融合需求。
图基检索的权衡问题：GraphRAG、LightRAG 等图基框架虽能捕捉跨模态高层交互，但会牺牲细粒度信息保真度，导致精准文本片段检索失效。
模态隔离与融合不足：文本模态擅长编码细粒度语义，视觉模态擅长捕捉空间上下文，但现有模态专属系统缺乏跨模态对齐协议，易造成检索过程中的关键信息丢失，且单源检索无法处理需要向量、图、网络数据库协同的复杂查询。

此外，传统 RAG 的静态流水线架构在多模态查询处理中灵活性差，难以适配动态异构的数据环境，亟需一种能协调多源检索、实现跨模态知识融合的新型框架。

二、核心贡献

论文的四大核心贡献奠定了其在多模态 RAG 领域的创新价值：

提出模块化分层框架：将查询处理解耦为专用智能体组件，实现可扩展、高效的多模态检索，解决了传统架构的灵活性问题。
实现多源即插即用检索集成：通过标准化接口对接向量、图、网络数据库，支持查询的动态路由，适配异构数据环境，简化复杂信息检索流程。
引入专家引导的精修流程：通过轻量级专家监督，在保证运算效率的同时提升响应的上下文精准度，解决多源答案的冲突问题。
取得 sota 性能：在 ScienceQA（科学问答）和 CrisisMMD（危机事件分类）两大基准数据集的零样本设置下实现 state-of-the-art 结果，显著超越现有基线模型。

三、相关工作综述

论文梳理了 RAG 领域的两大核心研究方向，明确了 HM-RAG 的技术定位：

3.1 检索增强生成（RAG）的演进

早期文本 RAG：将大语言模型（LLM）与外部文本知识融合，提升问答性能，但无法处理视觉内容；
后续图像 RAG：为大视觉语言模型（VLM）设计视觉内容检索，但文本与视觉检索过程相互独立，跨模态融合效果差；
近期图基 RAG：利用结构化知识表示捕捉模态内 / 间语义关系，但依赖单源检索，无法处理多源数据协同的复杂查询，且在私有数据检索、实时更新场景中存在信息不完整 / 过时问题。

3.2 RAG 中的智能体技术

传统 RAG 静态流水线难以处理多模态查询，而基于智能体的 RAG通过将查询处理分解为语义解析、跨模态检索、上下文生成等专用组件，提升了模块化和灵活性：

代表工作如 PaperQA（利用学术文献生成证据型回答，减少科学领域幻觉）、FLARE（主动 RAG，通过预检索增强长文本生成）；
动态 RAG（如 DRAGIN）提出实体感知的增强策略，解决上下文窗口限制，但跨模态融合的问题仍未得到有效解决；
HM-RAG 整合上述创新，通过分层多智能体架构实现动态查询适配和多模态检索，成为复杂多模态信息检索的优化方案。

四、HM-RAG 框架方法论

HM-RAG 采用三层级多智能体架构，核心流程为「多模态知识预处理→查询分解→多源检索→答案精修与融合」，实现了跨模态、多源数据的协同推理，整体框架如图 2 所示。

4.1 多模态知识预处理

将文本、视觉数据转换为向量和图数据库表示，为后续检索奠定基础，包含两个核心步骤：

4.1.1 多模态文本知识生成

针对传统实体中心方法无法识别新型视觉概念的问题，基于BLIP-2 框架实现视觉到文本的转换，并通过上下文精修解决 BLIP-2 输出过于浓缩、缺乏视觉特异性的问题，流程为：

分层视觉编码：生成图像的 patch 嵌入，捕捉视觉细粒度特征；
跨模态交互：通过可学习查询对视觉特征进行注意力加权，建立视觉 - 语言语义关联；
上下文感知文本生成：融合潜在文本特征与跨模态表示，自回归解码生成视觉描述文本；
融合整合：将生成的视觉文本与原始文本语料拼接，形成多模态文本知识库 Tm=Concate(T,Tv)。

4.1.2 多模态知识图谱（MMKG）构建

基于 LightRAG 框架，将 VLM 增强的视觉描述与 LLM 的结构化推理结合，构建多模态知识图谱 G=LightRAG(Tv,T)，核心机制：

实体 - 关系抽取：将输入分解为实体集合和关系三元组 (hi,ri,ti)；
双层推理增强：全局检索识别主题聚类，局部提取聚焦实体专属关联；
跨模态接地：图谱构建时嵌入视觉数据存储位置，实现视觉 - 语言的双向知识增强，同时通过表示一致性约束降低 LLM 的幻觉概率。

4.2 分解智能体（Decomposition Agent）：处理多意图查询

解决传统系统无法处理多源协同推理的复合查询问题，通过 LLM 提示策略将复杂查询分解为可执行的原子子任务，分两步执行：

分解必要性判断：通过二分类提示让 LLM 判断查询为单意图 / 多意图，单意图直接返回，多意图进入分解阶段；
意图分解：通过结构化提示将原始查询分解为 2-3 个逻辑关联的子查询，同时保留原始关键词，确保子查询与原意图的一致性。

4.3 多源即插即用检索智能体（Multi-source Plug-and-Play Retrieval Agents）

将检索功能解耦为三个专用智能体，遵循统一通信协议，支持即插即用，实现向量、图、网络数据的并行检索：

4.3.1 向量基检索智能体：捕捉细粒度信息

针对非结构化文本语料，采用朴素检索架构，通过语义嵌入和余弦相似度实现精准匹配：

计算查询的语义嵌入 hq=Etext(q)；
计算查询与所有文档嵌入的余弦相似度，排序后检索 top-k 相关文档；
通过约束解码生成答案，设置 top-p=1.0、温度 = 0，实现确定性解码，最小化幻觉风险。

4.3.2 图基检索智能体：捕捉关系型信息

基于 LightRAG 的图遍历能力，在 MMKG 上解决多跳语义查询，核心策略：

构建上下文感知子图 Gq，仅保留与查询高度相关的三元组；
分层搜索：先检索查询相关实体的 1 跳邻居，再通过迭代消息传递扩展跨模态路径，捕捉深层语义关系；
双级检索：结合语义分解（提取局部 / 全局关键词）、混合图 - 向量匹配、高阶上下文扩展，保证检索的完整性和结构性。

4.3.3 网络基检索智能体：获取实时信息

基于 Google Serper API 实现实时网络检索，弥补本地数据库的信息滞后问题：

通过参数化 API 请求获取结构化搜索结果（标题、摘要、URL、排名）；
具备三大核心能力：实时事实验证、归因感知生成、自适应查询扩展，解决词汇不匹配问题，提升生成结果的事实性和可追溯性。

4.4 决策智能体（Decision Agent）：多答案精修与融合

解决多源检索答案的不一致问题，通过一致性投票和专家模型精修两步生成最终答案，是 HM-RAG 框架的核心优化模块：

4.4.1 一致性投票

采用 ROUGE-L 和 BLEU 指标量化向量、图、网络检索答案的语义一致性：

ROUGE-L：通过最长公共子序列（LCS）衡量关键信息的重叠，聚焦宏观语义对齐；
BLEU：通过 n-gram 匹配精度衡量术语 / 数值的精准匹配，聚焦微观细节一致性；
对两个指标加权融合，若两两答案相似度超过预设阈值，通过轻量级 LLM 精修生成最终答案；若低于阈值，进入专家模型精修阶段。

4.4.2 专家模型精修

针对多源答案冲突的情况，采用 LLM、MLLM（多模态大语言模型）或 CoT-LM（思维链语言模型），整合多源证据进行跨模态推理，生成兼具上下文一致性和事实准确性的最终答案，实现专家级的冲突解决。

五、实验设计与结果

5.1 实验设置

5.1.1 基准数据集

选择两个异构多模态推理数据集，覆盖科学问答和危机事件分类两大场景，验证框架的通用性：

ScienceQA：首个大规模科学问答多模态基准，包含 21208 个样本，覆盖自然科学、社会科学、形式科学 3 大学科，34.6% 的测试题需要视觉 + 文本协同推理，评估多模态理解和多步推理能力；
CrisisMMD：灾难响应领域的多模态数据集，包含 35000 条社交媒体帖子，涵盖 7 类灾难、4 个严重程度等级，数据含自然噪声，适合评估零样本适配能力，贴近实际应急场景。

5.1.2 实现细节

模型选型：DeepSeek-R1-70B 用于动态图构建，Qwen2.5-7B 优化 LightRAG 混合检索，ScienceQA 用 GPT-4o 精修，CrisisMMD 用 GPT-4 精修；
硬件：单张 NVIDIA A800-80GB GPU，通过内存优化并行化支持图神经网络计算和 RAG 任务并发执行。

5.2 主要实验结果

HM-RAG 在两个数据集的零样本设置下均实现 sota 性能，显著超越现有 LLM、VLM 和单智能体 RAG 基线：

5.2.1 ScienceQA 数据集

平均准确率达93.73%，超越此前零样本 VLM 最佳方法 LLaMA-SciTune（90.03%）4.11%、GPT-4o（91.16%）2.82%，比人类专家（88.40%）高 6.03%；
相对向量、图、网络基单智能体 RAG，准确率分别提升 12.95%、12.71%、12.13%，其中社会科学（SOC）任务提升最为显著，较网络基、图基基线分别提升 24.38%、20.65%。

5.2.2 CrisisMMD 数据集

平均准确率达58.55%，超越最强基线 GPT-4o（55.11%）2.44%、纯文本大模型 Qwen2.5-72B（56.25%）3.44%，且仅使用 7B 参数，展现出优异的参数效率；
任务 1（二分类）准确率达 72.06%，超 GPT-4o 3.86%，验证了强视觉 - 文本对齐能力；
多模态融合效果显著，较纯文本、纯图变体的平均准确率分别提升 5.7%、2.01%。

5.3 定性分析

通过典型案例验证 HM-RAG 的鲁棒性：当数据库中无查询相关信息时，向量、图、网络检索智能体均生成错误答案，而决策智能体的专家精修模块通过高层推理推导正确结果，证明了多智能体融合相较于单检索机制的核心优势（如图 3 殖民地识别案例）。

此外，在单模态问答（如热能量判断、修辞格识别）和多模态问答（如丹特里雨林生态、食物网初级消费者判断）案例中，HM-RAG 均能准确整合多源证据，纠正单检索智能体的错误，生成精准答案（如图 4、图 5）。

5.4 消融实验

在 ScienceQA 上对 HM-RAG 的核心组件进行消融研究，明确各智能体的贡献（如表 3）：

决策智能体（DA）是核心：移除后平均准确率下降 10.82%，图像任务和社会推理任务分别下降 21.56%、19.60%，证明其多源答案融合的关键作用；
网络基检索智能体（WA）提升实时性：移除后平均准确率下降 5.63%，7-12 年级复杂任务下降 6.35%，证明实时网络信息对复杂推理的重要性；
全集成架构性能最优：完整 HM-RAG（93.73%）较最佳消融配置提升 2.44%，在文本、图像任务中分别提升 3.70%、4.80%，7-12 年级复杂查询提升 2.64%，验证了分层多智能体协同的有效性。

六、结论与展望

HM-RAG 作为首个分层多智能体多模态 RAG 框架，通过查询分解、多源即插即用检索、专家引导的答案精修，实现了结构化、非结构化、图基数据的动态知识合成，有效解决了传统 RAG 的模态隔离、单源检索、细粒度信息丢失等核心问题。

实验结果表明，HM-RAG 在 ScienceQA 和 CrisisMMD 的零样本设置下实现 sota 性能，答案准确率和问题分类准确率较基线 RAG 分别提升 12.95% 和 3.56%，且模块化架构支持新数据模态的无缝集成，同时保证严格的数据治理。

该工作为 RAG 系统的发展奠定了新方向，推动了多模态推理和知识融合技术的落地，未来可进一步拓展至更复杂的异构数据场景（如医疗、工业），并优化智能体间的协同策略，提升推理效率和零样本适配能力。

七、关键术语与符号说明

VLMs：Vision-Language Models，视觉语言模型；
MMKG：Multimodal Knowledge Graphs，多模态知识图谱；
ROUGE-L：基于最长公共子序列的文本相似度指标，衡量宏观语义一致性；
BLEU：基于 n-gram 的文本相似度指标，衡量微观细节精准度；
Tv：由视觉数据转换生成的文本描述；
Tm：融合原始文本和视觉生成文本的多模态文本知识库；
G=(E,R)：多模态知识图谱，E 为实体集合，R 为关系三元组集合。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

考虑扰动的欠驱动船舶轨迹跟踪自适应滑模控制Matlab/simulink实现模型

本文针对欠驱动船舶在复杂海洋环境中受模型不确定性和外界扰动影响下的轨迹跟踪控制问题，提出了一种基于自适应滑模控制的创新方法。通过引入超螺旋滑模算法与参数自适应调节机制，结合非线性速度观测器与积分滑模面设计，实现了对船舶运动状态的高精度跟踪。仿真与实船实验结果表明，该方法在强风浪干扰下仍能保持轨迹跟踪误差小于0.5米，验证了其鲁棒性与工程实用性。

AtomGit开源社区

【一次调频】考虑储能电池参与一次调频技术经济模型的容量配置方法（Matlab代码实现）

规模间歇电源并网引起的电网频率问题,导致对引入储能辅助调频的研究越发迫切。提出一种考虑储能电池参与一次调频技术经济模型的容量配置方法。阐述了储能电池功率和容量设计的通用方法;通过分析储能电池在调频运行过程中的成本和效益,基于全寿命周期理论,运用净现值法结合仿真模型构建储能电池参与一次调频的技术经济模型;

AtomGit开源社区

【负荷预测、电价预测】基于神经网络的负荷预测和价格预测（Matlab代码实现）

本文用MATLAB建立一个短期电力负荷（或价格）预测系统。两个非线性回归模型（神经网络和袋式回归树）被校准，以预测给定温度预测、假日信息和历史负荷的每小时前日负荷。这些模型在数据上进行训练，并在2008年的样本外数据上进行测试。这些模型被证明能够产生高度准确的日前预测，平均误差在1-2%左右。能够通过MATLAB部署的DLL调用训练好的负荷预测模型。准确的负荷预测对于公用事业的短期运营和长期规划至