mKG-RAG：用多模态知识图谱增强检索生成，赋能知识密集型视觉问答

xianggll

352人浏览 · 2026-05-07 17:28:29

xianggll · 2026-05-07 17:28:29 发布

mKG-RAG: Leveraging Multimodal Knowledge Graphs in Retrieval-Augmented Generation for Knowledge-intensive VQA

摘要

mKG-RAG是一个创新的检索增强生成框架，通过构建多模态知识图谱并采用双阶段检索策略，有效解决了多模态大模型在知识密集型视觉问答任务中的知识缺陷问题。该方法在E-VQA和InfoSeek基准上分别达到36.3%和40.5%的准确率，相比基础模型提升超过20%，为专家和投资者展示了AI技术在复杂知识推理领域的重大进展。

阅读原文或https://t.zsxq.com/gTQPn获取原文pdf

正文

一、问题背景：MLLMs的知识瓶颈

多模态大模型（Multimodal Large Language Models, MLLMs）如LLaVA等在视觉问答任务中表现出色，但在知识密集型VQA场景中面临严峻挑战。当被问及"这座体育场最近一次翻新是什么时候？"这类需要百科知识的问题时，MLLMs往往陷入两个困境：要么生成看似合理却事实错误的答案，要么拒绝回答。这根本上源于两个因素：首先，训练语料中缺乏相关知识；其次，低频事实难以被模型有效记忆。

二、现有方案的局限性

2.1 检索增强生成的不足

为了解决这一问题，检索增强生成（Retrieval-Augmented Generation, RAG）范式应运而生。传统RAG方法通过从外部知识库检索相关文档并作为上下文证据，来扩展MLLMs的知识容量。然而，现有基于RAG的VQA方法主要存在三大问题：

噪声困扰
：依赖非结构化文档检索，导致大量无关或误导性内容混入，严重损害答案准确性
结构忽视
：忽略知识要素间的结构关系，无法充分利用逻辑连接
模态单一
：往往采用单模态检索器，无法有效跨越多模态查询与文本知识库间的模态鸿沟

2.2 知识图谱的机遇

知识图谱（Knowledge Graphs, KGs）通过紧凑而有序的结构化表示，提供了一个更优雅的解决方案。但在多模态VQA场景中，仅采用文本KG是不够的。既然VQA任务本质上涉及多模态推理，两种模态的信息对识别相关知识都至关重要，因此多模态知识图谱成为最佳选择。

三、mKG-RAG框架的创新设计

3.1 多模态知识图谱构建

mKG-RAG的核心创新在于一个三阶段的多模态KG构建管道：

第一阶段：文本图提取

系统采用MLLM提示工程方法，从文本中识别关键实体（节点）和有意义的关系（边），形成文本子图。每个实体包含唯一名称和详细描述，每条关系连接头尾实体并附带简洁的关系摘要。

第二阶段：视觉图提取

使用场景图生成（Scene Graph Generation, SGG）技术，从图像中提取精细的区域级信息。与简单的目标检测不同，SGG不仅识别对象及其类别和边界框，还提取对象间的视觉关系，这为后续的视觉-文本关系匹配提供了基础。

第三阶段：多模态图聚合（核心创新）

这是mKG-RAG最具创意的环节。直接基于图像-文本相似度的浅层对齐方式难以捕捉细粒度、上下文感知的对应关系。因此，研究团队巧妙地利用MLLMs强大的视觉-语言理解能力，设计了一个视觉-文本匹配提示：

code

<前缀指令><图像> [文本实体和关系] [视觉实体和关系]

通过这个精心设计的提示，MLLM能够精确地匹配文本和视觉实体/关系，确保语义一致性和模态互补性。视觉对象用其类别和归一化边界框表示（如"object-1: mountain [0.2,0.4,0.9,0.8]"），使模型能够在原始图像中定位相应区域，而无需额外的裁剪区域图。

通过这一过程，系统构建了一个以文本图为结构骨架、以对齐的视觉元素作为属性增强的多模态子图。关键创新之处在于：不同于仅将图像表示为实体的先前工作，mKG-RAG将视觉关系显式建模为第一类组件。

3.2 双阶段多模态检索范式

构建好多模态KG后，如何高效准确地检索成为关键。mKG-RAG采用了灵感来自人类认知过程的两阶段策略：

第一阶段：粗粒度文档检索

对于包含数百万段落的大规模知识库，直接图检索效率低下，因为每个段落可能包含数百个节点和边，大幅扩展搜索空间。因此，第一阶段使用向量搜索进行快速召回：

给定查询(Iq, q)和多模态文档集合，系统计算相似度集合：

S = {si | si = ⟨Eq(Iq,q) · Ee(Ii,Ti)⟩, i = 1,...,N}

其中Eq和Ee分别是查询和证据编码器，采用后文介绍的查询感知多模态检索器（QM-Retriever）。返回得分最高的Kd=10个候选文档。

第二阶段：多粒度图检索

与引入大量语境噪声的基于文本块的方法不同，本方法从候选文档的结构化KG中检索证据。具体流程包括：

图合并：在线合并第一阶段检索到的候选文档对应的离线生成的子图，形成查询特定的多模态图Gm。通过限制合并范围，可有效缓解跨文档知识不一致性
多粒度相似度计算：计算多模态查询(Iq,q)与Gm中各个多模态实体(n,v)或关系(e,r)的嵌入相似度，选取最相关的Kg=10个候选，形成初始相关子图G'r
子图扩展：仅基于相似度的检索可能遗漏关键信息。系统通过广度优先搜索，纳入G'r的l-hop邻居，但仅选择与查询相似度超过阈值的邻居，得到最终相关子图Glr

检索到的上下文既包括图元素（实体和关系），也包括相关的文本块，前者提供结构化知识概览，后者供应上下文细节。

3.3 查询感知多模态检索器（QM-Retriever）

标准多模态检索器往往优先考虑语义相似性而非查询相关性，易于检索相关但无法用于准确答题的内容。

mKG-RAG设计了一个专为VQA任务证据检索优化的检索器，包含三个关键组件：

视觉编码器（Fv）：采用BLIP-2的预训练视觉编码器提取图像特征

问题转换器（Fq）：解决疑问句与陈述式证据文本的语法错配问题。与显式改写问题不同，Fq通过两层线性层和ReLU激活，直接在潜在空间将问题嵌入转换为陈述式表示

查询变换器（Q-Former）：基于BLIP-2的Q-Former学习紧凑的查询令牌Z，聚合多模态信息：

Zq = Q-Former(Z, Fv(Iq), Fq(q))

双重优化目标：

问题改写约束：利用LLM将原始问题转换为强调场景上下文的陈述句，计算编码(Iq,q)和(Iq,s)的KL散度

LKL = DKL(p(Zq|Iq,q) ∥ p(Zs|Iq,s))
问题-证据对齐：采用对比学习鼓励正的问题-证据对有相似表示，负对差异大

Lcon = -log[exp(sim(Zq,Ze)/τ) / ΣBk=1 exp(sim(Zq,Zk)/τ)]

总损失函数为：L = Lcon + αLkl

四、实验成果：卓越的性能表现

4.1 主要基准测试结果

在两个主要知识密集型VQA基准上，mKG-RAG展现了显著的性能优势：

E-VQA数据集：包含2M维基百科页面，测试集5.8K样本，包括单跳和两跳问题

mKG-RAG达到36.3%的全局准确率
相比零样本LLaVA-MORE（16.0%）提升20.3%
相比图检索基线RAG-Anything（28.4%）提升7.9%

InfoSeek数据集：采用100K文档子集，73K样本验证集，包含Unseen-Q和Unseen-E子集

mKG-RAG达到40.5%的全局准确率
相比零样本BLIPT-2（12.5%）提升28%
相比EchoSight（36.6%）提升3.9%

这些成果表明，多模态知识图谱集成确实显著增强了MLLMs的知识推理能力。

4.2 检索性能对标

精细的消融研究验证了每个组件的价值。在多模态检索方面，QM-Retriever相比基线方法持续领先：

E-VQA上平均改进9.9%
InfoSeek上平均改进7.0%
视觉到视觉（V→V）检索稳定超越其他单模态或跨模态配置

这强有力地证实了多模态KG对VQA任务的关键价值。

4.3 两跳问题的优势

对于需要跨多个文档进行顺序检索的两跳问题，虽然mKG-RAG的收益相对单跳问题稍小（缺乏专门的多跳问题分解技术），但仍显著超越零样本基线，验证了框架的泛化能力。

4.4 计算效率的巧妙平衡

一个常见的顾虑是，多组件框架是否过于低效。实验数据打消了这一疑虑：

多模态知识图谱构建在离线阶段完成，最耗时的步骤不影响推理延迟
相比简单RAG，mKG-RAG仅增加1.14倍的计算开销，却实现了1.37倍的准确率提升
这是一个极具竞争力的性能-效率权衡

4.5 跨架构的一致性优势

一项重要的鲁棒性验证涉及多种MLLM ，包括Phi3V、InternVL3、LLaMA-3.2-Vision、LLaVA-v1.5、DeepSeek-VL2和Qwen2.5-VL。结果表明：

mKG-RAG在单跳查询上平均提升9.4%
在全量集上平均提升8.7%
这证明该方法具有强大的跨架构泛化能力

五、深入分析：核心创新解读

5.1 为何多模态知识图谱是必需的

在传统RAG框架中，存在三层递进的问题：

一层问题
：检索到的非结构化文本包含噪声，模型难以甄别真正相关的信息
二层问题
：缺乏关系结构，知识要素间的逻辑连接丧失
三层问题
：VQA场景中，文本单模态信息不足，视觉线索对理解至关重要

单纯的文本KG只能解决前两层问题。mKG-RAG通过显式建模视觉关系，使其成为与文本关系等价的一级组件，从而彻底解决了第三层问题。

例如，在"这座体育场最近一次翻新是什么时候？"的例子中：

零样本MLLMs可能基于视觉外观错误地猜测（如2009年）
单纯的文本KG虽能提供"体育场"的相关事实，但可能混入多个翻新日期
多模态KG不仅通过文本关系确定"世界滑雪锦标赛"的相关性，还通过视觉匹配确认图像中显示的正是"Marcialonga"赛道，最终精确检索到"2010年"这一正确答案

5.2 双阶段检索的设计智慧

两阶段设计体现了工程上的精明选择：

第一阶段的必要性：在数百万文档的规模上，如果直接对完整的图执行全局图检索，计算复杂度会是灾难性的。一个文档若包含500个实体和1000条关系，百万级文档将产生5亿节点的超级图。第一阶段通过向量检索快速定位候选文档（通常10-20个），将搜索空间缩小至千分之一。

第二阶段的精准性：限制在候选文档范围内的图检索能够：

避免跨文档的知识冲突（同一实体在不同文档中的属性差异）
专注于查询特定的知识子图，而非全局图的冗余信息
通过l-hop扩展，自动发现相关的支持性知识（如例子中的"Marcialonga"和"World Ski Championship"）

5.3 QM-Retriever的创新价值

传统检索器优化的是语义相似性，即"查询和证据在语义空间中有多近"。但这并不等同于"证据对回答查询有多有用"。例如，对于查询"这座建筑的建筑风格是什么？"，一篇讨论"该建筑的历史演变"的文档在语义上相似，但对直接回答风格问题的帮助有限。

QM-Retriever通过三个创新解决这一问题：

问题转换
：将"什么是...？"（疑问句）转换为"...是..."（陈述句）表示，与证据的陈述式自然形式对齐
查询感知学习
：在高质量的查询-证据对数据集上训练，学习真正的相关性而非表面相似性
多模态融合
：同时利用视觉和文本信息，而不是退化为单模态检索

实验证实这个设计的有效性：QM-Retriever相比CLIP视觉检索提升9.9个百分点，相比仅用图像标题的文本检索也提升显著。

5.4 消融研究的启示

系统的消融研究揭示了各组件的相对贡献：

文档检索
：去除QM-Retriever改用CLIP导致准确率下降4.7%（E-VQA）和2.1%（InfoSeek），说明多模态检索是基础
图检索
：替换为基于块的检索导致准确率下降8.1%（E-VQA）和7.5%（InfoSeek），这是最大的损失，证明了结构化知识的核心价值
子图扩展
：去除l-hop扩展导致下降1.3%和0.4%，虽然较小但在高精度场景中仍显著

这个下降幅度的差异序列反映了一个深刻的设计洞察：知识组织的结构化程度对VQA准确性的影响递增。

六、工业应用前景与投资价值

6.1 商业应用场景

mKG-RAG框架开启了多个高价值的应用场景：

1. 企业知识库智能助手

对于拥有数百万份文档的大型企业（如法律事务所、医疗机构、研究机构），mKG-RAG可以：

将非结构化的文件转化为可查询的多模态知识图谱
员工或客户可通过自然语言加图像进行复杂问询
远优于传统关键词搜索的精确性和上下文理解能力

2. 医疗诊断辅助系统

在医学影像分析中，多模态VQA可以帮助医生：

针对医学影像提出专业问题（如"这个肿块有恶性迹象吗？"）
系统检索相关的医学文献、病例报告和诊疗指南
提供循证的诊断建议和治疗方案

3. 文化遗产智能导览

博物馆、文化遗产机构可以构建文物的多模态知识图谱：

游客拍摄文物照片并提问其历史、工艺、文化意义
系统自动检索相关的档案资料、研究论文、修复记录
提供沉浸式、个性化的文化体验

4. 专利和竞争情报分析

对于科技企业和投资机构：

自动构建专利的多模态知识图谱（文本说明、示意图、实施例）
快速查询"这个技术方案与现有专利的关系"、"该技术的演进脉络"
支持技术创新决策和投资评估

6.2 技术优势的长期价值

相比竞品，mKG-RAG体现的技术优势具有长期价值：

相对于单纯的RAG：

结构化知识减少了上下文噪声，模型推理负担降低
关系显式表示，支持复杂的多跳推理
与通用RAG相比，针对VQA进行了特化优化

相对于文本KG：

明确处理了多模态场景中的关键缺失：视觉关系建模
弥补了视觉信息在纯文本图中的空白
支持"看图问诊"这类真实场景

相对于现成的多模态KG：

不依赖预构建的知识库，可处理任意领域文档
特别优势在于长尾知识和专有知识的动态图构建
通过MLLM驱动的提取，知识图谱质量随基础模型升级而提升

6.3 投资机会分析

从投资角度，mKG-RAG代表了几个重要趋势：

1. RAG范式的结构化演进：

2023-2024年，RAG因其解决LLM幻觉问题而获得广泛关注
现在正进入从"简单文档检索"向"结构化知识检索"的升级阶段
这一演进可能催生新一代企业搜索和知识管理解决方案

2. 多模态AI的成熟应用期：

MLLMs（LLaVA、Qwen-VL、GPT-4o）的快速迭代提供了新的基础设施
mKG-RAG展示了如何有效利用多模态能力进行精准知识检索
这为企业级多模态应用打开了新的可行性

3. 知识图谱从学术走向应用：

知识图谱在学术界已有十多年积累，但应用落地缓慢
MLLM的出现改变了图构建的成本模型（无需手工标注，用模型提取）
mKG-RAG代表了一条可行的商业化路径

七、技术细节的创新评述

7.1 视觉-文本匹配的精妙设计

mKG-RAG在多模态图聚合中采用的视觉-文本匹配提示展现了提示工程的高明之处：

相比直接使用CLIP相似度的优势：

CLIP本质上是全局对齐（整张图像与整个文本），难以捕捉细粒度的部分对应
mKG-RAG的提示通过明确的格式化指令，引导MLLM进行逐个实体、逐个关系的精细匹配
通过三步骤的匹配过程（图像匹配、对象匹配、关系匹配），确保了层次化的对应

可扩展性的考量：

提示中不包含实际的区域裁剪图像，仅用边界框坐标引导MLLM定位
这使得单次MLLM调用可处理一张图中的所有对象和关系，而非逐个区域调用
大幅降低了推理成本，提高了可实用性

7.2 KG聚合策略的深层考量

与简单的图合并不同，mKG-RAG采用的在线聚合策略体现了对知识一致性的精细把控：

离线预处理的优势：

每个文档的多模态子图在离线阶段生成，避免了实时计算的延迟
图的规模可控，便于后续的快速查询和扩展操作

在线聚合的灵活性：

仅在检索时合并候选文档的子图，确保了查询特定性
有效避免了不相关文档间的知识污染和矛盾
通过限制合并范围（通常10-20个文档），保持了图的紧凑性和推理效率

这种离线-在线混合策略充分体现了工程实践中"预计算+动态组合"的经典智慧，为大规模应用奠定了基础。

7.3 子图扩展机制的必要性与有效性

mKG-RAG通过l-hop邻居扩展增强构建的子图。仅基于相似度的检索可能遗漏关键信息，而邻居扩展机制能够自动发现语义相关但初始相似度不足的支持性知识。实验数据表明，去除l-hop扩展导致准确率在E-VQA上下降1.3%，在InfoSeek上下降0.4% 。

虽然幅度看似较小，但在高精度场景中这种损失尤为显著。这一设计的智慧在于它为多跳推理提供了自动化的知识关联机制，无需显式的问题分解步骤。

7.4 计算效率与性能的最优权衡

mKG-RAG的计算效率设计堪称典范。虽然系统包含多个组件，但最耗时的多模态知识图谱构建在离线阶段完成。在线运算的成本控制得当——相比零样本生成的成本基准，mKG-RAG的总计算开销仅为1.14倍，却实现了1.37倍的准确率提升。

这意味着每增加14%的计算成本，就能换取37%的准确率改进，这是一个极具竞争力的性能-效率权衡。对于需要在实际系统中部署的方案，这样的权衡比例是完全可接受的。

7.5 跨架构泛化能力的深层启示

mKG-RAG在六种不同MLLM架构上的一致性表现揭示了一个重要的设计原理：与其优化特定模型，不如优化检索和知识组织的方式。

具体来看，在单跳查询上，mKG-RAG平均提升9.4% ，而在全量集上平均提升8.7%。更重要的是，这一提升对模型规模相对不敏感——无论是3B的Phi3V还是32B的Qwen2.5-VL，mKG-RAG都能稳定地提供8-10%的性能增幅。

这表明，优化的关键不在于模型本身，而在于为其提供高质量、低噪声的知识上下文。这一洞察对多模态AI系统的未来架构设计具有重要指导意义：随着基础模型的不断升级迭代，一个设计精良的检索与知识组织层可以持续提供价值。

八、消融研究深层剖析

8.1 文档检索的关键性

当用CLIP替代QM-Retriever进行文档检索时，mKG-RAG的准确率分别下降4.7%（E-VQA）和2.1%（InfoSeek）。这个结果证实了多模态检索的必要性——单纯的视觉特征对VQA任务的文档检索是不足的，查询感知的多模态融合才是关键。

8.2 图检索的核心价值

替换为基于文本块的检索导致准确率下降8.1%（E-VQA）和7.5%（InfoSeek），这是所有消融实验中最大的损失。这一现象强有力地证明了结构化知识对VQA准确性的核心价值。相比于非结构化的文本块，知识图谱的显式实体-关系表示能够：

降低噪声
：过滤掉上下文中的无关信息
增强可追溯性
：知识来源与逻辑链条清晰可见
支持推理
：实体关系为复杂推理提供了明确的推理路径

8.3 子图扩展的微妙作用

去除l-hop扩展仅导致下降1.3%和0.4% ，但这个看似微小的数字隐含着重要的设计哲学：细致的优化往往体现在边际改进上。在追求高精度的应用中，这类1-2%的改进可能决定系统的实用价值。更重要的是，这个机制为多跳推理提供了自动化的知识关联，无需用户显式指定推理步骤。

九、总体评价与展望

mKG-RAG框架代表了RAG范式的重要演进——从"简单文档检索"升级为"结构化知识检索"。它不仅在E-VQA和InfoSeek两个基准上达到业界领先的36.3%和40.5%准确率，相比基础模型提升超过20%，更重要的是展示了一套系统而优雅的技术框架。

通过多模态知识图谱、双阶段检索、查询感知优化等创新，mKG-RAG有效地将结构化知识的精确性与多模态学习的灵活性结合，为知识密集型应用提供了新的解决方案。在多模态AI、知识图谱、检索增强生成三大领域的交叉口上，mKG-RAG展示了如何将理论洞察转化为工程实践，值得学术界和产业界的广泛关注与应用探索。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

20年老程序员×AI：2小时搭建社保智能客服系统实战

摘要：本文记录了一位20年老程序员与AI协作，仅用2-3小时搭建社保智能客服系统的实战过程。系统从单轮问答升级为多轮Agent，实现了12项社保业务办理功能。开发采用真/假服务分层策略，核心功能使用真实服务，非关键模块用桩模拟。文章详细记录了14个关键问题的解决过程，包括字段校验、上下文处理、语音集成等挑战。最终系统支持多业务配置化扩展、敏感信息后置采集、移动端语音交互等特性，展示了AI辅助开发的

AtomGit开源社区

TensorFlow TPU训练超快

AtomGit开源社区

【一次调频】考虑储能电池参与一次调频技术经济模型的容量配置方法（Matlab代码实现）

规模间歇电源并网引起的电网频率问题,导致对引入储能辅助调频的研究越发迫切。提出一种考虑储能电池参与一次调频技术经济模型的容量配置方法。阐述了储能电池功率和容量设计的通用方法;通过分析储能电池在调频运行过程中的成本和效益,基于全寿命周期理论,运用净现值法结合仿真模型构建储能电池参与一次调频的技术经济模型;