ACM MM 2025|MIRA:面向AI辅助医学诊断的多模态智能检索与增强框架
随着多模态大语言模型(MLLMs)在 AI 辅助医学诊断中的应用不断扩展,其生成能力显著提升,但一个核心瓶颈仍然存在——模型输出可能与既有医学知识体系不一致,产生事实性偏差。医学场景对事实准确性的要求极高,因此该问题尤为关键。
为提升生成结果的可信度,检索增强生成(RAG)框架通过整合外部知识源对模型输出进行约束与补充。然而,在多模态医学推理场景下,RAG 方法仍面临两类结构性挑战。
首先是检索失衡问题。当检索阶段未能覆盖关键证据时,模型可能遗漏重要医学事实;而过度检索则可能引入冗余或无关信息,干扰推理路径并降低输出一致性。
其次是对检索结果的过度依赖。即便模型在初始推理阶段已形成正确判断,若后续生成过程盲目依赖检索内容,反而可能引入事实冲突,导致错误修正。
从方法层面看,现有研究多集中于放射学任务,难以泛化至病理学、皮肤科等其他医学领域。同时,检索与推理过程往往被割裂处理,缺乏动态模态融合与实时证据整合机制,难以充分利用医学影像与文本信息的协同关系。此外,许多系统将视觉与文本视为同质模态,忽视了其在医学认知流程中的差异性角色。另一方面,依赖静态知识库的设计也限制了模型对最新医学研究进展的适应能力。
因此,在多模态医学推理场景中,提高事实准确性不仅依赖于增强检索能力,更需要构建一个能够动态整合多模态证据、区分模态角色并支持知识实时更新的统一框架,以实现更加可靠、可解释且符合最新医学研究的智能诊断生成。

图 1|自动医疗问答系统的关键局限性分析
图 1 系统性总结了当前自动医疗问答系统在真实临床应用中的四类核心局限,揭示了其在事实准确性、临床推理能力与可解释性方面的结构性不足。
(一)错误信息与幻觉问题
现有系统可能在医学影像解读中产生事实性错误,例如误判 MRI 图像特征或虚构肿瘤性质与治疗建议。这类“幻觉”不仅影响诊断准确性,还可能导致不恰当的治疗决策,对患者安全构成潜在风险。该问题本质上反映了模型生成机制与医学知识约束之间的不匹配。
(二)临床推理能力不足
系统对 CT 等医学影像的分析往往停留在表层特征描述,缺乏结构化的临床推理链条,难以提炼具有实际诊疗价值的关键信息。这种推理深度不足使得生成结果缺乏针对性与可操作性,难以满足临床决策支持的需求。
(三)开放式临床场景处理能力有限
在涉及复杂治疗决策或动态指标解释的开放式问题中,系统往往难以将图表信息与具体治疗策略建立明确关联。例如,对于肿瘤反应曲线对疗效评估的影响,模型难以提供因果性或机制性解释,从而限制了其在复杂临床场景中的应用价值。
(四)可追溯性与可解释性不足
当前系统难以清晰说明不同患者群体(如对照组、轻度认知障碍组与阿尔茨海默病组)之间影像差异的成因,也无法对生成结论的证据来源与可靠性进行评估。这种证据链条缺失降低了医生与患者对系统输出的信任度,制约其临床落地。
03
什么是 MIRA?
本文提出 多模态智能检索与增强框架(MIRA, Multimodal Intelligent Retrieval and Augmentation),旨在系统性提升多模态大语言模型(MLLMs)在医学推理场景中的事实准确性与证据一致性。该框架围绕“检索风险控制”与“多模态证据整合”两大核心问题进行设计,由两个关键组件构成。
(一)重新思考与重新排列模块
该模块针对医学推理过程中常见的检索失衡问题进行优化。通过动态调整检索上下文的数量与优先级,实现对事实风险的精细化管理,从而避免因检索不足导致的关键信息缺失,或因过度检索引入无关噪声。该机制在生成前阶段对证据进行筛选与重排,提高检索信息与问题语境之间的匹配度,为后续推理提供更加可靠的知识基础。
(二)医学 RAG 框架
在多模态证据整合层面,MIRA 构建了专门面向医学任务的 RAG 框架。该框架结合图像嵌入表示与医学知识库资源,并引入查询重写模块,以增强检索表达的准确性与领域适配性。通过协同整合模型固有知识与外部权威资料,医学 RAG 框架实现了视觉信息与文本证据的动态融合,使模型能够在复杂医学问题中进行更加精确与可解释的推理。
在多个公开医学视觉问答(VQA)与医学报告生成基准上的实验结果表明,MIRA 显著提升了模型的事实准确率与整体生成质量,并在多项指标上达到新的最优水平。该框架为多模态医学推理提供了一种系统性的证据增强范式,为构建更加可靠与可追溯的 AI 医疗辅助系统奠定了方法学基础。
04
研究方法
MIRA:面向临床决策的多模态智能检索与增强框架
MIRA(Multimodal Intelligent Retrieval and Augmentation) 旨在通过结构化的检索、验证与推理机制,系统性提升多模态大语言模型(MLLM)在临床决策场景中的事实可靠性与推理一致性。框架围绕医学推理中常见的事实准确性不足、知识时效性滞后以及多模态信息整合困难三类核心问题进行设计,由三个关键模块构成。
(一)迭代推理模块(RTRA)
RTRA(Reflect–Then–Rearrange–Answer)模块针对检索失衡与生成不稳定问题进行优化。该模块通过“反思—重排”的迭代循环机制,动态调整检索上下文数量(k 值),在检索不足与过度检索之间取得平衡,从而降低事实遗漏与噪声干扰风险。
在推理流程上,RTRA 构建了三阶段验证机制:首先生成初始响应,其次基于思维链(Chain-of-Thought, CoT)进行自我批判与证据审查,最终对答案进行结构化优化。该闭环过程增强了生成结果的事实一致性与可解释性,提高系统在临床场景中的可靠性。
(二)多模态 RAG 策略(MRAG)
MRAG(Multimodal Retrieval-Augmented Generation)模块面向多模态证据整合问题,采用双路径检索机制,同时接入离线构建的医疗数据库(如 NIH ChestX-ray14)与在线实时医学资源(如最新临床指南),以保证知识的权威性与时效性。
在表示层面,系统分别通过专用文本编码器(基于预训练 Transformer)与视觉编码器(如 CLIP-ViT-Large、SigLIP)提取跨模态嵌入特征,并利用动态注意力机制对图像与文本信息进行自适应融合,以实现模态权重的实时调整。此外,查询重写模块优化输入问题的语义对齐与上下文表达,提高检索内容与医学问题之间的匹配度,从而增强整体推理精度。
(三)优化与训练策略
MIRA 采用两阶段训练策略以强化结构化医学推理能力。首先,在带标注的医疗数据上进行有监督预训练,仅微调连接视觉编码器与语言模型的 MLP 投影层,以稳定跨模态对齐。随后,在 RTRA 格式构建的数据上进行强化微调,解冻 MLP 与 LLM 参数,通过交叉熵损失与奖励函数联合优化。
该奖励函数综合考虑事实准确性与逻辑连贯性,使模型在强化学习与思维链推理的协同优化下,逐步形成更加结构化、可追溯且符合医学规范的生成能力。
框架优势总结
通过上述模块协同设计,MIRA 能够在动态环境下整合文本与医学影像等多模态证据,实时更新医学知识来源,并通过结构化检索与迭代推理机制提升生成结果的事实准确性与临床相关性。该框架为构建可靠、可解释且具备泛化能力的 AI 临床决策支持系统提供了一种系统性范式。

(1)用户查询与历史上下文整合
系统首先接收用户查询,并结合历史对话记录构建上下文表示,为后续检索与生成阶段提供语境约束。这一步确保模型在连续医疗问答场景中保持问题连贯性与临床语境一致性。
(2)医学图像编码与嵌入表示
输入的医学图像或图像序列通过视觉编码器进行特征提取,并转换为高维嵌入向量表示。该过程将影像中的结构性信息映射至统一特征空间,为后续多模态融合奠定基础。
(3)查询重写与语义对齐
文本输入(包括原始查询)通过查询重写模块进行语义优化与上下文增强,使问题表达更加清晰,并与潜在医学知识背景对齐。这一过程提高了后续检索阶段的相关性与命中率。
(4)多模态 RAG(MRAG)检索机制
优化后的查询与图像嵌入被输入至多模态 RAG 模块。该模块采用双路径检索策略,从离线医学数据库(如 NIH ChestX-ray14)与在线医学资源中获取相关文本与图像证据,从而保证知识的权威性与时效性。
(5)RtRa 框架下的检索筛选与初步生成
在获得检索结果后,RtRa 机制对证据进行选择与过滤,生成初步答案。随后,系统生成简短思维链(CoT)对初始推理进行反思与校验,实现对事实风险的动态控制与优化。
(6)多模态融合与最终答案生成
在最终阶段,视觉特征与检索文本被编码并输入至 LLM 基础模型,通过动态注意力机制实现跨模态融合。基于优化后的思维链与证据整合结果,系统生成结构化且事实一致的最终答案。
核心机制总结
Figure 2 所示流程表明,MIRA 通过“查询优化—多源检索—证据筛选—迭代反思—多模态融合”五阶段闭环机制,实现对医学图像与文本信息的动态整合。该结构不仅增强了生成内容的事实准确性与知识时效性,也提升了推理路径的可解释性,为临床决策支持系统提供更加可靠的技术基础。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)