Advanced Science（IF=14.1）河北医科大学第四医院赵群团队：可解释多模态融合模型增强胃癌术后复发预测

AI医影跨模态组学

322人浏览 · 2026-05-20 21:04:13

AI医影跨模态组学 · 2026-05-20 21:04:13 发布

文献信息

本次分享的文献是由以河北医科大学第四医院赵群教授团队联合南京中医药大学、武汉大学人民医院、南京金陵医院等 6 家中国医疗中心近日（2025年9月13日）在《Advanced Science》（中科院1区，IF=14.1）上发表的研究“Interpretable Multimodal Fusion Model Enhances Postoperative Recurrence Prediction in Gastric Cancer”即可解释多模态融合模型增强胃癌术后复发预测，该研究针对局部进展期胃癌（LAGC）术后早期复发预测难的问题，开发并验证了一款多模态融合风险分层评估（RSA）模型。该模型整合了临床数据、影像组学（CT）特征和病理组学（H&E染色图像），纳入1580例来自6个中国医疗中心的LAGC患者，通过内部、外部、前瞻性及公共数据集（TCIA）四重验证，结果显示RSA模型预测早期复发的AUC值达0.884-0.903，显著优于单模态模型（临床、影像组学、病理组学单独建模）。同时，转录组测序揭示高风险患者存在免疫细胞浸润增加、免疫检查点表达升高及干扰素信号、IL-6/JAK/STAT3通路激活等特征，并确定辅助化疗获益阈值（RSA评分≥0.19），为LAGC患者术后个体化管理提供依据。

图 1：研究设计流程图

Panel A (放射组学工作流):

流程: CT图像获取 → 手动肿瘤分割 → 特征提取 → 放射组学标签构建。

Panel B (病理组学工作流):

流程:选择H&E染色全切片图像（WSI）→每例随机选择10个感兴趣区域（ROI），每个1000x1000像素（0.504μm/像素）→ 提取特征。

Panel C (RSA模型开发与验证):

流程:开发用于预测LAGC患者早期复发的多模态融合模型并进行性能评估。

Panel D (公共数据集生物信息学分析):

流程:对来自TCIA的41例患者进行转录组分析，探索与已识别特征相关的生物学特性和免疫浸润，反映LAGC的肿瘤异质性。

Panel E (前瞻性队列生物信息学分析):

流程:对前瞻性收集的133个组织样本进行RNA测序，通过生物信息学分析表征LAGC肿瘤中与特征相关的生物学和免疫谱。

Panel F (患者队列):

图示:从中国6个医疗中心和一个公共数据集共纳入1878例符合条件的LAGC患者。所有患者均有术前腹部CT和术后H&E病理图像。图中展示了各中心的名称和地理位置。

研究背景及目标

研究背景

疾病负担：胃癌是全球癌症相关发病和死亡的主要原因之一，局部进展期胃癌（LAGC）复发率高（术后 2 年内易复发）、预后差，严重影响患者长期生存。

传统预测手段局限：

临床病理因素（肿瘤大小、浸润深度、淋巴结转移等）无法捕捉肿瘤异质性和分子复杂性，预测准确性低；

影像技术（CT、MRI 等）对早期微转移敏感性低，无法提供分子层面信息；

单模态模型（仅临床 / 影像组学 / 病理组学）预测能力有限，且缺乏可解释性，难以临床转化。

临床需求：亟需整合多维度数据、兼具高准确性和可解释性的模型，实现LAGC 术后复发精准预测及个体化治疗指导。

研究目标

开发整合临床数据、影像组学、病理组学的可解释多模态融合模型（RSA），用于 LAGC 术后早期复发预测；

在内部、外部、前瞻性、公共数据集四重队列中验证模型性能，确保泛化性；

通过转录组测序揭示复发相关的生物学机制（如免疫微环境、信号通路）；

评估模型对患者预后分层及辅助化疗获益的指导价值，确定临床实用的治疗阈值。

数据和方法

研究数据

患者队列（核心数据）

共纳入1580例LAGC患者，来自6个中国医疗中心，按用途分为4类队列：

训练集：770例（河北医科大学第四医院2014-2017），用于模型开发

内部验证集：362例（河北医科大学第四医院（2012-2013、2018-2019，分2个亚组）），用于模型内部验证

外部验证集：448例（北方3中心（257例）+南方2中心（191例）），用于模型泛化性验证

前瞻性验证集：257例（多中心前瞻性试验NCT02555358），用于临床实用性验证（含手术/新辅助化疗亚组）

公共数据集

来源：TheCancerImagingArchive（TCIA）胃癌队列

样本量：41例（含转录组数据）

用途：模型独立外部验证及生物学机制补充分析

转录组数据

样本量：133例LAGC患者的肿瘤组织（前瞻性收集）+TCIA队列41例转录组数据

用途：分析复发相关生物学机制（免疫浸润、信号通路等）

数据类型：

临床资料（TNM分期、病理类型等）

CT影像（放射组学特征）

H&E染色全切片图像（病理组学特征）

RNA-seq数据（133例前瞻性样本+TCIA数据）

技术方案

数据采集与预处理

临床数据：人口学特征（年龄、性别）、肿瘤分期（TNM分期）、组织学亚型、治疗方案（手术/新辅助化疗）、随访结局（复发、生存时间）；

影像组学数据：术前2周内腹部增强CT（门静脉期），用3DSlicer进行肿瘤分割（ROI选取最大截面），2名放疗科医生独立标注，senior专家审核一致性；

病理组学数据：术后H&E染色切片，数字化后切割为224×224像素补丁，选取10个高肿瘤细胞密度ROI。

特征提取与单模态建模

影像组学建模

特征提取：用3DSlicer提取1130个标准化特征（纹理、形状、强度等）；

特征筛选：通过ICC>0.75（排除观察者差异大的特征）、单变量分析、LASSO回归，最终筛选6个预测特征；

模型构建：比较10种分类器，选择逻辑回归（双向逐步选择）构建影像组学评分（Rad-score），训练集AUC=0.822。

病理组学建模

特征提取：用ResNet18模型识别8种肿瘤微环境（TME）成分（准确率97.79%），提取512维补丁级特征并聚合；

特征筛选：ICC过滤+单变量分析后保留182个特征，LASSO回归进一步筛选21个特征；

模型构建：同样选择逻辑回归构建病理组学评分（Path-score），训练集AUC=0.820。

RSA多模态模型构建

整合维度：临床预测因子（单变量+多变量逻辑回归筛选）、二分类Rad-score（Youden指数确定阈值）、二分类Path-score；

建模方法：多变量逻辑回归，生成RSA风险评分；

风险分层：Youden指数确定高/低风险阈值（训练集中优化）。

模型评估指标

区分度：AUC（ROC曲线）、Delong检验（比较不同模型AUC差异）；

校准度：校准曲线、Brier评分（越接近0越好）；

临床价值：决策曲线分析（DCA，评估净获益）、NRI（净重新分类改善）、IDI（综合判别改善）；

预后评估：Kaplan-Meier生存分析（log-rank检验）、Cox比例风险回归（评估独立预后价值）。

生物学机制分析

免疫浸润：CIBERSORTx（估算免疫细胞比例）、MCPcounter（量化免疫细胞丰度）；

细胞生态：EcoTyper（识别肿瘤微环境细胞状态和生态系统）；

通路富集：GSEA（基因集富集分析，重点分析免疫相关通路如干扰素信号、IL-6/JAK/STAT3）；

特征关联：Spearman相关分析（影像/病理特征与免疫通路表达的关联）。

化疗获益分析

倾向评分匹配（1:1）：平衡接受/未接受辅助化疗患者的基线特征，减少选择偏倚；

限制立方样条（RCS）：分析RSA评分与化疗获益的剂量反应关系；

阈值确定：用maxstat包（最大选择秩统计）确定化疗获益阈值（RSA≥0.19）。

实验结果图

图 2：RSA 模型开发与训练集性能（关键结果）

Panel A:整合了组织学亚型、pT分期、pN分期、放射组学和病理组学评分的列线图 (Nomogram)。临床医生可根据患者的具体情况在每条线上划线，得到点数，将所有点数相加后在下方的总点轴上划线，即可得到该患者的个体化复发风险概率。

Panel B: ROC曲线。显示RSA模型（AUC=0.903）显著优于仅临床（0.756）、仅放射（0.806）和仅病理（0.820）模型。

Panel C:校准曲线。预测概率与实际观察到的复发概率高度一致（曲线紧贴对角线），Brier分数（0.138）较低，表明校准度良好。

Panel D:决策曲线分析 (DCA)。在所有合理的阈值概率范围内，RSA模型的“净获益”最高，表明其临床实用性最强。

Panel E:混淆矩阵。直观显示RSA模型正确地将326例复发患者归类为高风险，311例未复发患者归类为低风险，分类准确率最高。

Panel F:双层同心圆图。展示了每种模型对复发和非复发病例的分类性能。RSA模型的同心圆更规整，表明其分类更平衡、准确。

Panel G:十倍交叉验证。箱线图显示RSA模型在AUC、准确度、敏感性和特异性上均持续优于其他模型。

Panel H:按肿瘤标志物和HER2分层的模型性能。在所有亚组中，RSA模型（红色）的AUC都高于其他单模态模型，表明其稳健性。

Panel I:限制性立方样条 (RCS) 分析。展示了RSA预测的复发概率与总生存风险比之间的关系。随着预测风险增加，接受辅助化疗（AC）的生存优势逐渐明显。

Panel J:最大选择秩统计量确定AC获益阈值。确定RSA评分≥0.19的患者最能从AC中获益。

Panel K: Kaplan-Meier生存曲线。验证了Panel J的发现：对于RSA评分≥0.19的患者，接受AC者5年生存率（55.0%）显著高于未接受者（28.4%）。

图 3：RSA 模型内部验证结果（时间分层验证）

Panel A:患者分配示意图，显示内部验证集I（2012-2014, n=194）和集II（2017-2019, n=168）。

Panels B & C:两个验证集的ROC曲线。RSA模型在Set I和Set II的AUC分别达到0.902和0.892，保持最优。

Panels D & E:两个验证集的校准曲线。Brier分数分别为0.136和0.127，表明预测依然准确。

Panels F & G:两个验证集的混淆矩阵。RSA模型保持了最高的正确分类率。

Panels H & I:两个验证集的双层同心圆图。RSA模型表现出更好的敏感性和阴性预测值。

Panels J & K:两个验证集的Kaplan-Meier生存曲线。RSA模型定义的高危组和低危组在5年总生存期上存在显著差异（Set I: P=0.024; Set II: P=0.00065）。

Panel L:临床模型与RSA模型在复发分层上的比较（合并训练和内部验证集，n=1132）。RSA模型将86.4%的复发病例正确归入高风险组（临床模型为69.8%），并将预测低危患者的复发率从34.7%降至19.5%。

图 4：RSA 模型外部验证结果（地理分层验证）

Panel A:基于地理位置的患者分层：外部验证集I（北方中心，n=257）和集II（南方中心，n=191）。

Panels B & C:两个外部验证集的ROC曲线。RSA模型在Set I和Set II的AUC分别为0.884和0.896。

Panels D & E:精确率-召回率曲线(PR Curve)。进一步证实了RSA模型的精确率优势。

Panels F & G:两个外部验证集的混淆矩阵。

Panels H & I:两个外部验证集的双层同心圆图。RSA模型对高危和低危患者提供了更平衡的区分。

Panels J & K:两个外部验证集的Kaplan-Meier生存曲线。高危患者的5年OS显著更差（Set I: 36.1% vs 63.7%; Set II: 37.0% vs 62.6%）。

Panel L:临床模型与RSA模型在复发分层上的比较（合并外部验证队列，n=448）。RSA模型将83.1%的复发病例正确归入高风险组（临床模型为71.5%），并将低危组的误分类复发率从35.4%降至15.5%。

图 5：前瞻性试验验证结果（临床实用性）

Panel A:来自前瞻性试验的患者选择流程图。

Panel B & C: ROC曲线。在单纯手术亚组中，RSA模型的AUC高达0.889；而在新辅助化疗亚组中，其判别能力有限（AUC=0.736）。

Panel D & E:校准曲线。两个亚组中预测与观察值仍具可接受的一致性。

Panel F & G:混淆矩阵。

Panel H & I:双层同心圆图。

Panel J & K:雷达图。比较了AUC、准确度、敏感性、特异性、PPV、NPV、PLR、NLR和F1分数等综合指标。RSA在单纯手术组中全面优于单模态模型。

Panel L & M: Kaplan-Meier生存曲线。在两个亚组中，RSA定义的高危患者5年OS均显著更差（手术组: 39.2% vs 66.7%, P=0.013；新辅助组: 43.8% vs 64.4%, P=0.011）。

图 6：RSA 模型超越 TNM 分期的预后价值及复发模式预测

Panels A-C:在匹配前的TNM I、II、III期患者中，RSA模型仍能有效区分出高危和低危组，生存差异显著。

Panels D-F:经过1:1倾向评分匹配（PSM）平衡基线特征后，RSA模型在每一个TNM分期内的预后分层能力依然显著。

Panel G:案例级图示。对比了两名TNM分期和治疗方案完全相同但结局迥异的患者。他们的RSA评分、影像组学和病理组学特征存在明显差异，这些差异对应了实际的复发和生存结果。

Panel H: ROC曲线。显示基于RSA特征的模型在预测不同术后转移模式方面具有高精度（血行转移AUC=0.830，种植转移AUC=0.806，淋巴转移AUC=0.828，局部复发AUC=0.713）。

Panel I: RSA模型预测 vs 实际转移类型的比较图。用颜色编码映射了预测与观察到的转移部位，并辅以CT图像示例。

图 7：RSA 风险分层的生物学机制（免疫与转录组特征）

Panel A:火山图。展示了TCIA队列中高风险 vs 低风险组之间的差异表达基因。

Panel B & E: MCPcounter和CIBERSORT估计的免疫细胞比例。显示高风险组中CD8+ T细胞、NK细胞、髓系细胞等免疫细胞浸润显著增加。

Panel C & J:箱线图。显示高风险组中多种免疫检查点分子（如CD80, CD40, CD86, PD-L1等）的表达显著上调。

Panel D & I: EcoTyper分析的热图。揭示了高风险肿瘤中特定的细胞状态和生态系统（如CE8, CE9）的富集，这些生态系统常与免疫耗竭相关。

Panel F & G: GSEA分析。表明高风险组中干扰素-α和干扰素-γ反应通路显著激活。

Panel H & K:独立RNA测序队列中的CIBERSORT和MCPcounter结果，验证了高风险组中免疫细胞浸润增加的趋势。

Panel L & M:热图和 violin 图。显示高风险组在干扰素信号、效应T细胞功能、细胞毒性等相关基因签名上得分显著更高。

讨论

创新点

三模态整合：首次系统整合临床、影像组学、病理组学数据，相比单模态（临床AUC0.756、影像0.806、病理0.820），预测性能显著提升（AUC0.884-0.903）；

多维度验证：通过内部（时间分层）、外部（地理分层）、前瞻性（临床试验）、公共数据集（TCIA）四重验证，确保模型泛化性和临床实用性；

机制-模型关联：将影像/病理组学特征与转录组免疫表型关联（如影像异质性→免疫浸润），揭示模型预测的生物学基础，而非“黑箱”；

临床可操作性：提供列线图、化疗阈值（0.19）等实用工具，结合SHAP分析增强可解释性，便于临床医生理解和应用。

局限性

设计偏倚：主体为回顾性设计，虽通过倾向评分匹配减少偏倚，但仍无法完全排除选择偏倚；

人群局限：研究对象以中国患者为主，种族和地理代表性有限，需国际多中心队列验证；

新辅助化疗患者：对新辅助化疗后患者的预测性能下降（AUC0.736），需优化模型（如纳入治疗后影像/病理特征）。

临床价值

精准风险分层：识别高复发风险患者（RSA≥0.19），可加强术后随访频率（如每3个月CT检查），早期干预复发；

避免过度治疗：低风险患者（RSA<0.19）无需辅助化疗，减少化疗相关毒副作用和医疗成本；

指导免疫治疗：高风险患者免疫检查点表达升高、干扰素信号激活，提示可能从PD-1/PD-L1抑制剂等免疫治疗中获益，为后续临床试验提供入组依据；

补充TNM分期：在相同TNM分期内进一步分层，解决传统分期“同病异预后”问题，提升个体化诊疗水平。

技术亮点

病理组学高精度：ResNet18识别TME成分准确率达97.79%，ROI选取高肿瘤密度区域，减少正常组织干扰；

模型评估全面性：除AUC外，用NRI、IDI、校准曲线、决策曲线（DCA）综合评估，避免仅依赖区分度而忽视临床实用性；

免疫微环境解析：联合CIBERSORTx、EcoTyper、MCPcounter多工具分析免疫浸润，从细胞比例、细胞状态、生态系统多维度揭示机制。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

GXUST AI通识课 | 4类AI工具深度体验与实战测评

AtomGit开源社区

构网型（GFM-VSG）与跟网型（GFL-PQ）逆变器混合并联并网系统（Simulink仿真实现）

随着新型电力系统建设持续推进，新能源并网渗透率不断提升，传统跟网型逆变器并网模式在电网弱阻尼、频率扰动场景下存在稳定性不足、无主动调频能力等问题。构网型逆变器可模拟同步发电机组运行特性，具备自主建压、虚拟惯量支撑能力，能够有效弥补传统并网设备的运行短板。本文以1MW级、50Hz、690V升压220kV的构网型（GFM-VSG）与跟网型（GFL-PQ）逆变器混合并联并网系统为研究对象，搭建完整的混合