Lancet Oncol（IF=35.9）以色列理工学院Shamai等团队：基于组织病理图像深度学习预测乳腺癌复发风险与化疗获益

AI医影跨模态组学

386人浏览 · 2026-04-01 20:39:33

AI医影跨模态组学 · 2026-04-01 20:39:33 发布

文献学习

今天分享的文献是由以色列理工学院Shamai等团队于2026年3月11日在肿瘤学领域顶刊《The Lancet Oncology》（中科院1区top，IF=35.9）上发表的研究“Deep learning on histopathological images to predict breast cancer recurrence risk and chemotherapy benefit: a multicentre, model development and validation study”即基于组织病理图像预测乳腺癌复发风险与化疗获益的深度学习研究：一项多中心模型开发与验证研究，该研究开发并验证了一种基于深度学习的多模态人工智能模型，通过常规H&E染色病理切片和临床病理变量，预测激素受体阳性、HER2 阴性早期乳腺癌患者的Oncotype DX 21基因复发评分，并评估其对化疗获益的预测能力。模型在TAILORx随机对照试验数据上进行训练与验证，并在六个独立外部队列中进行泛化性验证。结果显示，该AI模型在识别高危患者、预后分层和预测化疗获益方面表现优异，尤其在资源受限地区具有替代基因检测的潜力。

创新点：①首个基于随机对照试验验证的AI病理模型，首次在TAILORx随机对照试验中验证AI模型预测化疗获益的能力，克服了既往研究的治疗混杂偏倚。②融合大规模基础模型与简易校准策略，结合GigaPath基础模型与无需本地基因组标签的线性校准，实现跨人群、跨实验室的高泛化性。③揭示AI预测优于传统临床特征，图像特征成为主导预测因子，取代了组织学分级等传统变量，体现模型捕获肿瘤微环境与异质性的能力。

临床价值：①提供低成本、可扩展的基因组评分替代方案，基于常规H&E切片，避免高昂基因组检测费用，尤其适用于资源有限地区，推动精准oncology可及性。②优化化疗决策，减少过度治疗，可重新分类30–40%临床高危绝经后患者为低风险，避免无效化疗；同时识别5%临床低危绝经前患者需化疗。③支持淋巴结阳性患者的治疗分层，虽仅基于淋巴结阴性数据训练，模型在淋巴结阳性患者中表现稳健，为扩大适用人群提供依据。

图 1：研究队列、深度学习系统架构与TAILORx测试集性能评估

研究背景和目的

研究背景

乳腺癌是全球发病率最高的恶性肿瘤，其中激素受体阳性、HER2阴性亚型约占所有病例的70%。对于这类早期乳腺癌患者，如何精准识别能从辅助化疗中获益的人群一直是临床核心挑战。传统依赖临床病理特征（如肿瘤大小、分级、淋巴结状态）的决策方式准确性有限，常导致部分患者接受无效化疗，而另一些可能获益者却被遗漏。尽管多基因表达谱检测（如Oncotype DX 21基因复发评分）已显著优化治疗决策，并被证实能预测化疗获益，但其临床应用严重受限于高昂成本（约3500美元/次）、周转时间长、物流复杂等因素，尤其在中低收入国家覆盖率不足5%。近年来，深度学习技术在分析常规苏木精-伊红染色病理图像方面展现出巨大潜力，可预测肿瘤分子分型、突变状态及患者预后。然而，既往相关研究多基于回顾性观察性数据，存在治疗分配混杂、样本量小、缺乏随机对照试验验证等局限，且未能直接评估化疗获益——而这正是Oncotype DX检测的临床核心价值所在。因此，亟需开发一种可规模化、成本可控、基于常规病理图像的替代方法，以扩大精准肿瘤学的可及性，指导真实世界中的化疗决策。

研究目的

本研究旨在开发并验证一种多模态深度学习模型，该模型能够直接从常规苏木精-伊红染色全切片图像联合临床病理变量，估算Oncotype DX 21基因复发评分，从而预测激素受体阳性、HER2阴性早期乳腺癌患者的复发风险与化疗获益。研究利用TAILORx随机对照试验（8284例患者）进行模型训练与内部验证，这是首个基于随机试验数据回顾性评估此类模型的研究，能够克服治疗分配混杂，实现对化疗获益的真实评估。模型采用预训练于171189张病理图像的GigaPath基础模型，结合多实例学习与一参数线性校准策略，确保无需本地基因组数据即可跨人群、跨实验室条件泛化。研究在六大独立外部队列（涵盖以色列、美国、澳大利亚等，共5497例患者）中进行广泛验证，评估模型在复发评分估算、预后分层及化疗获益预测方面的表现。最终目标是提供一种可替代或补充基因组检测的临床决策支持工具，特别在资源有限、无法普及基因检测的地区，降低不必要的化疗使用，实现精准肿瘤学的民主化。

数据和方法

研究数据

共纳入 17,812 名患者，来自 7 个独立队列，包括：

TAILORx 试验：10,273名患者，用于训练与测试；

外部验证队列：Carmel、Haemek、Sheba（以色列）、UCMC（美国）、ABCTB（澳大利亚）、TCGA-BRCA（美国），共 5,497 名患者。

所有患者均为激素受体阳性、HER2 阴性早期乳腺癌，具备完整 H&E 切片与临床病理数据。

技术方法

模型架构：基于 GigaPath 基础模型（预训练于 171,189 张 H&E 图像）提取特征，结合临床变量，通过 Transformer 的多实例学习进行复发评分预测。

训练与验证：TAILORx 按 7:3 分为训练集与测试集，五折交叉验证。外部队列用于泛化性验证。

校准策略：采用单参数线性缩放方法，仅需目标队列的平均复发评分即可实现模型校准。

评估指标：AUC、相关性、生存分析（Kaplan-Meier、Cox HR）、化疗获益模拟分析等。

实验结果

性能优异：在 TAILORx 测试集（n=2407）中，AI 预测复发评分≥26的 AUC 为 0.898（95% CI 0.879–0.913）。

风险分层有效：AI 将45.6% 患者划分为低风险，12.0% 为高风险，预后分层与Oncotype DX 高度一致（HR 2.61–2.88）。

化疗获益预测准确：

高风险（AI ≥26）的绝经前患者显著获益于化疗（HR 0.63）；

低风险（AI <16）的绝经后患者无化疗获益（HR 0.94）。

泛化能力强：在 6 个外部队列中，AUC 范围为 0.858–0.903，预后分层一致性良好。

临床影响：AI 将31.3% 临床高危绝经后患者重新划分为低风险，提示可避免化疗。

图 2：TAILORx测试集：AI与ODX复发评分的预后生存对比

图 3：AI按绝经状态预测化疗获益

图 4：独立外部队列的AI模型泛化验证

图 5：临床风险重分层（MINDACT标准vs AI）

研究结论

该研究开发并验证了一种多模态深度学习模型，通过常规H&E染色病理切片结合临床病理特征，可有效预测激素受体阳性、HER2阴性早期乳腺癌患者的Oncotype DX 21基因复发评分。在TAILORx随机试验的测试集中，模型识别高基因组风险（复发评分≥26）的曲线下面积达到0.898，对低风险（AI<16）和高风险（AI≥26）患者的分类具有高敏感性和特异性。生存分析显示，AI风险分层与复发评分在预测无复发生存、远处无复发生存等方面具有高度一致的预后价值。重要的是，模型能有效预测化疗获益：绝经前高风险患者从化疗中显著获益，而绝经后低风险患者则无明显获益。在外部六个独立队列中，模型表现出良好的泛化能力（AUC范围0.858–0.903），并能对传统临床风险分层进行有效重新分类，尤其在绝经后临床高风险患者中，约30–40%被降级为低风险，提示可避免过度化疗。该模型基于广泛可及的病理切片，成本低、可扩展性强，尤其适用于资源有限、基因检测可及性差的地区，为精准肿瘤治疗提供了切实可行且具备临床价值的替代方案。

参考文献：Shamai G, Cohen S, Binenbaum Y, Sabo E, Cretu A, Mayer C, Barshack I, Goldman T, Bar-Sela G, Polónia A, Huo D, Pearson AT, Howard FM, Sparano JA, Kimmel R, Aran D. Deep learning on histopathological images to predict breast cancer recurrence risk and chemotherapy benefit: a multicentre, model development and validation study. Lancet Oncol. 2026 Mar 11:S1470-2045(25)00727-2. doi: 10.1016/S1470-2045(25)00727-2.

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【负荷预测】基于LSTM-KAN的负荷预测研究（Python代码实现）

LSTM-KAN模型结合了LSTM和注意力机制的特点。LSTM是一种特殊的循环神经网络（RNN），通过引入记忆单元和门控机制（遗忘门、输入门、输出门），有效解决了传统RNN在处理长序列数据时存在的梯度消失或梯度爆炸问题，能够捕捉时间序列数据中的长期依赖关系。而注意力机制则能够模拟人类在处理信息时的注意力分配过程，通过为不同时间步的输入数据分配不同的权重，突出重要信息对预测结果的影响。