【Nature子刊解读】多模态AI实现乳腺癌风险精准分层:超越放射科专家的BMU-Net模型

上海科技大学钱学骏教授团队在《Nature Biomedical Engineering》发表突破性研究,开发的多模态机器学习模型BMU-Net在乳腺癌风险分层中展现出超越资深放射科医生的诊断能力,为乳腺癌精准筛查与诊断开辟新路径。

一、研究背景

乳腺癌是全球女性发病率最高的恶性肿瘤。2020年,乳腺癌首次超过肺癌,成为世界上发病率最高的癌症,每年全球约有230万女性被确诊,导致约68.5万人死亡。在中国,乳腺癌呈现出更为严峻的态势:发病率基数高、患者增速是全球平均增速的两倍(居世界首位)、发病年龄较西方国家提前约十年。

然而,乳腺癌若能在早期被发现并及时治疗,患者五年生存率可高达90%以上。因此,早期筛查与诊断对于乳腺癌防治至关重要,甚至优于后续的治疗措施。自2009年起,国家已将"两癌"(乳腺癌和宫颈癌)筛查列入重大公共卫生服务项目。

在乳腺癌筛查与诊断中,影像学检查是核心环节。由于亚洲女性乳腺组织致密度较高,超声检查因其便捷、无辐射、经济实惠等优势,成为中国乳腺癌筛查的首选手段。但超声对微小钙化灶的检出率不够理想,因此临床实践中逐渐形成了"钼靶+超声"的黄金检查组合。此外,临床医生还需综合评估患者年龄、体重指数、主诉、既往病史等多项指标,这种诊断模式流程繁琐、信息庞杂,且准确性难以保证。

人工智能技术的快速发展为这一困境提供了全新解决方案。多模态AI能够融合影像数据与临床信息,实现高效且稳定的诊断,减少人为偏差。然而,现有AI模型大多局限于简单的良恶性二分类,无法满足临床对精细化风险分层的需求。

二、研究创新点

2024年12月4日,上海科技大学生物医学工程学院钱学骏教授团队在《Nature Biomedical Engineering》(IF=26.80)在线发表了题为"A multimodal machine learning model for the stratification of breast cancer risk"的研究论文。该研究的核心创新点包括:

1. 多模态融合架构

研究团队开发了专门面向乳腺癌风险分层的多模态人工智能系统——BMU-Net模型。该模型巧妙融合了卷积神经网络(CNN)在特征提取方面的高效性,以及Transformer在高层特征融合与跨模态整合方面的卓越性能,实现了影像数据与临床信息的深度整合。

2. 乳腺疾病树层级分类体系

区别于传统的简单良恶性二分类,研究团队创新性地引入了"乳腺疾病树"(Breast Disease Tree)结构。该树状结构从根节点"乳腺疾病"出发,逐层细分为良性疾病、恶性疾病,再进一步划分为不同风险等级的具体病变类型(如纤维腺瘤、导管原位癌、浸润性导管癌等),实现了从粗粒度到细粒度的多层级风险预测。

3. 随机掩码训练策略

针对临床实践中多模态数据不完整的常见问题(如患者因隐私保护未提供全部检查),研究团队创新性地采用随机掩码训练策略。该策略使BMU-Net能够灵活处理不同模态的输入数据,即使部分数据缺失,模型仍能给出可靠的诊断结果。

4. 模块化预训练与微调

研究团队采用模块化AI模型设计策略:各模块采用单独数据集进行独立训练,利用相对易获取的单一超声或钼靶数据集先行训练,再通过少量匹配的多模态数据进行整体微调,有效解决了多模态匹配数据稀缺的问题。

三、技术原理

BMU-Net的技术架构可概括为以下三个核心模块:

1. 特征提取模块

基于卷积神经网络(CNN)构建,分别从钼靶影像和超声影像中提取低层到高层的视觉特征。CNN的局部感受野特性使其擅长捕捉影像中的边缘、纹理、形状等关键视觉模式。

2. 跨模态融合模块

基于Transformer架构构建,负责将来自不同模态(钼靶、超声)以及临床指标(年龄、BMI、病史等)的特征进行高层融合。Transformer的自注意力机制能够自动学习不同模态特征之间的关联权重,实现信息的有效整合。

3. 层级分类模块

基于乳腺疾病树结构,采用层级化分类策略。模型首先判断病变属于良性或恶性(第一层),然后进一步细分至具体病变类型(第二层),最终输出精细化的风险分层结果。这种设计不仅提供了最终的诊断结论,还揭示了诊断的推理路径。

在训练策略上,研究团队采用了迁移学习与随机掩码相结合的方法。首先在大规模单一模态数据集上进行预训练,然后在多模态匹配数据集上进行微调,同时随机掩码部分输入通道以模拟数据缺失场景,增强模型的鲁棒性。

四、实验结果

研究团队利用5,025名患者的19,360张乳腺影像开展了模型开发和测试,实验结果令人瞩目:

1. 与放射科专家对比

在158例钼靶检查和146例超声检查中,BMU-Net与资深放射科医生的诊断结果进行了对比:

- 在肿瘤良恶性分类任务上,BMU-Net的表现与资深放射科医生水平相当

- 在组织病理学分级诊断任务上(基于乳腺疾病树),BMU-Net超越了人类专家的表现

2. 前瞻性多模态验证

在包含187名患者的前瞻性多模态数据验证中:

- BMU-Net取得了90.1%的准确率

- 这一成绩已非常接近病理学家通过活检切片分析获得的92.7%的准确率

- 初步达到了资深病理科医生的诊断水准

3. BI-RADS 4类病例处理

BMU-Net在最具挑战性的BI-RADS 4类病例(癌症可能性介于2%至95%之间)处理中表现突出:

- 在BI-RADS 4a类病例(癌症可能性2%至10%)这一诊断难度最大的不确定区间,模型提供了极具价值的判断依据

- 通过将BI-RADS 4a降级为BI-RADS 3,可帮助患者避免不必要的侵入性活检,减少过度医疗

4. 临床数据的重要性

研究证实,临床数据(尤其是年龄和体重指数)对乳腺癌风险精准分级具有重要意义,这与现有的乳腺癌风险因素研究相互印证。

五、技术优势

BMU-Net相比现有AI诊断系统具有以下显著优势:

1. 多层级精细化诊断:不同于传统AI模型的简单二分类,BMU-Net能够提供从粗粒度到细粒度的多层级风险分层,更符合临床实际需求。

2. 模态自适应能力:随机掩码训练策略赋予模型强大的模态自适应能力,即使患者只进行了单一检查(仅超声或仅钼靶),模型仍能给出可靠的诊断结果。

3. 可解释性增强:乳腺疾病树的层级结构使诊断过程更加透明,医生可以清楚地了解模型做出判断的路径和依据,增强了临床可信度。

4. 数据高效利用:模块化预训练策略充分利用了相对易获取的单一模态数据,降低了对稀缺的多模态匹配数据的依赖。

六、应用前景

BMU-Net的研究成果具有广阔的临床应用前景:

1. 乳腺癌筛查优化:模型可集成至各级医疗机构的乳腺筛查系统中,为基层医院提供专家级别的诊断支持,助力国家"两癌"筛查战略的实施。

2. 门诊辅助诊断:在门诊场景中,BMU-Net可为临床医生提供多层级风险评估,辅助制定个性化的随访或活检策略,减少不必要的侵入性检查。

3. 医疗资源均衡化:通过AI赋能,优质诊断能力可以下沉至医疗资源相对匮乏的地区,缩小城乡医疗差距,提升整体医疗服务质量。

4. 多癌种扩展潜力:BMU-Net的多模态融合与层级分类框架具有良好的通用性,未来可扩展至甲状腺癌、肺癌等其他癌种的筛查与诊断。

七、研究局限性与未来方向

尽管BMU-Net取得了突破性进展,研究团队也客观指出了当前存在的局限性:

1. 样本量与多样性:虽然研究纳入了5,000余名患者,但针对乳腺疾病树中某些罕见病变类型(如原位癌),样本量仍然有限,存在长尾效应。

2. 前瞻性验证规模:前瞻性验证队列的187例患者规模相对较小,需要在更大规模、多中心的前瞻性研究中进一步验证模型的泛化能力。

3. 种族与地域差异:当前数据主要来自中国人群,模型在不同种族、不同地域人群中的适用性需要进一步验证。

未来研究方向包括:

- 扩大前瞻性验证规模,开展多中心、多人群的大规模临床试验

- 引入更多模态数据(如MRI、基因检测、血液标志物等),构建更全面的多模态诊断体系

- 探索模型在乳腺X线断层摄影(DBT)、超声弹性成像等新型影像技术中的应用

- 开发实时诊断系统,实现检查过程中的即时辅助诊断

八、结论

上海科技大学钱学骏教授团队开发的BMU-Net模型,通过融合卷积神经网络与Transformer的混合架构,结合创新的乳腺疾病树层级分类体系和随机掩码训练策略,在乳腺癌风险分层中展现出超越资深放射科医生的诊断能力,前瞻性验证准确率达90.1%,接近病理学家水平。

该研究不仅为乳腺癌的精准筛查与诊断提供了强有力的AI工具,也为多模态医学人工智能的发展提供了重要的技术范式。结合临床指标、钼靶与超声检查的黄金组合,BMU-Net为临床医生提供了多层级的乳腺癌风险评估工具,有望显著改善患者生存质量,具有重要的临床价值和社会意义。

鉴于该研究的重要突破,《Nature Biomedical Engineering》杂志在同期发表了研究评述文章"Advancing breast cancer risk stratification using multimodal AI",对该研究的发现和意义进行了高度评价。

参考文献

1. Qian X, Pei J, Han C, et al. A multimodal machine learning model for the stratification of breast cancer risk. Nature Biomedical Engineering. 2024. DOI: 10.1038/s41551-024-01302-7

2. Advancing breast cancer risk stratification using multimodal AI. Nature Biomedical Engineering. 2024. (同期研究评述)

3. Sung H, Ferlay J, Siegel RL, et al. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA: A Cancer Journal for Clinicians. 2021;71(3):209-249.

论文信息:Nature Biomedical Engineering (IF=26.80) | 2024年12月4日 | DOI: 10.1038/s41551-024-01302-7
通讯作者:钱学骏(上海科技大学生物医学工程学院)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐