课题来源: 某省医学院横向委托项目

案例定位: 面向乳腺癌早期筛查中单一诊断手段局限性大、多模态数据融合困难、难以实现精准无创诊断的痛点,开展数据驱动的多模态智能辅助诊断技术转化研究

1 项目背景

某省医学院长期承担肿瘤早期筛查与辅助诊断技术的研发与临床转化工作。随着精准医学理念的深入推进,传统单一检查手段在乳腺癌早期筛查中面临敏感性不足、假阳性率偏高、难以整合多源异构数据等突出问题,严重制约了乳腺癌的早诊早治水平与患者预后改善。

深度森林从专利挖掘与高价值技术转化的角度切入,围绕"多源生物数据治理-特征重要性量化-多模态集成预测-智能辅助诊断"全链路技术路径,完成了包含基于集成学习的乳腺癌多模态辅助诊断方法、自动化特征选择与最优模型筛选机制、微生物-影像联合诊断系统在内的多项发明专利群布局,并同步开展了基于108例乳腺癌患者及54例良性对照多源数据的算例验证与临床适配。

2 本专利要解决的问题

(1)乳腺癌早期筛查严重依赖单一影像学或单一生物标志物检测,敏感性与特异性难以兼顾,易造成漏诊或过度活检。

(2)肠道菌群、肿瘤微生物群与超声影像特征之间存在复杂的非线性关联,传统统计方法难以有效融合多模态异质数据,缺乏系统化的特征重要性量化手段,导致关键诊断标志物辨识困难。

(3)缺少将多组学数据与影像特征转化为可解释辅助诊断结果的系统化工具,难以实现从"多模态检测"到"综合诊断决策"的高效映射。

3 专利技术核心价值点

3.1 多机器学习算法并行集成与自动化超参寻优框架

本发明构建了一种面向乳腺癌辅助诊断的集成学习框架,涵盖Ridge回归、Lasso回归、ElasticNet回归、SVR、K-近邻回归、随机森林、XGBoost及LightGBM共八种异质机器学习算法。框架对各模型超参数执行网格化自动搜索,并通过K折交叉验证方式评估模型在恶性概率预测、诊断符合率等关键指标上的预测精度,自动输出最优模型及其超参数组合。多模型并行训练与择优机制有效避免单一模型在临床小样本条件下的过拟合风险,大幅提升辅助诊断的稳健性与准确性,模型性能评价采用AUC值与平均绝对百分比误差。

3.2 基于Shapley值与树模型的多维特征重要性量化分析方法

本发明融合Shapley值归因分析与随机森林内置特征重要性度量,对乳腺癌辅助诊断中肠道双歧杆菌属丰度、肿瘤拟杆菌属丰度、病灶直径、边界清晰度、内部回声特征、血流信号强度等多维特征进行重要性量化排序与方向性判识。Shapley值通过计算每一特征在不同特征子集下的边际贡献期望,反映其对模型输出的平均影响程度与正负相关性。

3.3 多模态数据驱动的乳腺癌辅助诊断与临床验证闭环

本发明在上述诊断预测与特征分析基础之上,建立面向综合诊断决策的多模态融合方案。根据特征重要性排序结果,确定关键诊断标志物组合,整合肠道菌群α-多样性指标(Chao1指数、Shannon指数)、特异性菌属相对丰度、肿瘤微生物群特征及超声影像学参数,通过已优选的最优预测模型对多模态数据进行综合评分。模型输出恶性风险概率,结合BI-RADS分级形成辅助诊断建议,最终经病理学金标准验证,形成"多源数据采集-特征提取与融合-智能诊断预测-病理验证"的数据闭环。该方法可将乳腺癌早期筛查的联合诊断AUC提升至0.911,敏感度达95.7%,特异度达75.0%,显著改善单一诊断手段的性能局限。

4 专利转化验证与分析

为验证本发明方法在真实乳腺癌临床筛查场景下的有效性与先进性,选取2020年1月至2023年12月期间确诊的108例乳腺癌患者与54例良性对照的多源数据集作为基准测试集,数据维度涵盖肠道菌群16S rRNA测序数据、肿瘤微生物宏基因组学数据及常规超声影像特征参数。

在模型诊断效能对比验证中,集成框架内基于肠道菌群双歧杆菌属丰度、肿瘤拟杆菌属丰度与超声影像特征的联合诊断模型取得最高AUC 0.911,显著优于超声单一指标AUC 0.782及菌群单一指标最高AUC 0.763。基于Shapley值与随机森林的特征重要性分析一致表明,肠道双歧杆菌属丰度、肿瘤拟杆菌属丰度、病灶边界清晰度及血流信号强度是影响诊断判别的前四大关键特征,所得辨识结果与微生物-免疫-肿瘤学理论高度吻合。

在多模态融合诊断与临床验证中,108例乳腺癌患者肠道菌群Chao1指数(t=7.128,P<0.001)与Shannon指数(t=5.732,P<0.001)均显著低于良性组;肿瘤微生物群中乳酸杆菌属(t=6.324,P<0.001)和拟杆菌属(t=5.102,P<0.001)丰度显著降低,普雷沃菌属(t=7.423,P<0.001)丰度显著升高;超声影像显示病灶边界不清晰比例78.7%、内部回声异质性比例72.2%、血流信号增强比例65.9%,均显著高于良性组(P<0.001)。联合模型诊断敏感度95.7%、特异度75.0%,充分证实了多模态融合辅助诊断方法的临床实用性。

在筛查效率提升方面,采用本发明方法可将BI-RADS 4类不确定结节的诊断明确率显著提升,联合诊断模型AUC较常规超声提高16.5%,较菌群单一指标提高19.4%,有效减少了不必要的穿刺活检,改善了乳腺癌早期筛查的成本效益。

5 专利转化成效

相关技术成果已进入实质转化与权属固化阶段。

深度森林公司与某省医学院围绕"基于人工智能的乳腺癌多模态辅助诊断"核心技术体系,已完成2项国家发明专利与3项软件著作权的组合申请与布局。后续拟结合该院承担的乳腺癌早筛早诊多中心临床研究项目开展规模化应用部署,预期可将乳腺癌早期诊断符合率提升15%以上,联合诊断AUC稳定在0.90以上,为乳腺癌精准无创筛查与智慧医疗决策提供关键技术支撑。

山东深度森林信息科技有限公司是一家面向高质量专利“挖掘-设计-转化”的技术服务团队。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐