Int J Surg(IF=10.1)复旦大学附属中山医院艾志龙教授等团队:基于机器学习模型检测甲状腺乳头状癌淋巴结转移的临床性能
01
文献学习

今天分享的文献是由复旦大学附属中山医院艾志龙教授等团队于2025年4月在《International Journal of Surgery》(中科院2区,IF=10.1)上发表的研究”Clinical performance of a machine learning-based model for detecting lymph node metastasis in papillary thyroid carcinoma: A multicenter study“即基于机器学习模型检测甲状腺乳头状癌淋巴结转移的临床性能:一项多中心研究,该研究利用基因表达数据和机器学习算法,构建并验证了一个用于预测甲状腺乳头状癌(PTC)淋巴结转移(LNM)的非侵入性预测模型。通过分析157例PTC患者的RNA-seq数据,筛选出三个关键基因(RPS4Y1、PKHD1L1、CRABP1),并在807例多中心样本中通过qRT-PCR验证。随机森林模型在训练集和外部验证集中表现出优异的预测性能(AUROC最高达0.992),为术前LNM风险评估提供了新工具。
创新点:①首次基于三个关键基因(RPS4Y1、PKHD1L1、CRABP1)构建AI模型预测PTC淋巴结转移。②随机森林模型在多中心外部验证中AUROC达0.911–0.992,表现优异。③揭示免疫相关通路(如TGF-β)在转移中的作用,拓展了机制理解。
临床价值:①提供非侵入性、低成本的术前淋巴结转移风险评估工具。②有助于优化手术决策,减少不必要淋巴结清扫和二次手术。③多中心验证支持模型在不同人群中的推广与临床应用潜力。
02
研究背景和目的
研究背景
甲状腺乳头状癌(PTC)是内分泌系统中最常见的恶性肿瘤,尽管其总体预后良好,但淋巴结转移(LNM)发生率较高,中央区可达30%~65%,侧方区约为20%~30%,在侵袭性较强的病例中甚至高达50%。LNM不仅增加了手术复杂性,还与复发风险和二次手术率显著相关。目前术前评估LNM的主要手段是颈部超声,但其诊断准确性有限,尤其是对中央区LNM的检出率极低,研究显示约78.6%的中央区转移和42.3%的侧方转移被漏诊或误判。这种诊断不确定性导致大量患者接受不必要的淋巴结清扫或细针穿刺,也直接影响手术决策的精准性。因此,开发一种非侵入性、准确、可重复的术前LNM预测工具,成为优化PTC个体化治疗策略的关键方向。
研究目的
本研究旨在构建并验证一种基于基因表达谱与机器学习算法的非侵入性LNM预测模型,以弥补传统影像学手段在术前评估中的不足。通过对157例PTC患者的肿瘤组织进行RNA-seq分析,筛选与LNM密切相关的差异表达基因,结合Boruta特征选择算法与随机森林模型,最终锁定RPS4Y1、PKHD1L1和CRABP1三个核心基因作为预测标志物。随后采用qRT-PCR技术对807例多中心样本进行验证,评估模型在不同人群和临床环境中的稳定性和泛化能力。通过比较五种机器学习模型的表现,最终确认随机森林模型在多个数据集中均表现出优异的预测性能,AUROC值在训练集达到0.992,外部验证集为0.911~0.953。此外,研究还结合通路分析和SHAP值解释模型决策机制,揭示这些基因在肿瘤转移中的潜在生物学功能,最终目标是为临床提供一种精准、经济的术前LNM风险评估工具,帮助优化手术范围、避免不必要的手术干预,实现精准医疗。
03
数据和方法
研究数据
训练集:157例PTC患者(107例转移,50例非转移)
验证集:807例多中心患者(南通、中山、徐州三中心)
最终分析样本:339例(185例非转移,154例转移)
外部验证:TCGA-THCA数据库(185例LNM,102例非转移)

图 1:甲状腺癌淋巴结转移(LNM)预测模型的算法开发与临床验证整体流程图
算法开发阶段:纳入南通数据集458例PTC患者,直接用于预测模型的训练与测试,并通过5折交叉验证完成模型超参数调优,无样本排除。
临床验证阶段:初始纳入中山+徐州数据集366例PTC患者,经层层排除后最终纳入339例进行分析:
排除17例:病理检查信息不完整;
排除10例:RNA浓度不足,无法完成qRT-PCR检测;
剩余349例完成qPCR检测,无其他排除,最终纳入339例。
分组分析:
主分析:339例分为无转移组(n=185)和转移组(n=154);
亚组分析(转移位置预测):转移组中仅24例有明确转移位置记录,分为中央区转移(n=17)和颈侧区转移(n=7),其余130例因缺失位置记录被排除
技术方法
RNA-seq分析:筛选差异表达基因(DEGs)
特征选择:Boruta算法结合随机森林筛选关键基因
模型构建:比较五种机器学习模型(随机森林、XGBoost、逻辑回归、深度学习等)
验证方法:5折交叉验证+ 多中心外部验证
生物学分析:GSEA富集分析、免疫浸润分析、SHAP值解释模型
04
实验结果
关键基因:RPS4Y1、PKHD1L1、CRABP1
模型性能:随机森林在训练集AUROC为0.992,外部验证集为0.911–0.953
预测能力:SHAP分析显示PKHD1L1对转移预测贡献最大,CRABP1对转移位置预测贡献最大
生物学机制:TGF-β信号通路、B细胞免疫反应等与LNM相关
预测位置:中央区与颈部转移的分类AUROC分别为0.991(南通)和0.870(中山)

图 2:随机森林模型预测甲状腺癌转移的性能验证图
05
研究结论
该研究通过整合基因表达谱与机器学习算法,成功构建并验证了一种用于预测甲状腺乳头状癌淋巴结转移的非侵入性模型。研究基于多中心807例样本,筛选出RPS4Y1、PKHD1L1和CRABP1三个关键基因,采用随机森林模型在训练集中取得了高达0.992的AUROC,在外部验证集中也保持了0.911至0.953的优异性能,显示出极强的预测准确性和泛化能力。其中,RPS4Y1在转移与非转移病例间表现出最显著的表达差异,成为核心预测因子。研究还揭示了TGF-β信号通路及癌症相关成纤维细胞激活等免疫相关机制在转移过程中的重要作用。该模型不仅为术前淋巴结转移风险评估提供了低成本、高精度的工具,有助于优化手术决策、避免不必要的外科干预,还从生物学层面加深了对PTC转移机制的理解。尽管当前研究队列以中国人群为主,未来仍需在更广泛的人群中验证,以推动其临床转化与应用。
参考文献:Liu W, Zheng J, Han L, Qu W, Wu Q, Yuan Z, Jia G, Wang X, Ye L, Zhang J, Zhang S, Cao X, Liu Y, Ai Z. Clinical performance of a machine learning-based model for detecting lymph node metastasis in papillary thyroid carcinoma: A multicenter study. Int J Surg. 2025 Jun 1;111(6):4062-4067. doi: 10.1097/JS9.0000000000002400.
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)