Int J Surg（IF=10.1）复旦大学附属中山医院艾志龙教授等团队：基于机器学习模型检测甲状腺乳头状癌淋巴结转移的临床性能

AI医影跨模态组学

267人浏览 · 2026-03-23 15:00:07

AI医影跨模态组学 · 2026-03-23 15:00:07 发布

文献学习

今天分享的文献是由复旦大学附属中山医院艾志龙教授等团队于2025年4月在《International Journal of Surgery》（中科院2区，IF=10.1）上发表的研究”Clinical performance of a machine learning-based model for detecting lymph node metastasis in papillary thyroid carcinoma: A multicenter study“即基于机器学习模型检测甲状腺乳头状癌淋巴结转移的临床性能：一项多中心研究，该研究利用基因表达数据和机器学习算法，构建并验证了一个用于预测甲状腺乳头状癌（PTC）淋巴结转移（LNM）的非侵入性预测模型。通过分析157例PTC患者的RNA-seq数据，筛选出三个关键基因（RPS4Y1、PKHD1L1、CRABP1），并在807例多中心样本中通过qRT-PCR验证。随机森林模型在训练集和外部验证集中表现出优异的预测性能（AUROC最高达0.992），为术前LNM风险评估提供了新工具。

创新点：①首次基于三个关键基因（RPS4Y1、PKHD1L1、CRABP1）构建AI模型预测PTC淋巴结转移。②随机森林模型在多中心外部验证中AUROC达0.911–0.992，表现优异。③揭示免疫相关通路（如TGF-β）在转移中的作用，拓展了机制理解。

临床价值：①提供非侵入性、低成本的术前淋巴结转移风险评估工具。②有助于优化手术决策，减少不必要淋巴结清扫和二次手术。③多中心验证支持模型在不同人群中的推广与临床应用潜力。

研究背景和目的

研究背景

甲状腺乳头状癌（PTC）是内分泌系统中最常见的恶性肿瘤，尽管其总体预后良好，但淋巴结转移（LNM）发生率较高，中央区可达30%~65%，侧方区约为20%~30%，在侵袭性较强的病例中甚至高达50%。LNM不仅增加了手术复杂性，还与复发风险和二次手术率显著相关。目前术前评估LNM的主要手段是颈部超声，但其诊断准确性有限，尤其是对中央区LNM的检出率极低，研究显示约78.6%的中央区转移和42.3%的侧方转移被漏诊或误判。这种诊断不确定性导致大量患者接受不必要的淋巴结清扫或细针穿刺，也直接影响手术决策的精准性。因此，开发一种非侵入性、准确、可重复的术前LNM预测工具，成为优化PTC个体化治疗策略的关键方向。

研究目的

本研究旨在构建并验证一种基于基因表达谱与机器学习算法的非侵入性LNM预测模型，以弥补传统影像学手段在术前评估中的不足。通过对157例PTC患者的肿瘤组织进行RNA-seq分析，筛选与LNM密切相关的差异表达基因，结合Boruta特征选择算法与随机森林模型，最终锁定RPS4Y1、PKHD1L1和CRABP1三个核心基因作为预测标志物。随后采用qRT-PCR技术对807例多中心样本进行验证，评估模型在不同人群和临床环境中的稳定性和泛化能力。通过比较五种机器学习模型的表现，最终确认随机森林模型在多个数据集中均表现出优异的预测性能，AUROC值在训练集达到0.992，外部验证集为0.911~0.953。此外，研究还结合通路分析和SHAP值解释模型决策机制，揭示这些基因在肿瘤转移中的潜在生物学功能，最终目标是为临床提供一种精准、经济的术前LNM风险评估工具，帮助优化手术范围、避免不必要的手术干预，实现精准医疗。

数据和方法

研究数据

训练集：157例PTC患者（107例转移，50例非转移）

验证集：807例多中心患者（南通、中山、徐州三中心）

最终分析样本：339例（185例非转移，154例转移）

外部验证：TCGA-THCA数据库（185例LNM，102例非转移）

图 1：甲状腺癌淋巴结转移（LNM）预测模型的算法开发与临床验证整体流程图

算法开发阶段：纳入南通数据集458例PTC患者，直接用于预测模型的训练与测试，并通过5折交叉验证完成模型超参数调优，无样本排除。

临床验证阶段：初始纳入中山+徐州数据集366例PTC患者，经层层排除后最终纳入339例进行分析：

排除17例：病理检查信息不完整；

排除10例：RNA浓度不足，无法完成qRT-PCR检测；

剩余349例完成qPCR检测，无其他排除，最终纳入339例。

分组分析：

主分析：339例分为无转移组（n=185）和转移组（n=154）；

亚组分析（转移位置预测）：转移组中仅24例有明确转移位置记录，分为中央区转移（n=17）和颈侧区转移（n=7），其余130例因缺失位置记录被排除

技术方法

RNA-seq分析：筛选差异表达基因（DEGs）

特征选择：Boruta算法结合随机森林筛选关键基因

模型构建：比较五种机器学习模型（随机森林、XGBoost、逻辑回归、深度学习等）

验证方法：5折交叉验证+ 多中心外部验证

生物学分析：GSEA富集分析、免疫浸润分析、SHAP值解释模型

实验结果

关键基因：RPS4Y1、PKHD1L1、CRABP1

模型性能：随机森林在训练集AUROC为0.992，外部验证集为0.911–0.953

预测能力：SHAP分析显示PKHD1L1对转移预测贡献最大，CRABP1对转移位置预测贡献最大

生物学机制：TGF-β信号通路、B细胞免疫反应等与LNM相关

预测位置：中央区与颈部转移的分类AUROC分别为0.991（南通）和0.870（中山）

图 2：随机森林模型预测甲状腺癌转移的性能验证图

研究结论

该研究通过整合基因表达谱与机器学习算法，成功构建并验证了一种用于预测甲状腺乳头状癌淋巴结转移的非侵入性模型。研究基于多中心807例样本，筛选出RPS4Y1、PKHD1L1和CRABP1三个关键基因，采用随机森林模型在训练集中取得了高达0.992的AUROC，在外部验证集中也保持了0.911至0.953的优异性能，显示出极强的预测准确性和泛化能力。其中，RPS4Y1在转移与非转移病例间表现出最显著的表达差异，成为核心预测因子。研究还揭示了TGF-β信号通路及癌症相关成纤维细胞激活等免疫相关机制在转移过程中的重要作用。该模型不仅为术前淋巴结转移风险评估提供了低成本、高精度的工具，有助于优化手术决策、避免不必要的外科干预，还从生物学层面加深了对PTC转移机制的理解。尽管当前研究队列以中国人群为主，未来仍需在更广泛的人群中验证，以推动其临床转化与应用。

参考文献：Liu W, Zheng J, Han L, Qu W, Wu Q, Yuan Z, Jia G, Wang X, Ye L, Zhang J, Zhang S, Cao X, Liu Y, Ai Z. Clinical performance of a machine learning-based model for detecting lymph node metastasis in papillary thyroid carcinoma: A multicenter study. Int J Surg. 2025 Jun 1;111(6):4062-4067. doi: 10.1097/JS9.0000000000002400.

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Research in Brain-inspired Computing [7]-带关节小人(3个)推箱的类意识报告

本研究基于box2d物理引擎构建多智能体协作推箱子系统，通过9732维参数模型训练实现"类意识"涌现。5局实验显示，3个小人通过神经符号编码（如A0[..@@@@@..

AtomGit开源社区

论文AI率太高怎么办？2026年AIGC检测与降AI率完整指南

AIGC 是 "AI Generated Content" 的缩写，即"人工智能生成内容"。AIGC 检测工具的作用是判断一段文本是由人类撰写的，还是由 AI 模型生成的。需要强调的是，AIGC 检测并不是判断"你是否使用了 AI 工具"（因为使用 AI 辅助查资料、整理思路等行为本身并不违规），而是检测论文文本本身是否呈现出 AI 生成的特征。通俗来说，它检测的是最终文本的"AI味"有多重。

AtomGit开源社区

【信息科学与工程学】【通信工程】第四十八篇转控分离vBNC/vBRAS架构概述02

编号类型函数类型函数的数学方程式建模 / 子函数的数学方程式列表参数类型参数名称数学表达式/物理模型/计算机模型/通信模型/关联描述典型值/范围 (管控目标)单位核心关联参数依赖关系设计/软件开发/硬件制造/应用要求测试/验证方法关联学科/领域CP-CORE-13CP虚拟机-控制平面路由表RIB管理。向路由信息库添加路由条目，删除，查询。路由管理函数路由信息库增删改查维护全局路由信息库，存储从各