01

文献学习

本次分享的文献是由山东第一医科大学附属省立医院放射科王锡明团队联合北京大学第三医院、青岛大学附属医院、首都医科大学附属北京友谊医院等多中心团队与2025年6月在《BMC Medicine》(中科院1区top,IF=8.3)上发表的研究“Unsupervised learning‑based quantitative analysis of CT intratumoral subregions predicts risk stratification of bladder cancer patients”即基于无监督学习的CT肿瘤内亚区域定量分析预测膀胱癌患者风险分层,该研究利用无监督聚类算法对膀胱癌患者的术前CT图像进行肿瘤内亚区域分割,提取放射组学特征,构建预测模型,用于术前无创评估肌肉浸润(MIBC vs. NMIBC)AJCC分期,以辅助临床决策。

创新点:①创新采用无监督聚类算法,将膀胱癌CT肿瘤区域自动分割为三个异质子区域,从多角度量化瘤内异质性。构建融合多个子区域特征与临床病理变量的预测模型,较传统全肿瘤模型显著提升肌肉侵犯与AJCC分期预测性能。引入SHAP方法解释各子区域影像组学特征贡献,增强模型可解释性,揭示不同子区域在预测任务中的生物学意义。

临床价值:①提供非侵入性术前评估工具,可辅助判断膀胱癌肌肉侵犯与AJCC分期,支持手术方案与治疗决策制定。模型具有较好泛化能力,经外部验证表现稳定,有望推动影像组学在膀胱癌精准分层中的临床应用。通过子区域分析识别高风险影像特征,为患者个体化预后评估与治疗策略优化提供影像学依据。

图 2:研究流程图

Section 1:图像采集和勾勒

数据来源:静脉期CT图像;

操作:两名放射科医生(5年和10年盆腔CT经验)用ITKSNA软件手动勾勒肿瘤VOI(感兴趣区),分歧通过共识讨论解决。

Section 2:基于无监督学习的肿瘤内亚区域分割

预处理:B样条插值重采样至1×1×1mm,min-max归一化;

最优聚类数确定:肘部法(K=1-10);

聚类算法:K-Means++,最终分割为3个肿瘤内亚区域(UIS1、UIS2、UIS3)。

Section 3:定量放射组学数据提取和筛选

特征提取:PyRadiomics提取1218个特征(形状、灰度直方图、纹理);

筛选步骤:①ICC>0.75验证重复性;②相关性分析消除多重共线性;③K最优选择(k=1-10);④临床病理变量用GLM逐步筛选(P<0.05,VIF符合阈值)。

Section 4:多机器学习模型构建和外部评估

模型池:6种算法(DT、SVM、RF、GB、LR、KNN);

验证方法:嵌套交叉验证(内5折调参,外5折训练);

模型类型:7种(临床病理模型、全肿瘤模型、3个亚区域模型、合并亚区域模型、融合模型);

评估指标:AUROC、敏感性、特异性等,DeLong检验比较模型差异。

Section 5:特征解释和诊断

工具:SHAP方法;

目的:揭示各亚区域放射组学特征的贡献度,辅助临床解释。

02

研究背景及目的

研究背景

膀胱癌是全球第二大泌尿系统恶性肿瘤,每年新增约54.9万例,死亡约20万例,在中国每年亦有超过8.29万新发病例和4.14万死亡病例,其防治形势严峻。准确评估肌肉浸润状态与AJCC分期对指导治疗策略和预后评估至关重要,直接影响患者生存。目前,多期相CT成像是术前评估膀胱癌的常规手段,但其在判断肌肉浸润方面存在观察者间差异大、评估一致性不高等局限,而术前活检虽为金标准,却常因取样不全而低估肿瘤浸润程度。肿瘤内异质性作为影响肿瘤演进与患者预后的关键机制,在膀胱癌中亦具有重要意义。近年来,放射组学技术能够从医学影像中高通量提取定量特征,为无创性评估肿瘤异质性提供了新途径。通过无监督聚类方法将肿瘤分割为不同亚区域进行分析,能更细致地表征肿瘤内部结构差异,从而更全面地揭示其异质性特征,有望弥补传统影像与活检的不足,为术前精准风险分层提供支持。

研究目的

本研究旨在开发一种基于无监督聚类学习的膀胱癌CT影像肿瘤亚区域放射组学模型,以提升术前对肌肉浸润和AJCC分期的预测准确性。具体而言,研究通过无监督聚类算法将膀胱癌肿瘤区域划分为三个亚区域,并分别从全肿瘤区域及各亚区域提取放射组学特征,结合临床病理变量,构建包括全肿瘤模型、各亚区域模型、融合亚区域模型及综合模型在内的多种预测模型。重点评估亚区域模型在预测肌肉浸润和AJCC分期方面的效能,并与传统全肿瘤模型及临床病理模型进行比较。研究最终目标是验证亚区域放射组学特征能否更有效地捕捉肿瘤内异质性,从而为膀胱癌患者的术前风险分层、手术方案选择及后续治疗决策提供可靠的无创性辅助工具,推动个体化诊疗发展。

03

数据和方法

研究数据

(1)数据来源

训练队列:中心A(山东第一医科大学附属省立医院)2006年1月-2021年12月收治的778例患者;

外部验证队列:中心B(青岛大学附属医院)2018年1月-2022年12月收治的239例患者;

总样本量:1017例,其中男性826例(81.2%),训练队列中位年龄67岁(IQR 60-75岁),验证队列中位年龄58.5岁(IQR 66-74岁)。

(2)纳入与排除标准

纳入标准:①组织学证实尿路上皮癌;②术前20天内接受盆腔多期CT(MPCT)扫描;

排除标准:①合并其他肿瘤;②CT图像质量差或缺失;③术前增强CT未检出肿瘤;④临床病理数据缺失;⑤接受过新辅助化疗或术前免疫治疗。

(3)变量收集

人口统计学:年龄、性别;

实验室指标:中性粒细胞计数、淋巴细胞计数、中性粒细胞/淋巴细胞比值(NLR)、细胞角蛋白20(CK20)、GATA结合蛋白3(GATA3)等;

临床症状与体征:尿路感染、血尿、蛋白尿、肿瘤有无蒂;

结局指标:①肌肉浸润状态(NMIBC vs MIBC);②AJCC分期(低危:0A、0is、I、II期;高危:IIIA、IIIB、IVA、IVB期)。

图 1:纳入和排除流程图

技术方法

(1)图像处理与亚区域分割

图像预处理:静脉期CT图像手动勾勒肿瘤VOI(ITKSNAP软件),B样条插值重采样至1×1×1mm,min-max归一化;

亚区域分割:肘部法确定最优聚类数(3个),采用K-Means++算法分割肿瘤亚区域。

(2)特征提取与筛选

特征提取:PyRadiomics提取1218个特征(14个形状特征、252个灰度直方图特征、952个纹理特征);

重复性检验:ICC>0.75的特征纳入后续分析;

特征筛选:①相关性分析消除多重共线性;②K最优选择(k=1-10);③临床病理变量采用GLM逐步选择(P<0.05,VIF符合阈值)。

(3)模型构建与评估

算法选择:支持向量机(SVM)、决策树(DT)、随机森林(RF)、梯度提升(GB)、逻辑回归(LR)、K近邻(KNN);

验证方法:嵌套交叉验证(内5折调参,外5折训练);

模型类型:7种(临床病理模型、全肿瘤模型、3个亚区域模型、合并亚区域模型、融合模型);

评价指标:AUROC、敏感性、特异性、准确性、PPV、NPV,DeLong检验比较模型差异,SHAP分析特征贡献,Hosmer-Lemeshow检验校准曲线。

图 3:肘部法确定最优聚类数图

04

实验结果

肌肉浸润预测:融合模型AUROC为0.884,合并亚区域模型为0.871,显著优于全肿瘤模型(0.804)

AJCC分期预测:融合模型AUROC为0.832,合并亚区域模型为0.832,全肿瘤模型为0.804

亚区域贡献

亚区域1(边缘区)特征混合,预测性能中等

亚区域2(中心区)以形态特征为主,预测性能高

亚区域3(中央封装区)以纹理异质性为主,反映肿瘤微环境

图 4:外部验证集的AUROC曲线和校准曲线

图 5:SHAP特征贡献图

图 6:肌肉浸润任务的肿瘤内亚区域放射组学解释图

图 7:AJCC分期任务的肿瘤内亚区域放射组学解释图

05

研究结论

该研究通过基于无监督学习的CT肿瘤内子区域定量分析方法,成功构建了用于预测膀胱癌患者肌肉浸润状态AJCC分期的影像组学模型。研究纳入了1017例患者,采用K-Means++聚类算法将肿瘤划分为三个子区域,并分别提取影像组学特征,最终构建了包括全肿瘤模型、各子区域模型、合并子区域模型及融合模型在内的七种预测模型。结果显示,合并子区域模型在外部验证队列中表现出最优预测性能,其预测肌肉浸润和AJCC分期的AUROC分别达到0.871和0.832,且显著优于全肿瘤模型。研究进一步通过SHAP分析揭示了不同子区域的特征贡献差异,表明肿瘤内异质性信息具有重要的预测价值。该研究表明,基于CT影像的肿瘤内子区域分析能够有效提升膀胱癌术前风险分层的准确性,为临床治疗决策提供了非侵入性、可量化的辅助工具,但其临床推广仍需前瞻性研究进一步验证。


参考文献:Wang Y, Wang H, Li N, Wu S, Shi R, Sun K, Wang X. Unsupervised learning-based quantitative analysis of CT intratumoral subregions predicts risk stratification of bladder cancer patients. BMC Med. 2025 Jun 2;23(1):328. doi: 10.1186/s12916-025-04163-2.

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐