如何将影像组学特征与高级别浆液性卵巢癌中的侵袭性生物学表型建立关联,并进一步解释其与预后、治疗响应的机制联系
01
导语
各位同学,大家好。现在做影像组学,如果还只停留在“提取特征—建个模型—算个AUC”,那就有点像算命算得挺准,但为啥准,自己也说不明白。别人一问:你这特征到底代表啥?背后有啥道理?瞬间就成了黑箱本箱。而真正能打高分、站得住脚的研究,都在干一件事——给影像组学找“生物学娘家”,让宏观图像和微观病理、细胞、基因、通路对上话。今天咱们就通过一篇发表于《柳叶刀·数字健康》的文献,看看研究者如何将增强CT的影像组学特征与高级别浆液性卵巢癌的侵袭性表型(MAPK/SNARE通路、肿瘤细胞密度、RAD51表达)建立关联,并解释其预后与治疗响应机制。用轻松又实在的方式,聊聊影像组学怎么优雅、合理、不硬凑地挂靠生物学机制,从“只会算分的工具人”,升级成“能讲清疾病故事的研究者”。

★题目:End-to-end integrative segmentation and radiomics prognostic models for risk stratification of high-grade serous ovarian cancer: a retrospective multicohort study
(用于高级别浆液性卵巢癌风险分层的端到端整合分割与影像组学预后模型)
★期刊:《The Lancet Digital Health》)(中科院1区,IF=24.1)
★研究疾病:高级别浆液性卵巢癌
★生物学机制:MAPK/SNARE通路、高细胞密度、RAD51下调
★发表时间:2026年2月
02
研究背景-从 “临床问题” 落到 “生物学问题”
高级别浆液性卵巢癌(HGSOC)是上皮性卵巢癌中最常见且预后最差的亚型,约占70%。尽管手术联合铂类化疗及PARP抑制剂等维持治疗取得了一定进展,但患者的长期生存率仍然不容乐观,根本原因在于肿瘤的高度异质性——包括细胞间质与上皮成分的差异、信号通路的紊乱以及微环境的重编程——难以被传统临床指标如CA-125、FIGO分期或残留病灶状态所充分反映。目前临床上缺乏能够在术前无创、精准地对患者进行风险分层的有效工具,导致治疗决策(如是否进行新辅助化疗、选择何种手术范围、是否入组临床试验)带有较大的经验性和不确定性。影像组学作为一种从常规增强CT图像中高通量提取定量特征的方法,已被证明能够捕捉肿瘤的微观结构异质性和生物学行为,但既往研究受限于手动勾画病灶的繁琐流程以及方法学上的单一(仅采用少数特征筛选与建模组合),更重要的是,这些研究大多停留在预测预后表型,未能深入揭示影像组学风险分组背后的生物学机制,例如哪些信号通路、蛋白表达或基因拷贝数变化驱动了高风险表型。因此,亟需开发一个自动化、端到端的人工智能流程,既能高效分割原发灶并进行预后预测,又能将预测结果与多组学数据相关联,从而将影像组学从“表型工具”提升为“机制探索平台”。
03
研究目的(明确写出“三层目的”)
本研究设定了明确的三层递进目标。第一层(技术目的):构建一个端到端的自动化模型,集成原发灶分割与预后评估两大功能,避免对人工勾画的依赖,从而实现临床可部署的高通量分析。具体包括采用nnU-Net实现三维自动分割,并系统比较13种特征筛选方法与12种机器学习算法的156种组合,以选出最优预后模型。第二层(临床目的):验证该模型是否在多个独立外部队列(英国、德国、美国)中显著优于现有临床基准(CA-125、FIGO分期、残留病灶状态)以及既往发表的影像组学预后向量(RPV)。通过一致性指数(C-index)、风险比、时间依赖AUC等指标,证明该模型能够将患者有效划分为高风险与低风险亚组,且该分层结果在调整年龄、分期、体能状态等混杂因素后仍然稳健。第三层(机制目的):探索模型预测的风险分组是否与转录组、蛋白组、拷贝数变异及组织病理学特征存在关联,从而揭示高风险表型背后的生物学通路。具体而言,通过基因集富集分析(GSEA)、蛋白表达相关性分析及肿瘤细胞密度比较,将影像组学特征映射到具体的分子机制(如MAPK信号通路、SNARE介导的囊泡运输、侵袭表型等),为影像组学提供生物学解释力。
04
研究思路(最核心:怎么挂靠机制)
本研究的核心设计在于以“模型预测的风险分组”作为桥梁变量,连接影像表型与生物学机制,避免直接建立“影像特征→基因突变”的脆弱关联。首先,收集605例HGSOC患者的术前增强CT影像及临床数据,分为训练/验证集(英国Hammersmith)和两个外部测试集(美国TCIA、德国KEM)。第一步:自动分割——采用nnU-Net框架(2D、3D全分辨率、3D低分辨率集成)训练原发性卵巢病灶分割模型,以Dice系数评估性能。第二步:影像组学建模——从分割区域提取666个标准化影像组学特征,然后进行大规模系统性比较:13种特征筛选方法(包括相关性、互信息、基于模型的方法如随机森林置换重要性PVIRF)与12种生存学习算法(包括Cox系列、提升树、随机生存森林RSF等)组合,通过100次Bootstrap和10折交叉验证优化C-index,最终选出外部验证表现最优的PVIRF-RSF组合。第三步:风险分层与机制挂靠——采用k-means聚类将预测概率二分类(高/低风险)和三分类(高/中/低风险),然后在有组学数据的子集中进行多组学关联分析:利用单变量逻辑回归和GSEA识别高风险组富集的KEGG通路(如MAPK、SNARE);通过Spearman相关分析蛋白组、拷贝数变异及RNA表达与风险评分的关系;最后结合组织学指标(肿瘤细胞密度、Rad51表达)验证影像学发现的生物学一致性。整个思路实现了从“影像→风险→多组学→通路”的闭环解释,使影像组学模型具备可验证的生物学内涵。
05
数据和方法(机制部分怎么设计)
数据:本研究共纳入 605例高级别浆液性卵巢癌(HGSOC)患者的术前增强CT影像及临床数据,来自三个独立队列:Hammersmith Hospital(英国,n=211)按7:3随机划分为训练集(n=147)与内部验证集(n=64)用于模型开发与筛选;TCIA(美国,n=71)与KEM(德国,n=323)作为外部测试集用于模型泛化能力评估。此外,在Hammersmith与TCIA子集中还收集了转录组、蛋白组、拷贝数变异及组织病理学数据,用于机制关联分析。
方法: nnU-Net(2D/3D集成)自动分割原发灶 → 提取666个标准化影像组学特征 → 13种特征筛选法(含PVIRF)与12种生存算法(含RSF)组合,经100次Bootstrap+10折交叉验证优化C-index → 最优模型PVIRF-RSF输出预测概率 → k-means聚类二分类(高/低风险)及三分类 → 单变量逻辑回归+GSEA富集KEGG/人类基因组通路 → Spearman相关分析蛋白/CNV/RNA表达与风险评分关联 → 箱线图比较高风险与低风险组的肿瘤细胞密度及Rad51表达。

图 1(人工智能流程概览):该图展示了端到端的三条技术路径:A为自动分割(nnU‑Net)→ 影像组学特征提取 → 机器学习预后建模;B为直接使用深度学习(ResNet等)从原始CT预测生存;C为分割+深度学习组合。核心设计在于将影像表型转化为定量特征,进而通过特征筛选与生存算法关联临床结局。图中明确区分了手工特征(影像组学)与深度学习特征,为后续将模型预测风险分组与转录组、蛋白组等生物学数据挂钩奠定了流程基础。
06
研究结果(“从表型到机制”)
1. 表型层面(影像组学模型性能):自动分割模型在验证集与外部测试集中Dice系数达0.80–0.90,性能稳健。最优预后模型PVIRF‑RSF在内部验证集的C‑index为0.66,在TCIA与KEM外部测试集中分别达0.72与0.60,联合临床特征后C‑index均提升至0.73,显著优于CA‑125、FIGO分期及既往RPV模型。

图 2(三维nnU‑Net分割性能):A图为Dice系数的箱线图:训练集median=0.96,验证集0.90,外部测试集TCIA 0.88、KEM 0.80,表明自动分割在不同队列中均达到临床可接受水平。B图为示例展示:红色为模型预测,蓝色为医生勾画,两者高度重叠。精准分割是影像组学特征可靠性的前提,只有稳定的病灶勾画才能保证后续提取的纹理、小波等特征真实反映肿瘤异质性,进而为机制分析提供可信的输入。
2. 风险分层层面:基于PVIRF‑RSF预测概率进行k‑means二分类(阈值0.425),高风险组总生存期显著更差,调整混杂因素后风险比(HR)达1.71–6.34。进一步三分类可识别5%–30%的极端高风险患者,各风险组间生存差异均具统计学意义(log‑rank p<0.05)。


图 3(监督式影像组学建模与风险分层):A‑D为156种组合的C‑index热图,显示PVIRF‑RSF组合在验证集与外部测试集中表现最优(C‑index 0.66‑0.72)。E‑H为Kaplan‑Meier曲线,基于k‑means二分类(阈值0.425)将患者分为高/低风险组,log‑rank p均<0.01,高风险组总生存显著更差。该图证明影像组学模型能有效分离预后亚群,而后续机制分析正是基于这些风险分组去关联MAPK通路、SNARE囊泡运输等生物学特征,实现了从影像表型到生物学行为的桥接。
3. 机制层面(核心发现):高风险组富集MAPK信号通路与SNARE介导的囊泡运输基因,提示侵袭表型。蛋白组中STAT5ALPHA正相关,RAD51表达下降。组织学上高风险组肿瘤细胞密度显著升高,而间质标记物未增加,表明该模型捕捉的是肿瘤细胞自身侵袭性而非间质反应。


图 4(影像组学特征的生物学注释):A展示PVIRF‑RSF模型中重要性最高的特征(多为小波分解后的偏度、对比度),提示高风险组影像纹理更不规则。B为火山图,显示与高风险评分显著相关的基因(如TF、FNDC4)。C和D为GSEA富集通路:高风险组富集MAPK信号通路、SNARE介导的囊泡运输及基底膜、紧密连接相关基因,直接指向肿瘤细胞侵袭表型。E显示高风险组肿瘤细胞密度显著升高,F显示RAD51蛋白有下降趋势。该图完整呈现了“影像特征→风险分组→多组学通路→组织学验证”的机制链条,是影像组学挂靠生物学的核心证据。
07
讨论(把机制故事讲圆)
本研究通过构建端到端的自动分割与预后预测模型,首次在多国、大样本、外部验证的框架下证明:基于常规增强CT的影像组学能够有效对HGSOC患者进行术前风险分层,且其预测性能显著优于传统临床指标(CA‑125、FIGO分期、残留病灶)及既往发表的RPV模型。更为重要的是,本研究将影像组学风险分组与多组学数据成功挂钩,揭示了高风险表型背后的生物学机制:高风险组富集MAPK信号通路和SNARE介导的囊泡运输相关基因,这与肿瘤细胞的侵袭性伪足形成、基质降解密切相关;同时蛋白组显示RAD51表达下降,提示可能存在DNA修复通路的代偿性改变,为PARP抑制剂的敏感性提供了间接线索。与既往RPV模型强调间质反应不同,本模型指向肿瘤细胞自身的侵袭性,这一差异可能源于影像组学特征选择的不同(本模型以偏度、对比度、小波分解特征为主)。临床转化层面,低风险组可能适合直接减瘤手术,而高风险组应优先考虑新辅助化疗、PARP抑制剂或临床试验入组。尽管存在一定局限(如部分队列缺少CA-125数据、深度学习生存模型表现未超越传统机器学习),但本研究的自动化流程和机制探索范式为影像组学的临床落地提供了可复制的路径。未来需前瞻性研究验证该模型能否真正指导个体化治疗决策。
08
这篇文献的可借鉴思路
本论文为影像组学研究者提供了一个高质量的方法学与机制研究范本。第一,“风险分组作为桥梁”的策略值得推广:不直接让影像特征预测基因突变(易过拟合且难解释),而是将模型输出的连续风险评分或二分类分组作为中介变量,再与多组学数据进行关联分析,从而将影像表型翻译为生物学通路。第二,系统性的模型比较是提升结果可信度的关键:本研究同时考察了13种特征筛选法与12种生存算法的156种组合,并在验证集上统一选优,避免了“拍脑袋”建模的偏差;任何影像组学任务均可借鉴这一穷举搜索+交叉验证的流程。第三,端到端的自动化设计是实现临床转化的前提:nnU‑Net自动分割不仅节省人工勾画时间,更重要的是使模型可部署于常规影像工作站,真正服务于临床。第四,机制验证的多模态策略值得学习:不依赖于单一组学,而是联合转录组、蛋白组、拷贝数变异、组织病理学四个维度交叉印证,大大增强了影像组学风险分组的生物学可信度。第五,与已有模型对比突出生物学新发现:通过对比RPV模型,明确指出本模型捕捉的是“肿瘤细胞侵袭”而非“间质反应”,体现了影像组学模型的生物学个性。最后,代码公开、数据申请机制符合现代AI医学研究的透明性和可复现性要求,为后续研究提供了直接可用的工具。
09
结语
总而言之,做影像组学不只是拼AUC、堆模型,更要学会给特征找意义、给模型讲道理。本论文的示范意义在于:通过“风险分组”作为桥梁,将影像表型与转录组、蛋白组、组织病理学多维度挂钩,揭示了高风险组富集MAPK信号通路与SNARE介导的囊泡运输,并验证了肿瘤细胞密度升高和RAD51表达下调,让影像特征有了实实在在的生物学注脚。只有把宏观影像和微观机制真正打通,我们的研究才不是“玄学算命”,而是有根有据、有血有肉、能讲好疾病故事的真科研。希望大家以后都能少走弯路,轻松写出有机制、有深度、能发高分的好文章!
参考文献:Linton-Reid K, Lu H, Wengert G, Fotopoulou C, Lee P, Petta F, Russo L, Avensani G, Arshad M, Harter P, Chen M, Boubnovski MM, Hindocha S, Hunter B, Posma JM, Rockall A, Aboagye EO. End-to-end integrative segmentation and radiomics prognostic models for risk stratification of high-grade serous ovarian cancer: a retrospective multicohort study. Lancet Digit Health. 2026 Feb;8(2):100955. doi: 10.1016/j.landig.2025.100955.
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)