【技术追踪】DeepMTS：基于治疗前 PET/CT 的晚期鼻咽癌患者生存预测深度多任务学习模型（JBHI-2022）

风巽·剑染春水

392人浏览 · 2026-04-29 11:35:19

风巽·剑染春水 · 2026-04-29 11:35:19 发布

早期的研究就已经开始生存分析了，还都是多任务（分割+预测）！

论文：DeepMTS: Deep Multi-task Learning for Survival Prediction in Patients with Advanced Nasopharyngeal Carcinoma using Pretreatment PET/CT
代码：https://github.com/MungoMeng/Survival-DeepMTS

0、摘要

鼻咽癌（NPC）是一种起源于鼻咽部的上皮恶性肿瘤。生存预测是鼻咽癌患者诊疗中的核心关注问题，其可为治疗方案制定提供早期预后信息。近年来，基于深度学习的深度生存模型已展现出超越传统影像组学生存预测模型的潜力。（研究背景）

现有深度生存模型通常采用两种输入方式：一是使用覆盖整个目标区域（如鼻咽癌的鼻咽部）的图像块，二是仅使用肿瘤分割区域的图像块作为输入。然而，使用整个目标区域的模型会引入无关背景信息干扰；而仅使用肿瘤分割区域的模型则会忽略原发灶以外潜在的预后信息（如局部淋巴结转移和邻近组织侵犯）。（两种输入模式都有局限）

本研究提出一种基于治疗前 PET/CT 影像的 3D 端到端深度多任务生存模型（DeepMTS），用于晚期鼻咽癌的生存预测与肿瘤分割联合建模。

本研究的创新点在于引入硬共享分割骨干网络，引导模型提取与原发肿瘤相关的局部特征，降低无关背景信息的干扰；同时，引入级联生存网络，以捕捉原发灶以外的预后信息，并进一步利用分割骨干网络输出的全局肿瘤信息（如肿瘤大小、形态与位置）。

在两个临床数据集上的实验结果表明，DeepMTS 模型性能持续优于传统影像组学生存预测模型与现有深度生存模型。

1、引言

1.1、研究意义与当前挑战

（1）晚期鼻咽癌患者的预后评估对治疗决策至关重要，但传统 TNM 分期系统对晚期鼻咽癌的预后价值有限，亟需更精准的生存预测方法；（临床意义）

（2）影像组学方法： 高度依赖人工干预，易引入人为偏差；特征仅从原发肿瘤区域提取，无法捕捉原发灶以外的预后信息，也缺乏全局解剖信息；（现有局限）

（3）端到端深度学习方法： 以整个目标区域图像为输入的模型会引入无关背景信息干扰；以分割后肿瘤区域为输入的模型则会丢失原发灶以外的潜在预后信息（现有局限）

1.2、本文贡献

（1）提出新型混合多任务架构： 融合硬共享与级联多任务架构的优势，将肿瘤分割作为辅助任务引入生存预测，同时隐式与显式地利用肿瘤分割信息；

（2）构建端到端 DeepMTS 模型： 基于该架构实现了 3D 端到端模型，可同时完成晚期鼻咽癌的肿瘤分割与生存预测，测试阶段无需人工分割，降低了临床应用门槛；

（3）全面利用多源预后信息： 硬共享主干网络提取原发肿瘤区域的局部特征，减少无关背景干扰；级联生存网络捕捉原发灶以外的预后信息，并利用分割输出的全局肿瘤信息（如大小、形态、位置）

Figure 1 | 概念示意图： (a) 硬共享多任务架构、(b) 级联多任务架构以及 © 在 DeepMTS 中用于联合生存预测与肿瘤分割的混合多任务架构；

在这里插入图片描述

2、方法

2.1、概述

本研究提出 DeepMTS 模型，可直接从 PET/CT 影像中以端到端方式预测疾病进展风险。图 2 展示了 DeepMTS 的整体工作流程：模型以一对预处理后的 3D PET/CT 图像（尺寸为 128×128×112）作为输入，同时输出疾病进展风险预测结果与肿瘤分割掩码。

Figure 2 | DeepMTS 在联合生存预测与肿瘤分割中的工作流程：该流程由分割主干网络（蓝色矩形）和级联生存网络（橙色矩形）组成。深度特征从这两个组件中提取，并输入全连接层用于生存预测。临床特征可能包括年龄、性别和 TNM 分期等具有潜在预后价值的临床指标。

在这里插入图片描述

DeepMTS 模型由分割主干网络与级联生存网络（CSN） 两部分构成：其中分割主干网络为基于 3D U-Net 的定制化分割网络，CSN 为改进版 3D DenseNet。模型从上述两个组件中提取深度特征，再将特征送入多个全连接层（FC）以完成生存预测。整个架构采用端到端方式训练，优化目标为包含分割损失 $L_{seg}$ 与生存预测损失 $L_{sur}$ 的组合损失函数。

具体流程如下：预处理后的 PET 与 CT 图像首先进行通道拼接，输入分割主干网络；分割主干网络输出肿瘤概率图，其中每个体素的值表示该位置属于肿瘤区域的概率；随后，肿瘤概率图与预处理后的 PET/CT 图像拼接，输入 CSN。对于肿瘤分割任务，可将肿瘤概率图以 0.5 为阈值进行二值化，得到肿瘤分割掩码；对于生存预测任务，从分割主干网络中提取 124 个深度特征，送入一个由 ReLU 激活的、含 64 个神经元的全连接层（FC1）；同时，从 CSN 中提取 112 个深度特征，送入另一个由 ReLU 激活的、含 64 个神经元的全连接层（FC2）。将 FC1、FC2 的输出与临床特征 C（如 TNM 分期、年龄、性别等）拼接，再送入一个无激活函数（线性）的单神经元全连接层（FC3），FC3 的输出即为疾病进展风险预测结果。此外，所有全连接层均采用了概率为 0.5 的 Dropout 操作与系数为 0.1 的 L2 正则化。

2.2、分割主干网络

本研究分割主干网络的结构如 图 3 所示。该网络为基于 3D U-Net 的定制化分割网络，由下采样硬共享分支与上采样分割分支构成。如 图 3 所示，网络左半部分为硬共享分支，用于提取分割与生存预测任务共享的通用特征；右半部分为分割分支，通过跳跃连接接收通用特征并执行肿瘤分割任务。两个分支均由残差块（ 图 3 中蓝色立方体）构成，相邻残差块之间采用核大小为 $2 \times 2 \times 2$ 的最大池化层或上采样层进行下采样或上采样操作。

记为 “ $n \times m$ ” 的残差块由 $n$ 个堆叠的卷积层构成，卷积层核大小为 $3 \times 3 \times 3$ ，通道数为 $m$ 。在该残差块中，第 1 个卷积层带有非线性残差连接（由核大小为 $1 \times 1 \times 1$ 、通道数为 $m$ 的卷积层实现），其余 $n - 1$ 个卷积层带有短路残差连接。所有卷积层后均接批归一化（BN）层与 ReLU 激活函数。最后一个残差块后接一个 softmax 激活的卷积层，其核大小为 $1 \times 1 \times 1$ ，通道数为 2。该卷积层的输出即为预测的肿瘤概率图。

为进行生存预测，从硬共享分支的多尺度残差块中提取深度特征：每个残差块的输出送入一个核大小为 $1 \times 1 \times 1$ 的卷积层，再经过 BN 层、ReLU 激活函数与全局平均池化（GAP）层处理。最终，从 5 个残差块中总共提取得到 124 个深度特征。

2.3、级联生存网络

级联生存网络（CSN）为改进版 3D DenseNet，结构见补充材料图 S1。首先，预处理后的 PET/CT 影像与来自分割主干网络的肿瘤概率图进行拼接，输入卷积层与最大池化层进行下采样；随后，特征图依次送入 3 个密集块与 3 个过渡块。3 个密集块分别包含 4、8、16 个瓶颈块，同一密集块内的瓶颈块采用密集连接方式。每个瓶颈块包含两个卷积层，核大小分别为 $1 \times 1 \times 1$ 和 $3 \times 3 \times 3$ ；卷积层前使用 BN 与 ReLU 激活函数，卷积层后采用概率为 0.05 的 Dropout 操作。

每个密集块后接一个过渡块，过渡块由 BN 层、ReLU 激活函数、核大小为 $1 \times 1 \times 1$ 的卷积层与概率为 0.05 的 Dropout 构成；前两个过渡块后接核大小为 $2 \times 2 \times 2$ 的平均池化层，用于下采样并与后续密集块连接。为进行生存预测，从过渡块中提取深度特征：每个过渡块的输出送入 BN 层、ReLU 激活函数与全局平均池化（GAP）层处理，最终从 3 个过渡块中总共提取得到 112 个深度特征。

2.4、优化

本研究的 DeepMTS 模型采用端到端方式训练，以最小化如下组合损失函数 $L$ ：
$L_{seg} + L_{sur} + \lambda L_{reg} \tag{1}$ 其中， $L_{seg}$ （公式 2）为肿瘤分割任务的损失函数， $L_{sur}$ （公式 3）为生存预测任务的损失函数，带系数 $λ$ 的 $L_{reg}$ 为全连接层使用的 L2 正则化项。

对于肿瘤分割任务， $L_{seg}$ 采用 Dice 损失函数：
$L_{seg} = -\frac{2\sum_{i}^{N} p_i g_i}{\sum_{i}^{N} p_i^2 + \sum_{i}^{N} g_i^2} \tag{2}$ 式中， $p_i∈[0,1]$ 为预测肿瘤概率图的体素值， $g_i∈\{0,1\}$ 为真实肿瘤分割掩码（标签）的体素值，求和遍历分割空间的所有 $N$ 个体素。

对于生存预测任务，采用 Cox 负对数部分似然损失作为 $L_{sur}$ ，以处理右删失生存数据，公式如下：
$L_{sur} = -\frac{1}{N_{E=1}} \sum_{i: E_i=1} \left( h_i - \log \sum_{j \in \mathcal{H}(T_i)} e^{h_j} \right) \tag{3}$ 式中， $h$ 为预测的疾病进展风险， $E$ 为事件指示变量（0 表示删失患者，1 表示发生疾病进展的患者）， $T$ 为无进展生存期（ $E = 1$ 时）或患者删失时间（ $E = 0$ 时）， $N_{E=1}$ 为发生疾病进展的患者数量， $\mathcal{H}(T_i)$ 为所有 $T$ 不小于 $T_i$ 的患者集合。

3、实验与结果

3.1、患者与数据集

FUSCC 数据集（主数据集）

样本量：170 例晚期鼻咽癌患者（III/IVa 期）。
数据类型：治疗前 [18F] FDG PET/CT 影像、临床指标（年龄、性别、T/N/TNM 分期）。
临床特征：仅 TNM 分期与 PFS 显著相关（P=0.047），因此作为唯一临床特征纳入模型。

TCIA 数据集（验证集）

样本量：从 TCIA 头颈部癌症数据中筛选的 23 例晚期鼻咽癌患者（III/IVa 期）。
筛选条件：原发灶位于鼻咽部，TNM 分期为 III/IVa 期。
数据类型：治疗前 [18F] FDG PET/CT 影像，用于外部验证模型性能。

3.2、PET/CT 图像预处理

（1）重采样：统一图像空间分辨率，为后续处理提供一致的体素尺寸。
（2）SUV 转换（PET 图像）：将 PET 图像的原始计数转换为标准化摄取值（SUV），实现 PET 信号的标准化。
（3）仿射配准：完成 PET 与 CT 图像的空间对齐，确保同一解剖位置的 PET/CT 信息对应。
（4）ROI 裁剪：裁剪出尺寸为 128×128×112 体素的感兴趣区域，覆盖整个鼻咽部，去除无关背景。
（5）强度归一化：对图像强度进行标准化处理，以适应模型输入要求。
（6）标签准备：以预处理后的 PET/CT ROI 作为模型输入，以原发肿瘤的人工分割掩码作为分割任务的真实标签。

3.3、对比方法

基于特征的传统 / 早期模型

输入：降维后的影像组学特征 + TNM 分期。
模型：Lasso-Cox、RSF、DeepSurv。

端到端深度生存模型

模型：CNN-Survival（2D CNN）、MDSN（3D 端到端模型，针对 NPC）、DLPM（肺癌模型）。
输入：MDSN/DLPM 与 DeepMTS 输入一致；CNN-Survival 使用仅含肿瘤区域的 2D 切片。

深度特征对比

从 DeepMTS 中提取硬共享分支 + CSN 的 236 个深度特征，降维后输入上述三种基于特征的模型，与影像组学特征进行对比。

3.4、实验设置

多任务架构消融实验

设置 5 种降级模型（Seg-Backbone、Sur-HS、Sur-CasNet、MT-HS、MT-CasNet），分别移除或禁用模型的部分关键组件，验证各模块对整体性能的贡献。

CSN 输入策略对比

对比 “逐元素相乘” 与 “通道拼接” 两种方式，探究 CSN 如何有效利用肿瘤分割信息；
MT-CasNet 使用模型生成的掩码，Sur-CasNet 使用人工掩码，模拟不同场景下的信息利用方式。

分割主干网络对比

以 3D U-Net 作为基线主干网络构建模型，与原模型的定制化主干进行对比，验证所设计主干网络的有效性。

3.5、评价指标与实施细节

肿瘤分割：DSC，生存预测：C-index

硬件与框架：基于 Keras+TensorFlow 实现，使用两块 12GB Titan X GPU。
训练配置：Adam 优化器，批量大小 8，训练 15000 次迭代，学习率分阶段衰减（ $10^{−4}→5×10^{−5}→10^{−5}→10^{−6}$ ）。
验证方式：在 FUSCC 数据集上采用 5 折交叉验证。
数据增强：实时随机平移、旋转、翻转；对删失 / 未删失样本等量采样，缓解删失数据偏倚。
测试方式：将 5 折模型集成后，在 TCIA 外部数据集上验证。

3.6、实验结果

Table 1 | 所提出的 DEEPMTS 与现有生存预测模型的比较结果（C-index）：
在这里插入图片描述

Table 2 | 多任务评估结果：

在这里插入图片描述

Table 3 | 两种 CSN 肿瘤分割信息输入策略的 C-index 对比结果：

在这里插入图片描述

Table 4 | 分割主干网络性能评估结果：

在这里插入图片描述

早期研究对网络结构的描述还挺详尽的！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

鸿翼智能多模态数据管理平台，构建企业AI能力的数据基础设施

AtomGit开源社区

QCN9274 and MT7916: Two Leading Platforms Driving the WiFi 7 Revolution

AtomGit开源社区

时间戳是 int 还是 date ？数据表的字段类型，全部设计为 String，适应什么场景

数据库时间戳类型的选择取决于具体场景：DATE/DATETIME类型可读性强、函数支持完善，适合常规业务；INT类型（Unix时间戳）适合跨系统传输和分布式场景。数据表字段全设计为String类型仅适用于特定场景：日志采集、数据湖ODS层、EAV模型值字段、临时表等非结构化或动态数据场景，但会带来存储膨胀、查询性能差等问题。核心业务系统、高并发OLTP等场景应严格避免全String设计，需根据字段