1 要点

论文标题: Modeling Brain Aging With Explainable Triamese ViT: Towards Deeper Insights Into Autism Disorder

作者: Zhaonian Zhang, Vaneet Aggarwal, Plamen Angelov, Richard Jiang

期刊: IEEE Journal of Biomedical and Health Informatics, VOL. 29, NO. 11, NOVEMBER 2025

代码: GitHub - zhangz59/Triamese-ViT

数据集: IXI Dataset / ABIDE Dataset

研究背景
脑龄估计通过MRI预测大脑的生物学年龄,其核心指标为脑龄偏差(BAG = 预测脑龄 − 实际年龄)。BAG为正可能预示阿尔茨海默症、轻度认知障碍、抑郁症等脑疾病。现有方法主要基于3D CNN或2D Vision Transformer(ViT),但面临三个问题:

  1. 3D CNN:擅长局部特征,但忽略全局结构信息,且黑箱特性导致可解释性差;
  2. 2D ViT:能捕获长距离依赖,注意力图自带可解释性,但无法充分利用3D MRI的深度信息;
  3. 可解释性不足:后验方法(遮挡分析、梯度法)要么不可靠,要么依赖线性近似;而固有可解释模型又牺牲精度。

研究目标:构建一个高精度 + 高公平性(低年龄偏差) + 内建可解释性的脑龄估计模型,并将注意力图应用于正常衰老分析和ASD(自闭症谱系障碍)诊断。

关键技术

  1. Triamese-ViT:将3D MRI从x/y/z三个正交视角分解为2D切片,分别送入三个ViT编码,再通过Tri-MLP融合预测。相比3D ViT更省计算/内存,精度反而更高;
  2. 内建可解释性:将三个视角的2D注意力图扩展到3D并平均,生成3D类注意力图,直接可视化关键脑区,无需额外后验处理;
  3. Tri-MLP融合层:MLP融合优于CBAM注意力融合和自注意力融合,9层MLP为最佳层数。

数据集

  • IXI(健康人群训练集,1351例,6–80岁)
  • ABIDE(ASD患者,280例,6–62岁)
  • 预处理:FSL脑提取 + 偏场校正 + MNI配准 + ComBat站点协调

2. 摘要

本研究提出Triamese-ViT,一种创新的ViT模型,内置可解释性功能。该模型从三个视角(x/y/z轴) 整合3D MRI信息以提升脑龄估计精度,同时生成3D类注意力图实现结构感知的可解释性,从而识别和可视化对预测有贡献的关键脑区。

在1351名健康个体(6-80岁)的MRI数据上评估显示,Triamese-ViT达到:

  • MAE = 3.85
  • Spearman相关系数r = 0.94
  • 脑龄偏差(BAG)与真实年龄相关性|rp| = -0.3(偏差极低)

将注意力图应用于自然衰老分析和ASD诊断,模型识别出:

  • 正常衰老关键脑区: Cingulum(扣带)、Rolandic Operculum(罗兰多岛盖)、Thalamus(丘脑)、Vermis(小脑蚓部)
  • ASD关键脑区: Thalamus(丘脑)、Caudate Nucleus(尾状核)

3. 研究背景

3.1 脑龄估计的意义

生物衰老伴随大脑结构和功能退化。脑龄估计从MRI预测大脑生物学年龄,其核心指标是脑龄偏差(BAG = 预测脑龄 - 实际年龄)。BAG 是重要生物标志物:

  • BAG < 0:大脑比同龄人"年轻"(健康标志)
  • BAG > 0:大脑比同龄人"衰老"(可能是阿尔茨海默症、精神病、轻度认知障碍、抑郁症等的早期信号)

2.2 现有方法的局限

方法 优点 缺点
3D CNN 局部图像特征提取强 忽略全局结构信息,可解释性差
ViT 捕捉长距离依赖,注意力图自带可解释性 主要面向2D,难以充分利用3D MRI的深度信息
后验可解释方法(如遮挡分析、梯度法) 适用于黑箱模型 基于扰动的方法可能不可靠;基于梯度的方法依赖线性近似
固有可解释模型(线性模型、决策树等) 透明 预测精度不足

4. 方法

4.1 数据与预处理

健康参与者数据集(来自IXI¹+ ABIDE):

  • 1351例 T1-weighted MRI 扫描
  • 年龄 6–80 岁,均值 30.5 ± 19.95 岁
  • 872 男性 / 479 女性(先前研究表明性别不显著影响脑龄估计)
  • 按8个年龄组分层划分:每组 70%训练 / 15%验证 / 15%测试

ASD患者数据集(来自ABIDE):

  • 280例,年龄 6–62 岁,均值 18.8 ± 13.78 岁

预处理流程(FSL 5.10 [37]):

  1. 脑提取(BET [38])→ 去除非脑组织
  2. 偏场校正 → 消除MRI采集不均匀性
  3. 非线性配准到MNI标准空间 → 跨被试空间对齐
  4. 体素值标准化:脑区内减均值除以标准差
  5. ComBat协调:消除不同扫描仪/站点的系统性偏差(如图2所示,协调前Trinity College Dublin和Georgetown University的体素强度分布差异明显,协调后高度对齐)
  6. 最终分辨率:91 × 109 × 91 体素,各向同性 2mm

4.2 Triamese-ViT架构

4.2.1 核心动机

受[39]启发:3D图像的不同视图包含独特且独立的互补信息。Triamese-ViT基于标准ViT构建,处理3D MRI M ∈ R H × W × C M \in \mathbb{R}^{H \times W \times C} MRH×W×C,其中 H , W , C H, W, C H,W,C分别为高度、宽度和切片数。

4.2.2 三视角分解

将MRI重塑为三个正交视角:
M → ( M x , M y , M z ) M \rightarrow (M_x, M_y, M_z) M(Mx,My,Mz)其中:

  • M x ∈ R H × W M_x \in \mathbb{R}^{H \times W} MxRH×W(含 C C C个通道,即冠状面/前后视图)
  • M y ∈ R H × C M_y \in \mathbb{R}^{H \times C} MyRH×C(含 W W W个通道,即矢状面/水平视图)
  • M z ∈ R W × C M_z \in \mathbb{R}^{W \times C} MzRW×C(含 H H H个通道,即轴状面/侧向视图)

4.2.3 ViT编码(以Mx为例)

Step 1 — Patch分割与线性投影:
M x M_x Mx分割为边长为 S S S的2D正方形patch序列:
M x , s ∈ R N × ( S 2 ⋅ C ) , N = H × W S 2 M_{x,s} \in \mathbb{R}^{N \times (S^2 \cdot C)}, \quad N = \frac{H \times W}{S^2} Mx,sRN×(S2C),N=S2H×W每个patch通过可训练的线性投影矩阵映射到 D D D维:
t x , 0 = Concat ( M x , class ; M x , s 1 E ; M x , s 2 E ; … ; M x , s N E ) + E pos (1) t_{x,0} = \text{Concat}(M_{x,\text{class}}; M^1_{x,s}E; M^2_{x,s}E; \ldots; M^N_{x,s}E) + E_{\text{pos}} \tag{1} tx,0=Concat(Mx,class;Mx,s1E;Mx,s2E;;Mx,sNE)+Epos(1)其中:

  • M x , class ∈ R 1 × D M_{x,\text{class}} \in \mathbb{R}^{1 \times D} Mx,classR1×D可学习的类别token(类似于BERT的[CLS]),最终从Transformer Encoder输出为 t x , L 0 t^0_{x,L} tx,L0,代表整个视角的图像表示
  • E ∈ R ( S 2 ⋅ C ) × D E \in \mathbb{R}^{(S^2 \cdot C) \times D} ER(S2C)×D线性投影矩阵
  • E pos ∈ R ( N + 1 ) × D E_{\text{pos}} \in \mathbb{R}^{(N+1) \times D} EposR(N+1)×D位置编码(加在 token embedding 上)
  • t x , 0 ∈ R ( N + 1 ) × D t_{x,0} \in \mathbb{R}^{(N+1) \times D} tx,0R(N+1)×D为第0层(第一层)Transformer Encoder的输入

M y M_y My M z M_z Mz执行相同的预处理,得到 t y , 0 t_{y,0} ty,0 t z , 0 t_{z,0} tz,0

Step 2 — 多头自注意力(MSA):
[ Q , K , V ] = FC ( t x , 0 ) (2) [Q, K, V] = \text{FC}(t_{x,0}) \tag{2} [Q,K,V]=FC(tx,0)(2)其中:

  • Q , K , V ∈ R ( N + 1 ) × d Q, K, V \in \mathbb{R}^{(N+1) \times d} Q,K,VR(N+1)×d分别为QueryKeyValue矩阵
  • MSA有 (n) 个头,满足 (D = n \times d)
  • FC为全连接层

每个注意力头独立计算:
head i = softmax ( Q i K i T d ) V i (3) \text{head}_i = \text{softmax}\left(\frac{Q_i K_i^T}{\sqrt{d}}\right) V_i \tag{3} headi=softmax(d QiKiT)Vi(3)

MSA拼接所有头:
MSA ( z x , 0 ) = Concat ( head 1 , head 2 , … , head n ) (4) \text{MSA}(z_{x,0}) = \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_n) \tag{4} MSA(zx,0)=Concat(head1,head2,,headn)(4)

Step 3 — Transformer Encoder层级计算:

每个Encoder层依次通过:Layer Normalization (LN) → MSA → LN → MLP,且均有残差连接: t x , l ′ = MSA ( LN ( t x , l − 1 ) ) + t x , l − 1 (5) t'_{x,l} = \text{MSA}(\text{LN}(t_{x,l-1})) + t_{x,l-1} \tag{5} tx,l=MSA(LN(tx,l1))+tx,l1(5) t x , l = MLP ( LN ( t x , l ′ ) ) + t x , l ′ (6) t_{x,l} = \text{MLP}(\text{LN}(t'_{x,l})) + t'_{x,l} \tag{6} tx,l=MLP(LN(tx,l))+tx,l(6)其中 l ∈ [ 1 , 2 , … , L ] l \in [1, 2, \ldots, L] l[1,2,,L]

Step 4 — MLP Head输出单视角预测:

每个Transformer Encoder的输出通过MLP Head(一个隐层 + 一个输出层)生成该视角的最终预测。 M x M_x Mx视角预测为 P x P_x Px M y , M z M_y, M_z My,Mz同理得 P y , P z P_y, P_z Py,Pz

4.2.4 Tri-MLP融合预测

三个视角预测送入Tri-MLP进行信息融合:
P T r i = MLP ( P x , P y , P z ) (7) P_{Tri} = \text{MLP}(P_x, P_y, P_z) \tag{7} PTri=MLP(Px,Py,Pz)(7)

5. 实验结果

5.1 评估指标说明

评估使用四个指标(全部在测试集上计算):

  • MAE 1 n ∑ ∣ y ^ i − y i ∣ \frac{1}{n}\sum |\hat{y}_i - y_i| n1y^iyi,越低越好,衡量预测精度
  • r r r(Spearman相关系数):预测年龄与真实年龄之间的单调关系,越接近1越好,衡量排序能力
  • ∣ r p ∣ |r_p| rp:真实年龄与BAG之间的Spearman相关系数的绝对值,越低越好,衡量年龄偏差(fairness)。 ∣ r p ∣ |r_p| rp高意味着BAG与年龄相关,即对不同年龄组预测偏差不同(年龄偏见)
  • R 2 R^2 R2(决定系数):预测年龄与真实年龄之间的线性拟合程度,越接近1越好

5.2 与SOTA对比

5.2.1 对比的12个模型(8类基准模型)

模型类别 模型 架构特点
经典3D CNN 5-layer CNN [41] 浅层3D CNN
经典3D CNN ResNet [42] 深残差3D CNN
经典3D CNN VGG16 [43] 深层3D CNN
经典3D CNN VGG19 [43] 更深层3D CNN
SOTA方法 Two-Stage-Age-Network 两阶段级联:第一阶段粗估计 → 第二阶段精调
SOTA方法 Global-Local Transformer [24] 2D切片输入,全局-局部注意力
SOTA方法 EfficientNet [43] 集成架构,仅单张切片训练
SOTA方法 Multiple Instance Neuroimage Transformer [35] 3D ViT:将2D patch改为3D block
SOTA方法 ITSVR [44] 改进双支持向量回归
SOTA方法 3D-TDR [34] 基于3D CNN的张量分布回归

5.2.2 性能对比表


关键结论

  • Triamese-ViT在MAE(3.85)、 r r r(0.94)、 ∣ r p ∣ |rp| rp(0.30)、 R 2 R² R2(0.81)四项指标上全部第一或并列第一
  • |rp|=0.30 意味着BAG与真实年龄几乎不相关(无年龄偏见),与ResNet (0.33) 和Global-Local Transformer (0.32) 同属最优档
  • 比3D ViT内存降低了0.63 GB(3.99 vs 4.62)
  • Two-Stage-Age-Network精度次优(MAE 3.93),但其两阶段设计增加了复杂度

5.3 消融实验

5.3.1 Patch大小S的选择

实验评估发现:

  • S太小(如S=4或5):灵敏度增加,但注意力图过于细粒度,引入噪声,损害可解释性
  • S太大(如S=10或更大):单个patch覆盖多个脑区,注意力图粒度不足,可能掩盖关键结构信息
  • S=7 为最优平衡:确保足够的灵敏度,同时保留有意义的空间结构特征
5.3.2 Tri-MLP层数的影响

MAE从4→6层先上升(欠拟合/梯度消失),6→9层持续下降(表达能力增强),9层达到最低点(最优复杂度-精度平衡),10层反弹(过拟合)。

5.3.3 Backbone替换实验

在Tri-MLP不变的情况下替换ViT backbone。结果表明,5-layer CNN尚可适配Triamese框架,但MAE退化了0.15。ResNet和VGG19完全不适配(MAE > 10),可能是因为其下采样率过高导致特征图尺寸无法匹配ViT的patch结构。
在这里插入图片描述

5.3.4 融合策略对比

三种不同的融合方式(融合后均接4层MLP生成预测):

融合方法 MAE r |r_p|
MLP融合(原始) 3.85 0.94 0.30 0.81
CBAM注意力融合 4.23 0.81 0.35 0.78
自注意力融合 6.57 0.52 0.41 0.64

CBAM虽然精度可以接受(MAE=4.23),但仍明显不如MLP;自注意力融合出人意料地差(MAE=6.57),可能是因为仅有三个视角向量时自注意力的表达能力不足。

5.3.5 单视角vs三视角

三种单视角ViT分别在不同维度上训练:

模型 维度 MAE r |r_p|
V i T x ViT_x ViTx (91, 109, 91) 4.42 0.88
V i T y ViT_y ViTy (91, 91, 109) 4.68 0.92 0.79
V i T z ViT_z ViTz (109, 91, 91) 5.29 0.86
V i T m a p ViT_{map} ViTmap(特征图拼接) 0.61 0.65
Triamese-ViT 3.85 0.94 0.30 0.81

重要发现

  • 三视角融合 MAE=3.85,比最好的单视角 ViT_y (MAE=4.68) 提升了 0.83——三视角确实带来了互补信息增益
    • ViT_y 的 r=0.92 最高,说明矢状面视角的排序能力最强
  • Triamese_map(将三个ViT的特征图拼接而非预测值拼接)的r=0.61最差,说明在预测层面融合比在特征层面拼接更有效
    • 仅Triamese_map表现出强负相关的年龄偏见——其他单视角模型都有一定的年龄偏见,三胞胎融合有效消除了偏见

5.4 可解释性分析

5.4.1 内建注意力图生成方法

由于3D MRI从三个视角输入ViT,自然获得三个不同视角的2D注意力图。生成3D类注意力图的步骤如下:

  1. 从ViT编码器最后一层提取每个视角的注意力权重
  2. 将每个2D注意力图扩展到3D(沿对应视角的深度维度复制)
  3. 对三个扩展后的3D注意力图取平均 → 得到复合3D注意力图

这种方法的优点是完全内建,不需要额外的后验模块或训练步骤。

5.4.2 遮挡敏感性分析

具体操作流程,如图5

  • 使用7×7×7体素的立方体遮挡掩码(将体素值置零)
  • 在整个脑体积上无重叠地滑动遮挡掩码
  • 每步计算遮挡前后的MAE变化:ΔMAE = MAE_occlusion − MAE_original
  • ΔMAE 越大 → 该区域对预测越重要
  • 所有位置的ΔMAE值构成显著性图(Saliency Map)

为什么不使用重叠滑动? 无重叠设计确保了每个7×7×7区域被独立评估,避免了重叠区域的信号混淆。

5.4.3 两种方法的阈值设定

  • 注意力图:关注值 > 3 的区域视为关键(全局归一化后)
  • 遮挡分析:ΔMAE > 4 的区域视为关键

5.4.4 两种方法的一致性结果(表5)

被识别为重要的脑区 注意力图 遮挡分析
Rolandic Operculum
Cingulum
Thalamus
Vermis
Insula
Caudate Nucleus
Putamen
Heschl’s Gyrus

两种方法共同确认了Rolandic Operculum、Cingulum和Thalamus为脑龄预测的关键区域——注意力图作为内建方法,其结论得到了经典XAI方法(遮挡分析)的交叉验证。

5.4.5 与Global-Local Transformer的可解释性对比(Fig. 7 vs Fig. 6)

维度 Global-Local Transformer [24] Triamese-ViT
覆盖范围 大面积颜色覆盖 点状/小区域清晰标注
结构辨识 难以定位具体脑结构 注意力值与具体结构清晰关联
视角 仅单一俯视图 x/y/z三个视角的3D信息
信息完整性 部分脑区信息 全脑3D综合信息


5.5 正常大脑衰老分析

5.5.1 分析方法

  • 将1351个健康样本按每10年分组(6-10, 10-20, …, 70-80)
  • 对每组内样本的注意力图按10年取平均
  • 全局归一化所有年龄组的注意力值:确保不同年龄图中相同强度对应相同数值

5.5.2 注意力值提取流程:

  1. 从图8提取三个视角的注意力图
  2. 每张图扩展为3D尺寸 (91×109×91)
  3. 三个3D图求均值 → 最终3D注意力值

5.5.3 各年龄段注意力特征(图8和9)

年龄段 注意力分布特征 神经生物学解读
6-10岁(儿童期) 注意力广泛分布 大脑快速发育期,多个区域同时经历显著的结构变化
10-30岁(青少年→青年) 注意力逐渐聚焦 发育趋于稳定,与年龄相关的早期结构变化开始显现
30-40岁(成年早期) 关注中线结构 白质开始出现与年龄相关的退化
40-50岁(中年) 深部脑结构频繁高亮 持续的深层结构性变化
50-60岁(中老年) 所有区域注意力值普遍上升 蚓部、丘脑、罗兰多岛盖最突出——可能与协调/平衡/感觉运动处理的衰老变化有关
60-70岁(老年) 注意力再次广泛分布 更多样化的结构性变化成为年龄估计的重要信号
70-80岁(高龄) 所有区域注意力值下降 广泛性脑萎缩导致个体间差异减少(模型的"判断信号"减弱)

5.5.4 关键脑区的生命周期注意力趋势

基于图9,按10个关键脑区追踪:

脑区 0s 10s 20s 30s 40s 50s 60s 70s 整体趋势
Thalamus 最高 保持高 ↑上升 ↓降 全生命周期的核心角色
Cingulum 保持 与丘脑并列为最稳定的关键区
Rolandic Operculum 最高 ↓降 ↑升高 ↑上升 儿童期和50-60岁两个高峰
Vermis ↑↑显著升 50-60岁达最大值
Inferior Frontal Gyrus ↓降 儿童期发育关键
Calcarine
Caudate Nucleus
Cuneus

最重要的发现:**丘脑(Thalamus)和扣带(Cingulum)**在整个生命周期中始终保持最高的注意力值,这印证了已有文献对它们在认知网络中的核心作用和对病理性衰老脆弱性的研究 [46, 47]。

5.6 ASD诊断贡献

5.6.1 ASD分析方法

关键机制:Triamese-ViT的注意力机制在训练阶段学习(固定),但在预测时注意力权重受输入特征影响——如果ASD数据与健康训练数据存在差异(脑结构/功能),自注意力机制会生成不同的注意力图。

操作流程:

  1. 用健康人数据训练Triamese-ViT(学习注意力权重)
  2. 将训练好的模型应用于ASD患者数据 → 生成ASD注意力图
  3. 以健康基线注意力图为参考,分析差异 → 识别ASD特异脑区

遮挡分析用于交叉验证:

  • 使用BAG差异而非MAE差异作为重要度指标:
    Importance = BAG original − BAG occlusion \text{Importance} = \text{BAG}_{\text{original}} - \text{BAG}_{\text{occlusion}} Importance=BAGoriginalBAGocclusion
  • 正值表示重要区域(遮挡后BAG减小 = 模型依赖该区域做出正确判断)
  • 负值表示次要区域

为什么用BAG差异而非MAE差异? ASD分析的目标不是预测精度(BAG对ASD无标签),而是评估模型对该区域的依赖程度——BAG的变化反映了区域对预测方向的影响。

5.6.2 ASD关键脑区发现(表V和Fig. 10)

脑区 注意力图(内建) 遮挡分析 已有医学证据
Thalamus [48]:ASD患者右侧后丘脑(枕核区)表面积扩大;[49]:ASD丘脑-感觉区静息态功能连接中断
Caudate Nucleus [50]:ASD儿童左右尾状核体积增大,执行功能适度缺陷
Rolandic Operculum
Cingulum

医学一致性:尾状核的发现与[50]的结论一致:ASD儿童左右尾状核体积比正常发育(TD)儿童大,并有适度执行功能缺陷。丘脑的发现得到[48](形态学改变)和[49](功能连接异常)的双重支持。

6. 讨论

6.1 与已有文献的交叉验证

Triamese-ViT识别的脑区与广泛医学研究一致:

  • Rolandic Operculum:卒中后的情感/淡漠抑郁症状 [51];阿尔茨海默症早期皮层吞咽控制缺陷 [52]
  • Cingulum:MCI和AD中的扣带纤维扩散张量成像变化 [54];帕金森病的胼胝体和扣带束成像 [55]
  • Thalamus:帕金森病和AD中的胆碱能神经传递参数变化 [56]
  • Vermis:与帕金森病未来步态损伤的功能连接 [57];Wernicke脑病的病理演化的MRI反映 [58]

6.2 局限性

  1. 注意力图高频波动:可能降低清晰度和可解释性 → 未来使用空间平滑注意力正则化降噪
  2. 仅使用T1-weighted MRI:未利用多模态数据

6.3 未来方向

  1. 多模态MRI整合:T1、T2、弥散加权图像联合输入 [59]
  2. 临床试验验证:在真实临床场景中评估Triamese-ViT的辅助诊断价值
  3. 个性化治疗方案:利用BAG和注意力图指导个性化的干预策略

7. 结论

Triamese-ViT通过独特的三视角ViT + MLP融合架构实现了:

  • SOTA精度:MAE=3.85,r=0.94
  • 高公平性:|r_p|=0.30(BAG与真实年龄几乎不相关)
  • 强内建可解释性:3D类注意力图无需任何后验处理,经遮挡分析交叉验证
  • 临床价值验证:识别的正常衰老关键脑区(Cingulum、Rolandic Operculum、Thalamus、Vermis)和ASD关键脑区(Thalamus、Caudate Nucleus)与已有医学文献高度一致

8. 参考文献与资源


*原论文发表于 IEEE Journal of Biomedical and Health Informatics, VOL. 29, NO. 11, NOVEMBER 2025。本文为详细翻译,仅供学习交流。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐