1 要点

论文标题: Current challenges and future directions for brain age prediction in children and adolescents
作者: Lucy Whitmore¹ & Dani Beck²³
机构: ¹University of Oregon, USA / ²University of Oslo (PROMENTA Research Center), Norway / ³Diakonhjemmet Hospital, Norway
期刊: Nature Communications (2025) 16:7771
定义:儿童 ≈ 3–9岁(AAP Bright Futures指南),青少年 ≈ 10–19岁(WHO),youth涵盖两者

研究背景
脑龄预测框架(Brain Age Prediction)通过MRI数据预测个体的生物学年龄,计算脑龄偏差(BAG = 预测年龄 − 实际年龄),BAG为正表示大脑比同龄人"更老",BAG为负表示"更年轻"。该框架在成人样本中广泛应用,近年来逐渐向儿童和青少年群体扩展。然而,儿童青少年的脑发育是高度动态、非线性的过程,直接套用成人的脑龄预测方法面临一系列独特挑战。

研究目标:系统性地梳理和批判在儿童/青少年群体中应用脑龄预测框架所面临的核心挑战,并提出各挑战的具体建议和未来方向。

核心内容:六大挑战与建议

挑战 核心问题 关键建议
Issue 1: BAG的解读 BAG在发育期不代表简单的“加速/减速成熟”,可能只是正常个体变异 用中性语言(“更年长/年轻的大脑”),发展多轴/区域性时钟
Issue 2: 模型训练与样本 用成人模型预测儿童脑龄导致领域不匹配,样本量不足 训练集须代表目标人群,建议每6月年龄bin ~20例高质量扫描(总计~250-300人),绘制学习曲线
Issue 3: 研究设计 横断面设计无法区分发育速度与时点差异 必须优先使用纵向设计,追踪同一个体的BAG变化轨迹
Issue 4: 模型性能指标 青少年MAE(0.5-1.5岁)与成人MAE(3-6岁)不可直接比较,受年龄范围影响 报告MAE同时提供年龄范围,可选加归一化指标(MAE/年龄跨度),遵循BASE/BabyPy标准
Issue 5: 非线性 脑发育高度非线性,但非线性/深度模型在当前数据规模下未必优于线性模型 先用简单模型(正则化线性/样条),仅在大样本+已验证非线性信号时考虑复杂模型
Issue 6: 偏差与校正 BAG天然与年龄相关("回归到均值"偏差:年轻者高估、年长者低估),多站点扫描仪效应 报告校正前后指标,协调参数仅在训练集学习后应用于测试集(避免数据泄露)

2 引言

2.1 儿童青少年大脑发育的复杂性

人类大脑在童年和青少年期经历深刻的结构与功能变化 [1]:

  • 灰质:体积减少、皮层厚度单调下降、表面积在儿童期增加、青少年期下降 [3]
  • 白质:体积和FA增加、MD降低,反映微观结构成熟 [4]
  • 功能连接:网络内连接增强(整合),网络间连接减弱(隔离)[5]

这些变化是动态、非线性、不同脑区异步的——例如皮层下结构(杏仁核、伏隔核)的成熟早于前额叶皮层 [53]。

2.2 脑龄预测框架

脑龄预测通过在大规模MRI数据集上训练模型(学习从脑特征预测年龄的模式),然后应用到新扫描数据,比较预测脑龄实际年龄,计算脑龄偏差(BAG)
BAG = Predicted Age − Chronological Age \text{BAG} = \text{Predicted Age} - \text{Chronological Age} BAG=Predicted AgeChronological Age

  • BAG > 0:大脑比实际年龄"更老"(成人 = 衰退,青少年常被解读为"加速成熟")
  • BAG < 0:大脑比实际年龄"更年轻"(成人 = 更健康,青少年常被解读为"延迟成熟")

BAG已在成人中与认知功能、心血管代谢健康、生活方式、精神障碍和神经退行性疾病建立了关联。

3 现有文献综述

3.1 精神健康

BAG方向 关联的临床表型 代表性文献
BAG < 0(更年轻) 广泛性焦虑、ASD症状严重度、ADHD症状、CBCL评分升高、功能损伤加重 [27-31]
BAG > 0(更年长) 抑郁症、精神病风险、强迫症症状、精神分裂症诊断、一般精神病理 [32-35]
纵向变化 高风险青少年发展为心境障碍时BAG减速 [36];女性青少年内化问题与BAG加速 [37]

关键警示:BAG具有预后信息潜力,但在获得跨扫描仪/管线的交叉验证、纵向证据和超越已有临床预测因子的增量效度之前,BAG仍是群体层面风险分层的研究指标,而非个体级临床生物标志物,其中误分类和污名化青少年的风险不容忽视。

3.2 身体与青春期发育

  • 更早的青春期时间(“青春期年龄”)→ BAG更高 [39]
  • 父母和孩子报告的青春期发育量表(PDS)分数→ BAG增高 [8,16]
  • PDS分数的年度变化 → BAG的年度变化同步 [16]
  • 初潮分类器概率(连续概率值)→ BAG正相关 [40]
  • 初步证据:BAG与表观遗传衰老指标EpiAGE相关 [41];BAG及其纵向变化具有遗传性 [42]

3.3 认知

BAG与认知的关系极其模糊且矛盾

  • 部分研究报告正相关 [31]
  • 部分报告负相关 [43]
  • 部分报告无关系 [21]
  • 同一研究内不同年龄范围或模型给出冲突结果 [8,44]

可能原因:认知测量工具差异巨大(从NIH Toolbox复合测验 [8,21] 到Penn CNB [45] 到特定任务 [31,46]),以及模型特征和样本的差异。

3.4 环境因素与生活经历

环境因素 与BAG的关系 文献
早产 ↑ BAG更高 [47]
早年邻里劣势 青春期早期BAG↑,后期逐渐↓ [48]
社会经济劣势 + 不良经历复合 ↑ BAG更高 [32]
童年虐待 ↓ BAG更低(情绪回路模型) [49]
情绪忽视 ↓ BAG更低(延迟成熟) [23]
照料者精神病理/创伤暴露/家庭攻击/物质使用/分离 ↑ BAG更高(加速成熟) [23]

重要推论:不同维度逆境可能方向相反地影响BAG,例如忽视导致BAG降低,创伤导致BAG增高。共同经历者可能在BAG上表现"正常",但实际上是两种相反力量的平均抵消。

4 六大核心挑战

Issue 1:BAG在儿童青少年中到底代表什么?

问题本质

  • 现有研究未确定BAG的正常变异范围:多大偏差算"实质性加速/减速"?
  • BAG的纵向稳定性未知:偏差会持续到成年吗?一个人BAG逐渐缩小/收敛常见吗?
  • BAG将数千个特征压缩为一个全局分数 → 掩盖区域性差异:大脑可能在全局上"正常",但额叶延迟而皮层下结构加速(发育异步性)
  • 成人的脑轨迹已较好建立(灰质减少、白质FA下降等),解释BAG相对直接;青少年脑轨迹非单调(如皮质表面积~10-11岁转折),使解读困难
  • 成人样本中生活方式因素(运动、心血管风险、SES等)已累积数十年,青少年中这些效应可能尚未显现

建议

  1. 在正常发育变异的背景下解读BAG,小偏差可能在典型发育范围内
  2. 报告置信区间和效应量,而非仅点估计值
  3. 谨慎用词:避免"加速/减速成熟"(尚未证明BAG反映发育时点/速度),改用中性表述——“更年长/更年轻的大脑"或"正/负BAG”
  4. 发展区域/模态特异性时钟:成人中已发现34个遗传相关的独立衰老轴[52],将此多轴框架适配到青少年可揭示BAG隐藏的组织特异性成熟滞后
  5. 报告特征贡献:使用vip(变量重要性图)和SHAP解释模型,即使权重图本身解释复杂 [67, 68]

Issue 2:模型训练与样本选择

问题本质

  • 领域不匹配:用成人数据训练模型预测青少年脑龄 → 预测不准 → BAG含义扭曲
  • 样本量不足:青少年脑发育个体间变异极大(甚至需要上千人才能得到robust的脑-行为关联 [73]),小样本学习容易过拟合
  • 不同算法类型的外推能力不同:随机森林的预测被限制在训练年龄范围内 [71];参数/核方法可数学上外推但不确定性极高
  • 性别和青春期:男性青少年脑结构变异性 > 女性 [74];女性在14-16岁BAG高于男性约1岁(反映加速成熟),18岁时趋于收敛 [42]

建议

  1. 确保训练数据代表目标人群(年龄/性别/青春期阶段)
  2. 绘制学习曲线来确定所需样本量的平台期:经验表明每6个月年龄窗口需要约20例高质量扫描;6年窗口(11-17岁)约需250-300人,但更大队列(>500人)仍有益于跨扫描仪/族裔泛化
  3. 样本不足时优先使用预训练模型而非在小数据上重新训练
  4. 训练集应包含异构扫描仪数据
  5. 考虑按性别或青春期状态分层建模
  6. 遵循BASE标准化评估框架 [76]

关于BAG的可重复性临界点:Marek等人 [73] 表明在高度变异的发育期,脑-行为全脑关联研究需要上千被试。脑龄模型虽然比全脑关联更有统计效力,但同样受样本量约束。250-300人是当前经验上的实用下限,但跨站点泛化和微小效应检测需要更大规模。

Issue 3:研究设计——横断面 vs 纵向

问题本质

  • 横截面研究无法区分发育速度与发育时点:当一个组比另一个组BAG低,是发育更慢?还是发育时间点不同?还是纯属取样误差?
  • 尤其在儿童青少年期,数据呈现变化剧烈、个体间异质,横截面估计极易混淆组差异与发育差异
  • 唯一能回答"加速/减速"问题的设计是纵向:追踪同一个体随时间的变化

纵向已有证据示例

  • Rakesh等人 [48]:邻里劣势 → 青春期早期BAG↑ → 后期BAG减速。如果不纵向追踪,这个时序效应不可见

建议

  • 纵向数据是必需的,不是可选选项——尤其在声称"非典型发育"时
  • 纵向设计可以揭示:
    • BAG偏差是暂时性还是持续性风险指标
    • BAG变化速率与临床/行为评估的关联
    • 敏感期/转折点

为什么成人的横截面能用而青少年不行? 成人脑衰老轨迹近似线性且个体差异相对较小。青少年脑发育高度非线性(灰质先增后减、白质持续增加、不同脑区异步),个体差异极大 [51]。同一实际年龄的两个青少年可能在发育曲线上处于完全不同的位置。

Issue 4:模型性能指标

问题本质

年龄组 典型MAE 为什么不可直接比较
青少年 0.5–1.5岁 年龄范围窄(通常5-10年跨度)
成人 3–6岁 年龄范围宽(通常30-60年跨度)
  • MAE天然与年龄范围成正比:年龄跨度越大,结构变异性越大 → MAE越大
  • 举例:青少年MAE=0.35岁 vs 成人MAE=3.5岁——看似10倍差距,但两者都约等于各自年龄跨度的**~7%**((14-9)/0.35 ≈ (87-40)/3.5)
  • R²也受相同效应影响:窄范围降低变异 → 人工压低R²

建议

  1. 报告MAE的同时必须报告测试集年龄范围
  2. 跨研究比较时可选加归一化指标(如MAE/年龄跨度)
  3. 报告交叉验证每折的预测R²(而非单一均值),遵循BASE [76] 和BabyPy [82] 指南
  4. 开发共享参考数据集和基准测试框架——对稀缺的青少年独立队列评估尤为重要

Issue 5:非线性

问题本质

  • 儿童脑发育高度非线性(非单调:如表面积先增后减;区域异步:如前额叶 vs 皮层下)
  • 理论预期非线性模型(核方法、深度网络)可更好捕获此复杂性 → 实际上不一定
  • Schulz等人 [83] 关键发现:当数据集注入高水平噪声时,核方法和深度模型表现不比线性模型好,这是因为噪声淹没了高阶模式
  • 大多数神经发育数据集样本小 + 测量噪声大 → 非线性信号不足
  • 深度卷积架构假设平移不变性和组合性结构——在固定解剖结构的人脑中不一定成立

建议

条件 推荐方法
样本量小或噪声大(多数现状) 正则化线性模型、样条(spline)、多项式
大样本 + 已验证的非线性信号 高斯过程回归、XGBoost、SVM核方法、带正则化的神经网络
无论哪种方法 避免过度拟合——完美的年龄预测反而消除BAG的有意义方差
长期方向 开发多轴/模态特异时钟——将非线性成熟分为不同的衰老轨迹

核心逻辑:如果模型过度拟合,"BAG = 0"意味着什么偏差都没有 → BAG作为生物标志物完全失去意义。因此适度的预测误差(即合理的MAE)是BAG有意义的前提。

Issue 6:偏差与校正

问题本质:回归到均值偏差
Smith等人 [90] 证明了:原始BAG天然与年龄相关
BAG = y ^ − y \text{BAG} = \hat{y} - y BAG=y^y因为 y ^ \hat{y} y^是回归估计值,必然向均值收缩 → 年轻人被高估(BAG为正)、老年人被低估(BAG为负)

极端情况:如果MRI特征完全没有年龄信号,BAG退化为年龄的简单线性函数。任何下游关联分析(BAG与认知/精神病理/环境风险的相关)本质上只是在重复年龄效应。

校正方法及代价

方法 原理 代价
回归剔除年龄效应 BAG对年龄回归取残差 可能人工膨胀R²并降低误差指标 [93]
纳入年龄为协变量 在分析中以年龄为控制变量 较保守但统计效力降低
斜率和截距调整 [91,92] 对原始预测进行线性缩放 仍可能过校正或欠校正
多站点协调(ComBat等) [88,97] 减少扫描仪引入的特征方差 必须只在训练集学习参数后应用于测试集——在全量数据上估计参数会导致数据泄露

数据泄露的具体机制

  • 在整个数据集上估计协调参数再划分 → 测试集信息泄漏到训练
  • 分别在训练和测试集上重新估计协调参数 → 训练和测试特征在不同尺度上,不可比
  • 正确做法:只在训练分区拟合协调参数,然后以固定变换形式应用到测试分区

当前无共识:没有哪种校正方法被公认最优。推荐报告校正前后指标,可视化残差随年龄的分布。

4. 总结与未来方向

维度 核心问题 具体建议
1. BAG解读 BAG在发育期的生物学含义不明确 使用纵向数据追踪BAG稳定性与动态;中性语言;发展区域/多模态时钟
2. 模型训练 成人模型不适合青少年,样本不足 训练集代表目标人群;绘学习曲线确认平台;>250-300人为起点;跨扫描仪异构训练
3. 研究设计 横截面混淆发育差异与组差异 优先纵向设计;追踪同一个体的BAG变化轨迹
4. 性能指标 MAE/R²不可跨年龄范围比较 报告多个指标 + 年龄范围 + 可选归一化值;遵循BASE/BabyPy标准
5. 非线性 非线性模型不一定优于线性模型 从简单模型开始,仅在样本充足+信号确证时升级;避免过拟合
6. 偏差与校正 BAG天然与年龄相关,多站点扫描仪效应 评估原始偏差;报告校正前后指标;协调参数仅在训练集学习 → 固定应用于测试集

未来方向

  1. 建立标准化最佳实践:针对青少年脑龄预测的统一操作规范
  2. 多轴/模态特异时钟:成人的数据驱动分析已发现多个正交衰老轴 [52] 和组织特异性模型(如BrainAgeNeXt [103])——将这些适配到青少年队列
  3. 开放科学:预注册研究、共享模型代码和权重图、提供详细方法论
  4. 临床转化路径:BAG需要与年龄/性别特异参考曲线(类似Bethlehem等人的脑形态图表 [38])对标,在纵向队列中证明增量效度
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐