论文141:Current challenges and future directions for brain age prediction in children and adolescents
文章目录
1 要点
论文标题: Current challenges and future directions for brain age prediction in children and adolescents
作者: Lucy Whitmore¹ & Dani Beck²³
机构: ¹University of Oregon, USA / ²University of Oslo (PROMENTA Research Center), Norway / ³Diakonhjemmet Hospital, Norway
期刊: Nature Communications (2025) 16:7771
定义:儿童 ≈ 3–9岁(AAP Bright Futures指南),青少年 ≈ 10–19岁(WHO),youth涵盖两者
研究背景:
脑龄预测框架(Brain Age Prediction)通过MRI数据预测个体的生物学年龄,计算脑龄偏差(BAG = 预测年龄 − 实际年龄),BAG为正表示大脑比同龄人"更老",BAG为负表示"更年轻"。该框架在成人样本中广泛应用,近年来逐渐向儿童和青少年群体扩展。然而,儿童青少年的脑发育是高度动态、非线性的过程,直接套用成人的脑龄预测方法面临一系列独特挑战。
研究目标:系统性地梳理和批判在儿童/青少年群体中应用脑龄预测框架所面临的核心挑战,并提出各挑战的具体建议和未来方向。
核心内容:六大挑战与建议
| 挑战 | 核心问题 | 关键建议 |
|---|---|---|
| Issue 1: BAG的解读 | BAG在发育期不代表简单的“加速/减速成熟”,可能只是正常个体变异 | 用中性语言(“更年长/年轻的大脑”),发展多轴/区域性时钟 |
| Issue 2: 模型训练与样本 | 用成人模型预测儿童脑龄导致领域不匹配,样本量不足 | 训练集须代表目标人群,建议每6月年龄bin ~20例高质量扫描(总计~250-300人),绘制学习曲线 |
| Issue 3: 研究设计 | 横断面设计无法区分发育速度与时点差异 | 必须优先使用纵向设计,追踪同一个体的BAG变化轨迹 |
| Issue 4: 模型性能指标 | 青少年MAE(0.5-1.5岁)与成人MAE(3-6岁)不可直接比较,受年龄范围影响 | 报告MAE同时提供年龄范围,可选加归一化指标(MAE/年龄跨度),遵循BASE/BabyPy标准 |
| Issue 5: 非线性 | 脑发育高度非线性,但非线性/深度模型在当前数据规模下未必优于线性模型 | 先用简单模型(正则化线性/样条),仅在大样本+已验证非线性信号时考虑复杂模型 |
| Issue 6: 偏差与校正 | BAG天然与年龄相关("回归到均值"偏差:年轻者高估、年长者低估),多站点扫描仪效应 | 报告校正前后指标,协调参数仅在训练集学习后应用于测试集(避免数据泄露) |
2 引言
2.1 儿童青少年大脑发育的复杂性
人类大脑在童年和青少年期经历深刻的结构与功能变化 [1]:
- 灰质:体积减少、皮层厚度单调下降、表面积在儿童期增加、青少年期下降 [3]
- 白质:体积和FA增加、MD降低,反映微观结构成熟 [4]
- 功能连接:网络内连接增强(整合),网络间连接减弱(隔离)[5]
这些变化是动态、非线性、不同脑区异步的——例如皮层下结构(杏仁核、伏隔核)的成熟早于前额叶皮层 [53]。
2.2 脑龄预测框架
脑龄预测通过在大规模MRI数据集上训练模型(学习从脑特征预测年龄的模式),然后应用到新扫描数据,比较预测脑龄和实际年龄,计算脑龄偏差(BAG):
BAG = Predicted Age − Chronological Age \text{BAG} = \text{Predicted Age} - \text{Chronological Age} BAG=Predicted Age−Chronological Age
- BAG > 0:大脑比实际年龄"更老"(成人 = 衰退,青少年常被解读为"加速成熟")
- BAG < 0:大脑比实际年龄"更年轻"(成人 = 更健康,青少年常被解读为"延迟成熟")
BAG已在成人中与认知功能、心血管代谢健康、生活方式、精神障碍和神经退行性疾病建立了关联。
3 现有文献综述
3.1 精神健康
| BAG方向 | 关联的临床表型 | 代表性文献 |
|---|---|---|
| BAG < 0(更年轻) | 广泛性焦虑、ASD症状严重度、ADHD症状、CBCL评分升高、功能损伤加重 | [27-31] |
| BAG > 0(更年长) | 抑郁症、精神病风险、强迫症症状、精神分裂症诊断、一般精神病理 | [32-35] |
| 纵向变化 | 高风险青少年发展为心境障碍时BAG减速 [36];女性青少年内化问题与BAG加速 [37] |
关键警示:BAG具有预后信息潜力,但在获得跨扫描仪/管线的交叉验证、纵向证据和超越已有临床预测因子的增量效度之前,BAG仍是群体层面风险分层的研究指标,而非个体级临床生物标志物,其中误分类和污名化青少年的风险不容忽视。
3.2 身体与青春期发育
- 更早的青春期时间(“青春期年龄”)→ BAG更高 [39]
- 父母和孩子报告的青春期发育量表(PDS)分数→ BAG增高 [8,16]
- PDS分数的年度变化 → BAG的年度变化同步 [16]
- 初潮分类器概率(连续概率值)→ BAG正相关 [40]
- 初步证据:BAG与表观遗传衰老指标EpiAGE相关 [41];BAG及其纵向变化具有遗传性 [42]
3.3 认知
BAG与认知的关系极其模糊且矛盾:
- 部分研究报告正相关 [31]
- 部分报告负相关 [43]
- 部分报告无关系 [21]
- 同一研究内不同年龄范围或模型给出冲突结果 [8,44]
可能原因:认知测量工具差异巨大(从NIH Toolbox复合测验 [8,21] 到Penn CNB [45] 到特定任务 [31,46]),以及模型特征和样本的差异。
3.4 环境因素与生活经历
| 环境因素 | 与BAG的关系 | 文献 |
|---|---|---|
| 早产 | ↑ BAG更高 | [47] |
| 早年邻里劣势 | 青春期早期BAG↑,后期逐渐↓ | [48] |
| 社会经济劣势 + 不良经历复合 | ↑ BAG更高 | [32] |
| 童年虐待 | ↓ BAG更低(情绪回路模型) | [49] |
| 情绪忽视 | ↓ BAG更低(延迟成熟) | [23] |
| 照料者精神病理/创伤暴露/家庭攻击/物质使用/分离 | ↑ BAG更高(加速成熟) | [23] |
重要推论:不同维度逆境可能方向相反地影响BAG,例如忽视导致BAG降低,创伤导致BAG增高。共同经历者可能在BAG上表现"正常",但实际上是两种相反力量的平均抵消。
4 六大核心挑战
Issue 1:BAG在儿童青少年中到底代表什么?
问题本质:
- 现有研究未确定BAG的正常变异范围:多大偏差算"实质性加速/减速"?
- BAG的纵向稳定性未知:偏差会持续到成年吗?一个人BAG逐渐缩小/收敛常见吗?
- BAG将数千个特征压缩为一个全局分数 → 掩盖区域性差异:大脑可能在全局上"正常",但额叶延迟而皮层下结构加速(发育异步性)
- 成人的脑轨迹已较好建立(灰质减少、白质FA下降等),解释BAG相对直接;青少年脑轨迹非单调(如皮质表面积~10-11岁转折),使解读困难
- 成人样本中生活方式因素(运动、心血管风险、SES等)已累积数十年,青少年中这些效应可能尚未显现
建议:
- 在正常发育变异的背景下解读BAG,小偏差可能在典型发育范围内
- 报告置信区间和效应量,而非仅点估计值
- 谨慎用词:避免"加速/减速成熟"(尚未证明BAG反映发育时点/速度),改用中性表述——“更年长/更年轻的大脑"或"正/负BAG”
- 发展区域/模态特异性时钟:成人中已发现34个遗传相关的独立衰老轴[52],将此多轴框架适配到青少年可揭示BAG隐藏的组织特异性成熟滞后
- 报告特征贡献:使用vip(变量重要性图)和SHAP解释模型,即使权重图本身解释复杂 [67, 68]
Issue 2:模型训练与样本选择
问题本质:
- 领域不匹配:用成人数据训练模型预测青少年脑龄 → 预测不准 → BAG含义扭曲
- 样本量不足:青少年脑发育个体间变异极大(甚至需要上千人才能得到robust的脑-行为关联 [73]),小样本学习容易过拟合
- 不同算法类型的外推能力不同:随机森林的预测被限制在训练年龄范围内 [71];参数/核方法可数学上外推但不确定性极高
- 性别和青春期:男性青少年脑结构变异性 > 女性 [74];女性在14-16岁BAG高于男性约1岁(反映加速成熟),18岁时趋于收敛 [42]
建议:
- 确保训练数据代表目标人群(年龄/性别/青春期阶段)
- 绘制学习曲线来确定所需样本量的平台期:经验表明每6个月年龄窗口需要约20例高质量扫描;6年窗口(11-17岁)约需250-300人,但更大队列(>500人)仍有益于跨扫描仪/族裔泛化
- 样本不足时优先使用预训练模型而非在小数据上重新训练
- 训练集应包含异构扫描仪数据
- 考虑按性别或青春期状态分层建模
- 遵循BASE标准化评估框架 [76]
关于BAG的可重复性临界点:Marek等人 [73] 表明在高度变异的发育期,脑-行为全脑关联研究需要上千被试。脑龄模型虽然比全脑关联更有统计效力,但同样受样本量约束。250-300人是当前经验上的实用下限,但跨站点泛化和微小效应检测需要更大规模。
Issue 3:研究设计——横断面 vs 纵向
问题本质:
- 横截面研究无法区分发育速度与发育时点:当一个组比另一个组BAG低,是发育更慢?还是发育时间点不同?还是纯属取样误差?
- 尤其在儿童青少年期,数据呈现变化剧烈、个体间异质,横截面估计极易混淆组差异与发育差异
- 唯一能回答"加速/减速"问题的设计是纵向:追踪同一个体随时间的变化
纵向已有证据示例:
- Rakesh等人 [48]:邻里劣势 → 青春期早期BAG↑ → 后期BAG减速。如果不纵向追踪,这个时序效应不可见
建议:
- 纵向数据是必需的,不是可选选项——尤其在声称"非典型发育"时
- 纵向设计可以揭示:
- BAG偏差是暂时性还是持续性风险指标
- BAG变化速率与临床/行为评估的关联
- 敏感期/转折点
为什么成人的横截面能用而青少年不行? 成人脑衰老轨迹近似线性且个体差异相对较小。青少年脑发育高度非线性(灰质先增后减、白质持续增加、不同脑区异步),个体差异极大 [51]。同一实际年龄的两个青少年可能在发育曲线上处于完全不同的位置。
Issue 4:模型性能指标
问题本质:
| 年龄组 | 典型MAE | 为什么不可直接比较 |
|---|---|---|
| 青少年 | 0.5–1.5岁 | 年龄范围窄(通常5-10年跨度) |
| 成人 | 3–6岁 | 年龄范围宽(通常30-60年跨度) |
- MAE天然与年龄范围成正比:年龄跨度越大,结构变异性越大 → MAE越大
- 举例:青少年MAE=0.35岁 vs 成人MAE=3.5岁——看似10倍差距,但两者都约等于各自年龄跨度的**~7%**((14-9)/0.35 ≈ (87-40)/3.5)
- R²也受相同效应影响:窄范围降低变异 → 人工压低R²
建议:
- 报告MAE的同时必须报告测试集年龄范围
- 跨研究比较时可选加归一化指标(如MAE/年龄跨度)
- 报告交叉验证每折的预测R²(而非单一均值),遵循BASE [76] 和BabyPy [82] 指南
- 开发共享参考数据集和基准测试框架——对稀缺的青少年独立队列评估尤为重要
Issue 5:非线性
问题本质:
- 儿童脑发育高度非线性(非单调:如表面积先增后减;区域异步:如前额叶 vs 皮层下)
- 理论预期非线性模型(核方法、深度网络)可更好捕获此复杂性 → 实际上不一定
- Schulz等人 [83] 关键发现:当数据集注入高水平噪声时,核方法和深度模型表现不比线性模型好,这是因为噪声淹没了高阶模式
- 大多数神经发育数据集样本小 + 测量噪声大 → 非线性信号不足
- 深度卷积架构假设平移不变性和组合性结构——在固定解剖结构的人脑中不一定成立
建议:
| 条件 | 推荐方法 |
|---|---|
| 样本量小或噪声大(多数现状) | 正则化线性模型、样条(spline)、多项式 |
| 大样本 + 已验证的非线性信号 | 高斯过程回归、XGBoost、SVM核方法、带正则化的神经网络 |
| 无论哪种方法 | 避免过度拟合——完美的年龄预测反而消除BAG的有意义方差 |
| 长期方向 | 开发多轴/模态特异时钟——将非线性成熟分为不同的衰老轨迹 |
核心逻辑:如果模型过度拟合,"BAG = 0"意味着什么偏差都没有 → BAG作为生物标志物完全失去意义。因此适度的预测误差(即合理的MAE)是BAG有意义的前提。
Issue 6:偏差与校正
问题本质:回归到均值偏差:
Smith等人 [90] 证明了:原始BAG天然与年龄相关
BAG = y ^ − y \text{BAG} = \hat{y} - y BAG=y^−y因为 y ^ \hat{y} y^是回归估计值,必然向均值收缩 → 年轻人被高估(BAG为正)、老年人被低估(BAG为负)
极端情况:如果MRI特征完全没有年龄信号,BAG退化为年龄的简单线性函数。任何下游关联分析(BAG与认知/精神病理/环境风险的相关)本质上只是在重复年龄效应。
校正方法及代价:
| 方法 | 原理 | 代价 |
|---|---|---|
| 回归剔除年龄效应 | BAG对年龄回归取残差 | 可能人工膨胀R²并降低误差指标 [93] |
| 纳入年龄为协变量 | 在分析中以年龄为控制变量 | 较保守但统计效力降低 |
| 斜率和截距调整 [91,92] | 对原始预测进行线性缩放 | 仍可能过校正或欠校正 |
| 多站点协调(ComBat等) [88,97] | 减少扫描仪引入的特征方差 | 必须只在训练集学习参数后应用于测试集——在全量数据上估计参数会导致数据泄露 |
数据泄露的具体机制:
- 在整个数据集上估计协调参数再划分 → 测试集信息泄漏到训练
- 分别在训练和测试集上重新估计协调参数 → 训练和测试特征在不同尺度上,不可比
- 正确做法:只在训练分区拟合协调参数,然后以固定变换形式应用到测试分区
当前无共识:没有哪种校正方法被公认最优。推荐报告校正前后指标,可视化残差随年龄的分布。
4. 总结与未来方向
| 维度 | 核心问题 | 具体建议 |
|---|---|---|
| 1. BAG解读 | BAG在发育期的生物学含义不明确 | 使用纵向数据追踪BAG稳定性与动态;中性语言;发展区域/多模态时钟 |
| 2. 模型训练 | 成人模型不适合青少年,样本不足 | 训练集代表目标人群;绘学习曲线确认平台;>250-300人为起点;跨扫描仪异构训练 |
| 3. 研究设计 | 横截面混淆发育差异与组差异 | 优先纵向设计;追踪同一个体的BAG变化轨迹 |
| 4. 性能指标 | MAE/R²不可跨年龄范围比较 | 报告多个指标 + 年龄范围 + 可选归一化值;遵循BASE/BabyPy标准 |
| 5. 非线性 | 非线性模型不一定优于线性模型 | 从简单模型开始,仅在样本充足+信号确证时升级;避免过拟合 |
| 6. 偏差与校正 | BAG天然与年龄相关,多站点扫描仪效应 | 评估原始偏差;报告校正前后指标;协调参数仅在训练集学习 → 固定应用于测试集 |
未来方向:
- 建立标准化最佳实践:针对青少年脑龄预测的统一操作规范
- 多轴/模态特异时钟:成人的数据驱动分析已发现多个正交衰老轴 [52] 和组织特异性模型(如BrainAgeNeXt [103])——将这些适配到青少年队列
- 开放科学:预注册研究、共享模型代码和权重图、提供详细方法论
- 临床转化路径:BAG需要与年龄/性别特异参考曲线(类似Bethlehem等人的脑形态图表 [38])对标,在纵向队列中证明增量效度
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)