Lancet Digit Health（IF=24.1）牛津大学：基于Transformer的心血管病预防性治疗人群筛选

AI医影跨模态组学

361人浏览 · 2026-05-27 21:29:20

AI医影跨模态组学 · 2026-05-27 21:29:20 发布

文献信息

本次分享的文献是由牛津大学Kazem Rahimi教授团队联合牛津大学多个系、哈佛大学、奥克兰大学、Memorial Sloan Kettering癌症中心等多家机构于2025年6月在柳叶刀子刊《The Lancet Digital Health》（中科院1区top，IF=24.1）上发表的研究“Refined selection of individuals for preventive cardiovascular disease treatment with a transformer-based risk model”即基于Transformer模型的心血管疾病预防性治疗人群精细化筛选研究，该研究旨在通过深度学习的Transformer架构开发一个新的风险预测模型TRisk，用于预测未来10年内心血管疾病（CVD）事件风险。研究基于英国近300万成年人的电子健康记录（EHR），比较了TRisk与现行主流模型（如QRISK3、DeepSurv）的性能。结果表明，TRisk在总体人群及糖尿病亚群中均表现出显著更高的区分度（C-index约0.91），并能减少约三分之一被推荐治疗的人数，而不降低事件预防效果。

研究背景

1.研究问题

现有心血管疾病风险预测模型存在两大核心问题：

过度推荐治疗：传统统计模型（如QRISK3、SCORE2、ASCVD）虽广泛用于临床，但会将大量低风险人群误判为“高风险”，导致过度治疗（如英国30-79岁成人中约1/3被推荐治疗，但多数不会发生CVD事件）；

特殊人群模型缺失：对糖尿病等基础疾病人群，当前指南采用“全员治疗”策略，忽略个体风险差异（如部分糖尿病患者CVD风险较低，无需常规干预），模型在该类人群中适用性不足。

2.研究难点

数据处理局限：传统模型依赖专家驱动的特征工程，难以处理电子健康记录（EHR）中“多模态、变长时序”的数据（如诊断、药物、实验室检查的动态变化）；

亚组性能不稳定：传统模型对年龄依赖性强，在窄年龄范围、不同性别或社会经济地位亚组中性能显著下降；

决策平衡难题：难以同时实现“减少过度治疗”（降低高风险人群分类）和“避免漏判”（降低假阴性），二者常存在trade-off。

3.解决思路

架构创新：采用Transformer（基于BEHRT模型改进），利用其自动提取时序特征的能力，处理EHR多模态数据，无需人工特征工程；

生存分析适配：将BEHRT从二分类模型转为生存分析模型，解决随访数据中的“截尾问题”（如患者失访、研究结束时未发生事件）；

迁移学习优化：先在大样本一级预防人群训练模型，再在糖尿病患者中微调，适配高风险人群特征，避免单独建模的样本量不足问题。

研究目标

开发并验证TRisk模型，实现一级预防人群和糖尿病患者的10年CVD风险精准预测；

对比TRisk与现有基准模型（QRISK3、DeepSurv、SCORE2-Cox模型）的性能（鉴别能力、校准度、决策净获益）；

评估TRisk在不同亚组（年龄、性别、社会经济地位）中的稳定性，验证其对“弱势群体”的预测公平性；

量化TRisk的临床价值：在减少过度治疗的同时，确保CVD事件预防效果不降低。

Trisk模型架构

TRisk基于双向电子健康记录Transformer（BEHRT）改进，核心架构如下：

1. 输入层

多模态特征：涵盖EHR中4类核心数据，共6366个特征单元：3858种诊断、390类药物、1439项实验室检查、679个操作代码；

时序标注：每个特征单元关联患者“年龄”和“医疗服务接触时间”，形成变长时序序列（如患者A的诊断记录按“2010年（50岁）-2012年（52岁）”排序）；

无人工预处理：无需缺失值插补（直接保留缺失状态作为特征）、无需人口统计学特征（如性别、社会经济地位，模型通过时序数据自动捕捉相关信息）。

2. Transformer层

注意力机制：通过自注意力（Self-Attention）捕捉不同特征间的时序关联（如“高血压诊断+利尿剂使用”的组合对CVD风险的协同影响）；

双向编码：采用双向Transformer结构，同时考虑“基线前历史”的正向和反向时序依赖（如“实验室检查异常后调整药物”的因果关系）。

3. 生存分析输出层

风险函数建模：在Transformer输出后接入生存分析模块，基于Cox比例风险模型框架，输出患者的10年CVD风险概率；

截尾处理：通过对数似然损失函数优化，纳入截尾数据（如失访患者）的信息，避免偏倚。

4. 迁移学习适配

预训练阶段：在222万一级预防人群中训练模型，学习通用CVD风险时序模式；

微调阶段：在4.5万糖尿病患者中微调模型参数，适配“糖尿病+其他并发症”的特殊风险模式，提升高风险人群预测精度。

数据和方法

研究数据

数据来源：英国临床实践研究数据链（CPRD），覆盖291家诊所（训练）和98家诊所（验证）。

样本量：一级预防人群约297万，糖尿病患者约5.9万。

随访时间：中位2.5年（IQR0.8–5.9）。

结局定义：复合心血管事件（冠心病、缺血性卒中、短暂性脑缺血发作）。

表 1：一级预防人群推导集与验证集的人口特征

研究方法

对比模型：QRISK3、DeepSurv、基于SCORE2的Cox模型。

评估指标：C指数、校准曲线、决策曲线分析、临床影响分析（高风险人数、真阳性、假阴性）。

统计方法：使用TRIPOD+AI指南报告模型性能。

结果与分析

1.一级预防人群核心结果

（1）鉴别能力：TRisk显著优于基准模型

模型	C 指数（95% CI）	精确召回曲线下面积（AUC-PR）
TRisk	0.910 (0.906-0.913)	0.892
QRISK3	0.831 (0.826-0.835)	0.785
DeepSurv	0.846 (0.841-0.850)	0.801

（2）校准度：所有模型在临床阈值内表现良好

0-20%风险阈值（临床推荐治疗阈值范围）内，TRisk、QRISK3、DeepSurv的校准曲线均接近对角线；

仅QRISK3在高风险区间（>15%）略有高估（预测风险高于实际风险），TRisk校准最稳定。

图 2：决策曲线分析（DCA）

（3）风险分布：TRisk分类更极端，减少“中间模糊人群”

TRisk将23.5%患者归为“极低风险（<5%）”或“极高风险（>20%）”，而QRISK3仅12.1%；

基准模型风险分布集中在8%-15%，导致大量“中间风险人群”难以决策，TRisk可减少此类模糊分类。

图 1：模型校准图与预测风险分布

（4）临床影响：减少过度治疗且降低漏判

以1000名一级预防人群为基准，不同阈值下的对比结果：

10%阈值下，QRISK3高风险272人（真阳36、假阴9），TRisk高风险216人（↓20.6%，真阳40、假阴5）；

15%阈值下，QRISK3高风险187人（真阳29、假阴15），TRisk高风险178人（↓34.6%，真阳37、假阴8）；

20%阈值下，QRISK3高风险131人（真阳24、假阴21），TRisk高风险152人（真阳35、假阴10）。

此外，全员治疗全归高风险（真阳45），不治疗无高风险（假阴45）。

表 3：不同风险阈值下各模型的临床影响（标准化至 1000 人）

2.糖尿病患者核心结果

鉴别能力：TRisk的C指数（0.895，95%CI0.887-0.903）高于QRISK3（0.812）和DeepSurv（0.828）；

表 2：一级预防人群中各模型的鉴别性能（C 指数对比）

临床影响：

对比“全员治疗”策略：TRisk在10%阈值下减少24.3%治疗推荐（757/1000vs1000/1000），假阴性仅2例（0.2%）；

对比QRISK3（10%阈值）：TRisk减少12.6%高风险人群（757/1000vs866/1000），真阳性多1例（115vs114）。

3.亚组性能：TRisk稳定性更优

年龄亚组：在窄年龄范围（40-69岁）中，TRisk的C指数（0.902）较QRISK3（0.815）优势扩大（差值从0.079增至0.087）；

性别与社会经济亚组：TRisk在男性/女性、不同IMD分层中C指数差异<0.02，而QRISK3在贫困人群（IMD1分）中C指数下降0.05（从0.831降至0.781）。

结论

性能优势：TRisk在一级预防人群和糖尿病患者中，10年CVD风险预测的鉴别能力、校准度和决策净获益均显著优于传统模型（QRISK3、DeepSurv等）；

亚组稳定性：TRisk对年龄、性别、社会经济地位的依赖性低，在各亚组中性能一致，可减少健康不平等；

临床价值：TRisk可减少约1/3一级预防人群、1/4糖尿病患者的治疗推荐，同时降低假阴性率，实现“精准医疗+资源节约”双赢；

可及性：TRisk仅依赖常规EHR数据，无需额外检查（如基因检测、生物标志物），便于在基层医疗推广。

讨论

1.创新方向

技术创新：首次将Transformer架构用于CVD生存风险预测，突破传统模型“手工特征工程”的局限，自动挖掘EHR中的时序关联（如“药物调整后实验室指标变化”对风险的影响）；

方法创新：通过迁移学习实现“通用人群→特殊人群”的模型适配，解决糖尿病队列样本量不足的问题，为其他基础疾病（如慢性肾病）的风险预测提供范式；

评估创新：结合“决策曲线分析”和“临床影响量化”，从“统计性能”到“实际临床价值”形成闭环评估，避免模型仅停留在理论层面。

2.临床价值

减少过度医疗：按英国人口估算，TRisk可减少约350万一级预防人群的他汀/降压药推荐，降低药物不良反应（如他汀相关肌肉疼痛）和医疗成本；

优化糖尿病管理：替代“全员治疗”策略，使24.3%低风险糖尿病患者避免不必要治疗，同时确保高风险者不被漏判；

推动基层医疗效率：基层医生无需掌握复杂风险评分规则，TRisk可基于EHR自动输出风险分层，辅助快速决策。

3.局限性

数据代表性：仅基于英国CPRD数据，需在其他国家/地区（如美国、中国）进行外部验证，确认模型跨人群适用性；

随访时间：中位随访2.5年，部分患者缺乏完整10年随访数据，虽与同类研究一致，但长期预测精度需进一步验证；

可解释性：Transformer模型存在“黑箱”问题，虽BEHRT既往研究已挖掘部分风险因素（如缺铁性贫血与心衰关联），但TRisk的具体预测机制仍需更深入的解释性分析；

部署挑战：TRisk依赖完整EHR数据和计算资源，无法简化为“纸质评分表”，需开发轻量化工具（如离线计算模块）适配基层医疗的低算力环境。

4.未来展望

外部验证：在北美、欧洲、亚洲等不同医疗体系中验证TRisk性能，优化模型适配性；

多组学融合：纳入基因组、代谢组数据，提升对“罕见高风险人群”的预测精度；

实时部署：开发临床决策支持系统（CDSS），将TRisk集成到电子病历系统，实现“患者就诊时自动生成风险报告”；

长期效果评估：开展随机对照试验，对比“TRisk指导治疗”与“传统模型指导治疗”的长期CVD事件发生率，验证其因果效应。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AtomGit 2026年6月三方库下载量排行榜重磅发布！双榜格局稳固，生态深耕持续发力

AtomGit开源社区

G-Star 精选开源项目推荐｜第十八期

AtomGit开源社区

聚焦开发体验｜CANN 开发者 Meetup·开发体验专场上海站成功举办

AtomGit开源社区

所有评论(0)

查看更多评论

AI医影跨模态组学

@2501_92130875

已为社区贡献107条内容

Lancet Digit Health（IF=24.1）牛津大学：基于Transformer的心血管病预防性治疗人群筛选

AI医影跨模态组学

所有评论(0)

温馨提示：您尚未绑定手机号

AI医影跨模态组学