从医疗 AI 到Steerable医学世界模型:一个开发者视角的系统架构拆解
摘要:医疗 AI 过去主要解决“看懂医学数据”的问题,AI 制药主要解决“发现候选干预工具”的问题。但医学中更难的问题是:当一种干预进入真实人体后,是否能够安全、可解释、可验证地改变疾病或健康轨迹?这类问题需要把患者状态、干预、时间轨迹、因果推断、反事实比较、机制约束和真实世界反馈放进同一个系统框架中。本文从开发者和系统架构角度,讨论“医学世界模型”(Biomedical / Medical World Model)可能需要哪些模块、为什么它不是一个普通医学大模型,以及构建这类系统时必须注意的科学边界。
0. 先说明:这不是临床系统设计方案
本文讨论的是一个早期研究方向和系统架构思想,不是已经完成的临床产品设计。
文中的代码均为概念性伪代码,仅用于说明系统模块,不构成临床软件实现,不能用于诊断、治疗、用药选择或个体化健康建议。
医学世界模型目前仍处于早期研究和概念探索阶段。它的输出更适合被理解为:
- 可检验假设;
- 研究辅助;
- 决策支持;
- 证据链组织工具。
而不是:
- 临床事实;
- 疗效证明;
- 自动诊疗系统;
- 监管认可产品。
1. 为什么医疗 AI 和 AI 制药之间还缺一层?
过去十多年,医疗 AI 最成熟的方向主要包括:
- 医学影像识别;
- 病历结构化;
- 临床风险预测;
- 医学问答;
- 辅助分诊;
- 临床文书生成;
- 医学知识检索与总结。
这些系统主要回答:
医学数据中已经发生了什么?
患者当前风险有多高?
这份病历表达了什么?
这张影像是否存在异常?
而 AI 制药主要回答:
能否更快发现一个靶点?
能否生成候选分子?
能否预测分子与蛋白的相互作用?
能否优化毒性、成药性和筛选效率?
这些都很重要。
但医学最终关心的不是“模型是否识别正确”,也不只是“有没有一个候选分子”。
医学真正难的问题是:
如果对某个患者或某类患者施加某种干预,
未来疾病或健康轨迹是否会发生改变?
这种改变是否安全?
是否符合机制?
是否可被随访验证?
如果失败,原因是什么?
这就是医学世界模型要进入的空间。
2. 一句话理解医学世界模型
如果用工程语言来概括:
Medical AI:
medical data → recognition / extraction / prediction
AI Drug Discovery:
biological target / molecule space → candidate intervention
Biomedical World Model:
state + intervention + time + mechanism + counterfactual + feedback
→ testable trajectory hypothesis
也就是说,医学世界模型不是一个“更大的医学聊天机器人”,也不是一个普通风险预测模型。
它更像是一个围绕医学干预建立的动态系统:
患者状态 → 干预输入 → 轨迹假设 → 反事实场景比较 → 随访反馈 → 模型校准 → 证据链审计
注意,这里说的是轨迹假设,不是“治疗效果证明”。
3. 普通预测模型和医学世界模型的区别
普通预测模型通常做的是:
P(outcome | current_state)
例如:
给定当前患者状态,预测未来 5 年心血管事件风险。
但医学世界模型更关心:
P(future_state | current_state, intervention, mechanism, context)
也就是:
给定当前状态 S,
施加某种干预 A,
在某些机制约束 M 和上下文 C 下,
未来状态 S' 可能如何变化?
可以抽象为:
S_t + A_t + M + C → S_t+1
其中:
S_t:当前患者状态;A_t:干预;M:机制约束;C:上下文,包括年龄、疾病阶段、合并症、环境、生活方式等;S_t+1:未来状态假设;Feedback:真实随访数据;Uncertainty:不确定性表达。
4. 一个医学世界模型的最小系统架构
从系统开发角度看,一个医学世界模型至少需要以下 7 个模块:
[1] Patient State Representation 患者状态表征层
[2] Intervention Representation 干预表示层
[3] Transition Hypothesis Model 状态转移假设模型
[4] Counterfactual Scenario Engine 反事实场景比较模块
[5] Mechanism Constraint Layer 机制约束层
[6] Feedback Calibration Loop 反馈校准闭环
[7] Audit & Uncertainty Layer 审计与不确定性层
可以用一个简化架构表示:
Multi-modal Medical Data
EHR / Imaging / Omics / Wearables / Lifestyle / Follow-up
↓
Patient State Representation
↓
Intervention Representation
↓
Trajectory Hypothesis Generation
↓
Counterfactual Scenario Comparison
↓
Mechanistic Plausibility Check
↓
Feedback Calibration
↓
Audit & Evidence Report
核心不是“预测一个答案”,而是组织一个可以被验证、被审计、被修正的医学假设链条。
5. 状态表征层:医学世界模型的输入不是一句 Prompt
很多医学大模型以文本为核心输入,例如:
患者 65 岁,高血压、糖尿病病史,近期胸闷……
但医学世界模型需要的“状态”远远不只是文本。
一个患者状态可能包括:
- 临床诊断;
- 病历文本;
- 既往病史;
- 用药记录;
- 实验室检查;
- 医学影像;
- 基因组数据;
- 转录组、蛋白组、代谢组;
- DNA 甲基化等表观遗传信息;
- 可穿戴设备数据;
- 睡眠、运动、饮食;
- 功能测试;
- 症状评分;
- 纵向随访数据。
可以抽象成一个结构化对象:
{
"patient_state": {
"clinical_history": {},
"lab_tests": {},
"imaging_features": {},
"omics": {},
"lifestyle": {},
"functional_measures": {},
"longitudinal_records": [],
"data_quality_notes": []
}
}
但是医学数据有几个典型问题:
1. 缺失严重
2. 标准不统一
3. 噪声较大
4. 不同医院和检测平台存在差异
5. 患者群体异质性强
6. 很多关键变量没有被记录
因此,状态表征不是简单做 embedding,而是一个包含数据清洗、标准化、对齐、缺失处理、不确定性标注和医学语义约束的复杂工程。
6. 干预表示层:医学世界模型必须能表示 Action
如果一个系统只建模患者状态,却不建模干预,那它最多是一个风险预测模型。
医学世界模型必须能表示:
做了什么?
什么时候做?
剂量是多少?
持续多久?
针对什么机制?
预期改变什么?
安全边界是什么?
干预可以包括:
- 药物;
- 剂量调整;
- 手术;
- 放疗;
- 营养;
- 运动;
- 睡眠;
- 行为改变;
- 多药联合;
- 不干预或观察等待。
一个干预对象可以简化为:
{
"intervention": {
"type": "lifestyle",
"name": "exercise_and_sleep_optimization",
"duration": "12_weeks",
"target_pathway": "metabolic_and_inflammatory_resilience",
"expected_direction": "improve",
"safety_constraints": [
"avoid_overtraining",
"monitor_existing_conditions"
]
}
}
这里的关键是:干预不是自由文本,而应该被结构化、可比较、可追踪。
7. 状态转移模型:从风险预测到轨迹假设生成
传统风险模型输出可能是:
未来 5 年风险 = 28%
但医学世界模型更关心:
如果施加干预 A,
哪些状态变量可能先变化?
哪些指标可能后变化?
哪些变化只是短期波动?
哪些变化可能代表真实获益?
是否存在副作用或补偿性反应?
因此,状态转移模型不是单点预测,而是轨迹假设生成。
更稳妥的输出不应该是:
该干预有效。
而应该是:
{
"trajectory_hypothesis": [
{
"time": "4_weeks",
"variable": "target_biomarker",
"expected_direction": "improve",
"confidence": "low"
},
{
"time": "12_weeks",
"variable": "functional_measure",
"expected_direction": "uncertain",
"confidence": "low"
}
],
"evidence_level": "hypothesis_generating",
"uncertainty": "high",
"clinical_validation_status": "not_validated",
"not_for_clinical_use": true
}
这类输出的重点是:帮助研究者组织假设,而不是直接给出治疗结论。
8. 反事实场景比较:医学世界模型的核心难点
医学中最重要的问题通常不是:
这个患者未来会怎样?
而是:
如果不干预,会怎样?
如果换一种干预,会怎样?
如果提前干预,会怎样?
如果剂量减半,会怎样?
如果联合生活方式干预,会怎样?
这就是反事实问题。
可以抽象为:
Observed:
Patient receives intervention A → outcome Y
Counterfactual:
What if the same patient had not received A?
What if the same patient had received B instead?
但医学反事实非常难,因为真实世界医疗数据中存在大量混杂:
1. 谁接受治疗不是随机的
2. 医生会根据病情严重程度选择治疗
3. 病历记录不完整
4. 患者依从性不同
5. 合并症不同
6. 很多变量无法观测
因此,不能简单用历史数据中的相关性来推断干预效果。
CSDN 技术读者尤其需要注意:
反事实场景比较不等于已经完成因果识别。
如果没有明确的因果假设、识别策略和验证数据,就不能声称模型证明了治疗效果。
9. 机制约束层:不能只靠黑箱拟合
医学不是纯粹的数据拟合问题。
一个模型预测结果看似合理,但如果违背基本生物学机制,就很难被医学接受。
机制约束可以来自:
- 生物通路;
- 药理机制;
- 代谢网络;
- 免疫机制;
- 临床指南;
- 疾病自然病程;
- 已知安全边界;
- 专家知识;
- 文献证据。
可以理解为:
数据驱动模型负责学习模式;
机制约束负责限制不合理外推;
随访反馈负责检验预测是否成立。
但也要注意:
机制合理性检查不等于机制被证明。
机制约束不能替代实验验证或临床验证。
医学世界模型应该能回答:
为什么预计这个干预会改变这个状态?
假设的机制是什么?
哪些指标应该先变化?
哪些指标变化才算支持该机制?
哪些结果会推翻该假设?
如果一个系统不能被证伪,就很难称为科学工具。
10. 反馈校准层:模型必须能分析“为什么错了”
一个负责任的医学世界模型不能只输出预测,还应该在随访后进行校准。
例如:
模型假设:8 周后炎症指标下降。
真实随访:炎症指标没有变化。
这时系统不能简单说“预测失败”,而应该进入失败原因分析:
1. 初始状态是否表征错误?
2. 干预是否真实执行?
3. 剂量或强度是否足够?
4. 患者是否属于错误分型?
5. 机制假设是否不成立?
6. 指标是否不适合作为验证指标?
7. 模型是否超出适用范围?
这类能力非常关键。
因为在医学中,知道“为什么预测失败”往往和预测本身一样重要。
11. 审计与不确定性层:医学系统不能制造虚假确定性
医疗场景中,错误的确定性很危险。
一个医学世界模型应当区分:
1. 强临床证据支持
2. 中等临床证据支持
3. 机制合理但缺乏临床验证
4. 弱观察性数据支持
5. 仅为模型生成假设
6. 超出模型适用范围
输出示例:
{
"claim": "Intervention A may improve trajectory in subgroup X",
"evidence_level": "hypothesis_generating",
"clinical_validation": false,
"mechanism_support": "moderate",
"data_support": "weak_to_moderate",
"uncertainty": "high",
"not_for_clinical_use": true,
"required_validation": [
"prospective_follow_up",
"biomarker_validation",
"clinical_outcome_assessment"
]
}
这类设计对医学 AI 很重要。
模型不应该只回答“是什么”,还应该回答:
这个结论有多可靠?
基于什么证据?
有哪些假设?
哪些数据缺失?
哪些场景不适用?
12. 一段极简伪代码:医学世界模型不是一个 predict() 函数
下面代码只是概念性伪代码,用来说明模块结构,不是临床系统实现。
class BiomedicalWorldModel:
"""
Conceptual pseudo-code only.
Not for diagnosis, treatment, or clinical decision-making.
"""
def simulate(self, patient_state, intervention):
# 1. represent current state
state = self.encode_state(patient_state)
# 2. represent intervention
action = self.encode_intervention(intervention)
# 3. generate trajectory hypothesis
trajectory = self.generate_trajectory_hypothesis(state, action)
# 4. compare counterfactual scenarios
counterfactuals = self.compare_scenarios(state, action)
# 5. check mechanistic plausibility
mechanism_report = self.check_mechanistic_plausibility(
trajectory, action
)
# 6. produce audit report
audit_report = self.generate_audit_report(
trajectory=trajectory,
counterfactuals=counterfactuals,
mechanism_report=mechanism_report,
evidence_level="hypothesis_generating",
clinical_validation=False
)
return {
"trajectory_hypothesis": trajectory,
"counterfactual_scenarios": counterfactuals,
"mechanism_report": mechanism_report,
"audit_report": audit_report,
"not_for_clinical_use": True
}
这个伪代码想表达的是:
医学世界模型不是:
output = model.predict(patient)
而更接近:
hypothesis = model.simulate(state, intervention, mechanism, feedback)
它的核心不是直接给出“该不该治疗”,而是生成一个可审计、可验证、可修正的轨迹假设。
13. 长寿医学为什么是一个典型场景?
长寿医学和慢病管理非常适合作为医学世界模型的讨论场景。
原因是:衰老和慢病本质上都是长期轨迹问题。
例如:
- 血糖;
- 炎症;
- 代谢;
- 肌肉;
- 睡眠;
- 认知;
- 免疫;
- 表观遗传;
- 器官功能;
- 生活方式。
这些状态往往不是一天变化,而是在多年中逐渐偏离。
因此,长寿医学真正需要的不是一次性判断,而是:
长期轨迹建模 + 干预反馈 + 多指标一致性判断
例如,一个“生物年龄”指标下降,并不自动等于:
功能改善
疾病风险下降
寿命延长
临床获益
更严谨的问题应该是:
多个层面的指标是否朝同一方向变化?
功能状态是否改善?
风险是否下降?
这种变化是否持续?
是否存在过度干预?
是否有真实随访支持?
因此,长寿医学中更现实的世界模型,不应该一开始就声称“完整模拟人体衰老”,而应该从弱世界模型开始:
特定边界
特定任务
特定数据类型
可随访
可校准
可审计
例如:
DNA methylation + metabolomics + functional measures + lifestyle + follow-up
这样的系统可以用于假设生成和研究辅助,但不能直接作为临床疗效证明。
14. SteeraMed 的定位:可驾驭生物医学世界模型
在这个方向上,可以把 SteeraMed: A Steerable Biomedical World Model 理解为一种框架性探索。
网址:
<https://SteeraMed.com>
它强调的不是“模型已经可以替代医生”,而是医学世界模型应该具备“可驾驭性”。
所谓可驾驭,不是指任意控制人体,而是指研究者或医生可以给模型输入明确的干预方向,例如:
降低炎症
改善代谢韧性
避免免疫抑制
保持肌肉功能
降低副作用风险
然后模型应当围绕这些方向组织:
当前状态是什么?
干预方向是什么?
假设机制是什么?
预期轨迹是什么?
哪些指标可验证?
什么结果会推翻该假设?
不确定性在哪里?
因此,SteeraMed 更适合被理解为:
状态表征 + 干预方向 + 反事实场景比较 + 机制约束 + 反馈校准 + 审计
而不是一个已经临床验证的自动决策系统。
15. 医学世界模型与普通医学大模型的区别
可以用一张表总结:
| 类型 | 输入 | 输出 | 核心能力 | 主要风险 |
|---|---|---|---|---|
| 医学问答大模型 | 文本、问题 | 文本答案 | 知识生成、总结、解释 | 幻觉、过度自信 |
| 医学风险模型 | 当前状态 | 风险概率 | 预测 | 混杂、泛化差 |
| AI 制药模型 | 靶点、分子、结构 | 候选分子或打分 | 搜索和优化 | 临床转化失败 |
| 医学世界模型 | 状态 + 干预 + 时间 + 反馈 | 轨迹假设和证据链 | 干预推演、反事实、校准 | 因果误判、虚假确定性 |
医学世界模型不是要替代前三类模型,而是把它们连接起来。
16. 开发者最容易踩的坑
坑 1:把医学聊天机器人包装成世界模型
如果一个系统只能回答医学问题、总结病历、解释疾病,它不是世界模型。
世界模型必须至少涉及:
状态
干预
时间
轨迹
反馈
坑 2:把风险预测模型包装成干预模拟模型
风险模型可以预测“如果什么都不变,可能发生什么”。
但它不能自动回答“如果采取某个干预,结果会不会改变”。
这是两个不同问题。
坑 3:把相关性当因果
医疗数据中混杂很多。
如果模型没有处理反事实和混杂,就不能轻易声称自己能预测干预效果。
坑 4:把单个指标改善当成健康改善
一个 biomarker 改善,不代表患者真实获益。
尤其在长寿医学中,不能把“生物年龄下降”直接等同于“寿命延长”。
坑 5:黑箱输出没有审计层
医学场景下,模型必须能回答:
依据是什么?
不确定性在哪里?
哪些假设成立?
哪些数据缺失?
是否超出适用范围?
17. 一个开发者检查清单
如果有人说自己在做医学世界模型,可以问下面 10 个问题:
1. 你的 state representation 是什么?
2. 你的 intervention representation 是什么?
3. 模型是否显式建模时间?
4. 是否支持 counterfactual scenario comparison?
5. 是否有 mechanism constraints?
6. 如何处理 confounding?
7. 如何表达 uncertainty?
8. 如何接收 follow-up feedback?
9. 输出是否可审计?
10. 这是研究工具、决策支持工具,还是临床产品?
如果这些问题回答不上来,它可能仍然是一个有用的医学 AI 系统,但不应轻易称为医学世界模型。
18. 近期相关研究信号
一些早期研究已经开始接近医学世界模型的问题空间。
例如:
- Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning,尝试根据治疗前影像和治疗方案模拟治疗后肿瘤状态;
- EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories,尝试从电子健康记录中建模长程临床轨迹;
- SurvivEHR,面向多种长期疾病,进行竞争风险和 time-to-event 建模。
这些工作并不意味着医学世界模型已经临床成熟。
更准确地说,它们说明医学 AI 正在从:
识别与预测
逐渐走向:
轨迹建模、干预推演、反事实比较和反馈验证
这是一个重要方向,但仍然处于早期阶段。
19. 总结:医学 AI 的下一步不是更会聊天,而是更会验证干预
医疗 AI 让机器更会看医学数据。
AI 制药让机器更会寻找候选分子和靶点。
医学世界模型则试图回答更难的问题:
干预之后会发生什么?
这种变化是否符合机制?
能否被真实随访验证?
如果失败,原因是什么?
它的核心不是替代医生,也不是完整模拟人体,而是建立一个更可审计、更可校准、更关注干预后果的计算框架。
对于开发者来说,真正值得关注的不是“再做一个医学大模型”,而是如何构建下面这个闭环:
state → intervention → trajectory hypothesis → counterfactual scenarios → feedback → evidence
如果未来这一方向能够在数据质量、因果推断、机制约束、临床验证和监管审查方面逐步成熟,那么医学 AI 的重点可能会从“预测谁会生病”,转向“验证如何更安全、更可解释地改变健康轨迹”。
这或许才是医学世界模型最值得期待的地方。
参考文献
- U.S. Food and Drug Administration. Considerations for the Use of the Plausible Mechanism Framework to Develop Individualized Therapies that Target Specific Genetic Conditions with Known Biological Cause. Draft Guidance, February 2026.
- Prasad V, Makary MA. FDA’s New Plausible Mechanism Pathway. New England Journal of Medicine. 2025;393(23):2365–2367. doi:10.1056/NEJMsb2512695.
- Yang Y, Wang ZY, Liu Q, et al. Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning. arXiv:2506.02327, 2025.
- Mu L, Huang X, Gu Y, Qin S, Zhang S, Zhang X. EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories. arXiv:2602.03569, 2026.
- Gadd C, Gokhale K, Acharya A, et al. SurvivEHR: a competing risks, time-to-event foundation model for multiple long-term conditions from primary care electronic health records. npj Digital Medicine. 2026. doi:10.1038/s41746-026-02709-z.
- Schölkopf B, Locatello F, Bauer S, Ke NR, Kalchbrenner N, Goyal A, Bengio Y. Toward Causal Representation Learning. Proceedings of the IEEE. 2021;109(5):612–634.
- Pearl J. Causality: Models, Reasoning, and Inference. Cambridge University Press.
- Hernán MA, Robins JM. Causal Inference: What If. Chapman & Hall/CRC.
- SteeraMed: A Steerable Biomedical World Model. https://SteeraMed.com
- Xiong J, et al. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. doi:10.20944/preprints202605.0366.v1.
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)