从医疗 AI 到Steerable医学世界模型：一个开发者视角的系统架构拆解

damopa

386人浏览 · 2026-05-18 12:49:50

damopa · 2026-05-18 12:49:50 发布

摘要：医疗 AI 过去主要解决“看懂医学数据”的问题，AI 制药主要解决“发现候选干预工具”的问题。但医学中更难的问题是：当一种干预进入真实人体后，是否能够安全、可解释、可验证地改变疾病或健康轨迹？这类问题需要把患者状态、干预、时间轨迹、因果推断、反事实比较、机制约束和真实世界反馈放进同一个系统框架中。本文从开发者和系统架构角度，讨论“医学世界模型”（Biomedical / Medical World Model）可能需要哪些模块、为什么它不是一个普通医学大模型，以及构建这类系统时必须注意的科学边界。

0. 先说明：这不是临床系统设计方案

本文讨论的是一个早期研究方向和系统架构思想，不是已经完成的临床产品设计。

文中的代码均为概念性伪代码，仅用于说明系统模块，不构成临床软件实现，不能用于诊断、治疗、用药选择或个体化健康建议。

医学世界模型目前仍处于早期研究和概念探索阶段。它的输出更适合被理解为：

可检验假设；
研究辅助；
决策支持；
证据链组织工具。

而不是：

临床事实；
疗效证明；
自动诊疗系统；
监管认可产品。

1. 为什么医疗 AI 和 AI 制药之间还缺一层？

过去十多年，医疗 AI 最成熟的方向主要包括：

医学影像识别；
病历结构化；
临床风险预测；
医学问答；
辅助分诊；
临床文书生成；
医学知识检索与总结。

这些系统主要回答：

医学数据中已经发生了什么？
患者当前风险有多高？
这份病历表达了什么？
这张影像是否存在异常？

而 AI 制药主要回答：

能否更快发现一个靶点？
能否生成候选分子？
能否预测分子与蛋白的相互作用？
能否优化毒性、成药性和筛选效率？

这些都很重要。

但医学最终关心的不是“模型是否识别正确”，也不只是“有没有一个候选分子”。

医学真正难的问题是：

如果对某个患者或某类患者施加某种干预，
未来疾病或健康轨迹是否会发生改变？
这种改变是否安全？
是否符合机制？
是否可被随访验证？
如果失败，原因是什么？

这就是医学世界模型要进入的空间。

2. 一句话理解医学世界模型

如果用工程语言来概括：

Medical AI:
    medical data → recognition / extraction / prediction

AI Drug Discovery:
    biological target / molecule space → candidate intervention

Biomedical World Model:
    state + intervention + time + mechanism + counterfactual + feedback
    → testable trajectory hypothesis

也就是说，医学世界模型不是一个“更大的医学聊天机器人”，也不是一个普通风险预测模型。

它更像是一个围绕医学干预建立的动态系统：

患者状态 → 干预输入 → 轨迹假设 → 反事实场景比较 → 随访反馈 → 模型校准 → 证据链审计

注意，这里说的是轨迹假设，不是“治疗效果证明”。

3. 普通预测模型和医学世界模型的区别

普通预测模型通常做的是：

P(outcome | current_state)

例如：

给定当前患者状态，预测未来 5 年心血管事件风险。

但医学世界模型更关心：

P(future_state | current_state, intervention, mechanism, context)

也就是：

给定当前状态 S，
施加某种干预 A，
在某些机制约束 M 和上下文 C 下，
未来状态 S' 可能如何变化？

可以抽象为：

S_t + A_t + M + C → S_t+1

其中：

S_t：当前患者状态；
A_t：干预；
M：机制约束；
C：上下文，包括年龄、疾病阶段、合并症、环境、生活方式等；
S_t+1：未来状态假设；
Feedback：真实随访数据；
Uncertainty：不确定性表达。

4. 一个医学世界模型的最小系统架构

从系统开发角度看，一个医学世界模型至少需要以下 7 个模块：

[1] Patient State Representation      患者状态表征层
[2] Intervention Representation       干预表示层
[3] Transition Hypothesis Model       状态转移假设模型
[4] Counterfactual Scenario Engine    反事实场景比较模块
[5] Mechanism Constraint Layer        机制约束层
[6] Feedback Calibration Loop         反馈校准闭环
[7] Audit & Uncertainty Layer         审计与不确定性层

可以用一个简化架构表示：

Multi-modal Medical Data
EHR / Imaging / Omics / Wearables / Lifestyle / Follow-up
        ↓
Patient State Representation
        ↓
Intervention Representation
        ↓
Trajectory Hypothesis Generation
        ↓
Counterfactual Scenario Comparison
        ↓
Mechanistic Plausibility Check
        ↓
Feedback Calibration
        ↓
Audit & Evidence Report

核心不是“预测一个答案”，而是组织一个可以被验证、被审计、被修正的医学假设链条。

5. 状态表征层：医学世界模型的输入不是一句 Prompt

很多医学大模型以文本为核心输入，例如：

患者 65 岁，高血压、糖尿病病史，近期胸闷……

但医学世界模型需要的“状态”远远不只是文本。

一个患者状态可能包括：

临床诊断；
病历文本；
既往病史；
用药记录；
实验室检查；
医学影像；
基因组数据；
转录组、蛋白组、代谢组；
DNA 甲基化等表观遗传信息；
可穿戴设备数据；
睡眠、运动、饮食；
功能测试；
症状评分；
纵向随访数据。

可以抽象成一个结构化对象：

{
  "patient_state": {
    "clinical_history": {},
    "lab_tests": {},
    "imaging_features": {},
    "omics": {},
    "lifestyle": {},
    "functional_measures": {},
    "longitudinal_records": [],
    "data_quality_notes": []
  }
}

但是医学数据有几个典型问题：

1. 缺失严重
2. 标准不统一
3. 噪声较大
4. 不同医院和检测平台存在差异
5. 患者群体异质性强
6. 很多关键变量没有被记录

因此，状态表征不是简单做 embedding，而是一个包含数据清洗、标准化、对齐、缺失处理、不确定性标注和医学语义约束的复杂工程。

6. 干预表示层：医学世界模型必须能表示 Action

如果一个系统只建模患者状态，却不建模干预，那它最多是一个风险预测模型。

医学世界模型必须能表示：

做了什么？
什么时候做？
剂量是多少？
持续多久？
针对什么机制？
预期改变什么？
安全边界是什么？

干预可以包括：

药物；
剂量调整；
手术；
放疗；
营养；
运动；
睡眠；
行为改变；
多药联合；
不干预或观察等待。

一个干预对象可以简化为：

{
  "intervention": {
    "type": "lifestyle",
    "name": "exercise_and_sleep_optimization",
    "duration": "12_weeks",
    "target_pathway": "metabolic_and_inflammatory_resilience",
    "expected_direction": "improve",
    "safety_constraints": [
      "avoid_overtraining",
      "monitor_existing_conditions"
    ]
  }
}

这里的关键是：干预不是自由文本，而应该被结构化、可比较、可追踪。

7. 状态转移模型：从风险预测到轨迹假设生成

传统风险模型输出可能是：

未来 5 年风险 = 28%

但医学世界模型更关心：

如果施加干预 A，
哪些状态变量可能先变化？
哪些指标可能后变化？
哪些变化只是短期波动？
哪些变化可能代表真实获益？
是否存在副作用或补偿性反应？

因此，状态转移模型不是单点预测，而是轨迹假设生成。

更稳妥的输出不应该是：

该干预有效。

而应该是：

{
  "trajectory_hypothesis": [
    {
      "time": "4_weeks",
      "variable": "target_biomarker",
      "expected_direction": "improve",
      "confidence": "low"
    },
    {
      "time": "12_weeks",
      "variable": "functional_measure",
      "expected_direction": "uncertain",
      "confidence": "low"
    }
  ],
  "evidence_level": "hypothesis_generating",
  "uncertainty": "high",
  "clinical_validation_status": "not_validated",
  "not_for_clinical_use": true
}

这类输出的重点是：帮助研究者组织假设，而不是直接给出治疗结论。

8. 反事实场景比较：医学世界模型的核心难点

医学中最重要的问题通常不是：

这个患者未来会怎样？

而是：

如果不干预，会怎样？
如果换一种干预，会怎样？
如果提前干预，会怎样？
如果剂量减半，会怎样？
如果联合生活方式干预，会怎样？

这就是反事实问题。

可以抽象为：

Observed:
    Patient receives intervention A → outcome Y

Counterfactual:
    What if the same patient had not received A?
    What if the same patient had received B instead?

但医学反事实非常难，因为真实世界医疗数据中存在大量混杂：

1. 谁接受治疗不是随机的
2. 医生会根据病情严重程度选择治疗
3. 病历记录不完整
4. 患者依从性不同
5. 合并症不同
6. 很多变量无法观测

因此，不能简单用历史数据中的相关性来推断干预效果。

CSDN 技术读者尤其需要注意：

反事实场景比较不等于已经完成因果识别。

如果没有明确的因果假设、识别策略和验证数据，就不能声称模型证明了治疗效果。

9. 机制约束层：不能只靠黑箱拟合

医学不是纯粹的数据拟合问题。

一个模型预测结果看似合理，但如果违背基本生物学机制，就很难被医学接受。

机制约束可以来自：

生物通路；
药理机制；
代谢网络；
免疫机制；
临床指南；
疾病自然病程；
已知安全边界；
专家知识；
文献证据。

可以理解为：

数据驱动模型负责学习模式；
机制约束负责限制不合理外推；
随访反馈负责检验预测是否成立。

但也要注意：

机制合理性检查不等于机制被证明。

机制约束不能替代实验验证或临床验证。

医学世界模型应该能回答：

为什么预计这个干预会改变这个状态？
假设的机制是什么？
哪些指标应该先变化？
哪些指标变化才算支持该机制？
哪些结果会推翻该假设？

如果一个系统不能被证伪，就很难称为科学工具。

10. 反馈校准层：模型必须能分析“为什么错了”

一个负责任的医学世界模型不能只输出预测，还应该在随访后进行校准。

例如：

模型假设：8 周后炎症指标下降。
真实随访：炎症指标没有变化。

这时系统不能简单说“预测失败”，而应该进入失败原因分析：

1. 初始状态是否表征错误？
2. 干预是否真实执行？
3. 剂量或强度是否足够？
4. 患者是否属于错误分型？
5. 机制假设是否不成立？
6. 指标是否不适合作为验证指标？
7. 模型是否超出适用范围？

这类能力非常关键。

因为在医学中，知道“为什么预测失败”往往和预测本身一样重要。

11. 审计与不确定性层：医学系统不能制造虚假确定性

医疗场景中，错误的确定性很危险。

一个医学世界模型应当区分：

1. 强临床证据支持
2. 中等临床证据支持
3. 机制合理但缺乏临床验证
4. 弱观察性数据支持
5. 仅为模型生成假设
6. 超出模型适用范围

输出示例：

{
  "claim": "Intervention A may improve trajectory in subgroup X",
  "evidence_level": "hypothesis_generating",
  "clinical_validation": false,
  "mechanism_support": "moderate",
  "data_support": "weak_to_moderate",
  "uncertainty": "high",
  "not_for_clinical_use": true,
  "required_validation": [
    "prospective_follow_up",
    "biomarker_validation",
    "clinical_outcome_assessment"
  ]
}

这类设计对医学 AI 很重要。

模型不应该只回答“是什么”，还应该回答：

这个结论有多可靠？
基于什么证据？
有哪些假设？
哪些数据缺失？
哪些场景不适用？

12. 一段极简伪代码：医学世界模型不是一个 predict() 函数

下面代码只是概念性伪代码，用来说明模块结构，不是临床系统实现。

class BiomedicalWorldModel:
    """
    Conceptual pseudo-code only.
    Not for diagnosis, treatment, or clinical decision-making.
    """

    def simulate(self, patient_state, intervention):
        # 1. represent current state
        state = self.encode_state(patient_state)

        # 2. represent intervention
        action = self.encode_intervention(intervention)

        # 3. generate trajectory hypothesis
        trajectory = self.generate_trajectory_hypothesis(state, action)

        # 4. compare counterfactual scenarios
        counterfactuals = self.compare_scenarios(state, action)

        # 5. check mechanistic plausibility
        mechanism_report = self.check_mechanistic_plausibility(
            trajectory, action
        )

        # 6. produce audit report
        audit_report = self.generate_audit_report(
            trajectory=trajectory,
            counterfactuals=counterfactuals,
            mechanism_report=mechanism_report,
            evidence_level="hypothesis_generating",
            clinical_validation=False
        )

        return {
            "trajectory_hypothesis": trajectory,
            "counterfactual_scenarios": counterfactuals,
            "mechanism_report": mechanism_report,
            "audit_report": audit_report,
            "not_for_clinical_use": True
        }

这个伪代码想表达的是：

医学世界模型不是：
    output = model.predict(patient)

而更接近：
    hypothesis = model.simulate(state, intervention, mechanism, feedback)

它的核心不是直接给出“该不该治疗”，而是生成一个可审计、可验证、可修正的轨迹假设。

13. 长寿医学为什么是一个典型场景？

长寿医学和慢病管理非常适合作为医学世界模型的讨论场景。

原因是：衰老和慢病本质上都是长期轨迹问题。

例如：

血糖；
炎症；
代谢；
肌肉；
睡眠；
认知；
免疫；
表观遗传；
器官功能；
生活方式。

这些状态往往不是一天变化，而是在多年中逐渐偏离。

因此，长寿医学真正需要的不是一次性判断，而是：

长期轨迹建模 + 干预反馈 + 多指标一致性判断

例如，一个“生物年龄”指标下降，并不自动等于：

功能改善
疾病风险下降
寿命延长
临床获益

更严谨的问题应该是：

多个层面的指标是否朝同一方向变化？
功能状态是否改善？
风险是否下降？
这种变化是否持续？
是否存在过度干预？
是否有真实随访支持？

因此，长寿医学中更现实的世界模型，不应该一开始就声称“完整模拟人体衰老”，而应该从弱世界模型开始：

特定边界
特定任务
特定数据类型
可随访
可校准
可审计

例如：

DNA methylation + metabolomics + functional measures + lifestyle + follow-up

这样的系统可以用于假设生成和研究辅助，但不能直接作为临床疗效证明。

14. SteeraMed 的定位：可驾驭生物医学世界模型

在这个方向上，可以把 SteeraMed: A Steerable Biomedical World Model 理解为一种框架性探索。

网址：

<https://SteeraMed.com>

它强调的不是“模型已经可以替代医生”，而是医学世界模型应该具备“可驾驭性”。

所谓可驾驭，不是指任意控制人体，而是指研究者或医生可以给模型输入明确的干预方向，例如：

降低炎症
改善代谢韧性
避免免疫抑制
保持肌肉功能
降低副作用风险

然后模型应当围绕这些方向组织：

当前状态是什么？
干预方向是什么？
假设机制是什么？
预期轨迹是什么？
哪些指标可验证？
什么结果会推翻该假设？
不确定性在哪里？

因此，SteeraMed 更适合被理解为：

状态表征 + 干预方向 + 反事实场景比较 + 机制约束 + 反馈校准 + 审计

而不是一个已经临床验证的自动决策系统。

15. 医学世界模型与普通医学大模型的区别

可以用一张表总结：

类型	输入	输出	核心能力	主要风险
医学问答大模型	文本、问题	文本答案	知识生成、总结、解释	幻觉、过度自信
医学风险模型	当前状态	风险概率	预测	混杂、泛化差
AI 制药模型	靶点、分子、结构	候选分子或打分	搜索和优化	临床转化失败
医学世界模型	状态 + 干预 + 时间 + 反馈	轨迹假设和证据链	干预推演、反事实、校准	因果误判、虚假确定性

医学世界模型不是要替代前三类模型，而是把它们连接起来。

16. 开发者最容易踩的坑

坑 1：把医学聊天机器人包装成世界模型

如果一个系统只能回答医学问题、总结病历、解释疾病，它不是世界模型。

世界模型必须至少涉及：

状态
干预
时间
轨迹
反馈

坑 2：把风险预测模型包装成干预模拟模型

风险模型可以预测“如果什么都不变，可能发生什么”。

但它不能自动回答“如果采取某个干预，结果会不会改变”。

这是两个不同问题。

坑 3：把相关性当因果

医疗数据中混杂很多。

如果模型没有处理反事实和混杂，就不能轻易声称自己能预测干预效果。

坑 4：把单个指标改善当成健康改善

一个 biomarker 改善，不代表患者真实获益。

尤其在长寿医学中，不能把“生物年龄下降”直接等同于“寿命延长”。

坑 5：黑箱输出没有审计层

医学场景下，模型必须能回答：

依据是什么？
不确定性在哪里？
哪些假设成立？
哪些数据缺失？
是否超出适用范围？

17. 一个开发者检查清单

如果有人说自己在做医学世界模型，可以问下面 10 个问题：

1. 你的 state representation 是什么？
2. 你的 intervention representation 是什么？
3. 模型是否显式建模时间？
4. 是否支持 counterfactual scenario comparison？
5. 是否有 mechanism constraints？
6. 如何处理 confounding？
7. 如何表达 uncertainty？
8. 如何接收 follow-up feedback？
9. 输出是否可审计？
10. 这是研究工具、决策支持工具，还是临床产品？

如果这些问题回答不上来，它可能仍然是一个有用的医学 AI 系统，但不应轻易称为医学世界模型。

18. 近期相关研究信号

一些早期研究已经开始接近医学世界模型的问题空间。

例如：

Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning，尝试根据治疗前影像和治疗方案模拟治疗后肿瘤状态；
EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories，尝试从电子健康记录中建模长程临床轨迹；
SurvivEHR，面向多种长期疾病，进行竞争风险和 time-to-event 建模。

这些工作并不意味着医学世界模型已经临床成熟。

更准确地说，它们说明医学 AI 正在从：

识别与预测

逐渐走向：

轨迹建模、干预推演、反事实比较和反馈验证

这是一个重要方向，但仍然处于早期阶段。

19. 总结：医学 AI 的下一步不是更会聊天，而是更会验证干预

医疗 AI 让机器更会看医学数据。

AI 制药让机器更会寻找候选分子和靶点。

医学世界模型则试图回答更难的问题：

干预之后会发生什么？
这种变化是否符合机制？
能否被真实随访验证？
如果失败，原因是什么？

它的核心不是替代医生，也不是完整模拟人体，而是建立一个更可审计、更可校准、更关注干预后果的计算框架。

对于开发者来说，真正值得关注的不是“再做一个医学大模型”，而是如何构建下面这个闭环：

state → intervention → trajectory hypothesis → counterfactual scenarios → feedback → evidence

如果未来这一方向能够在数据质量、因果推断、机制约束、临床验证和监管审查方面逐步成熟，那么医学 AI 的重点可能会从“预测谁会生病”，转向“验证如何更安全、更可解释地改变健康轨迹”。

这或许才是医学世界模型最值得期待的地方。

参考文献

U.S. Food and Drug Administration. Considerations for the Use of the Plausible Mechanism Framework to Develop Individualized Therapies that Target Specific Genetic Conditions with Known Biological Cause. Draft Guidance, February 2026.
Prasad V, Makary MA. FDA’s New Plausible Mechanism Pathway. New England Journal of Medicine. 2025;393(23):2365–2367. doi:10.1056/NEJMsb2512695.
Yang Y, Wang ZY, Liu Q, et al. Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning. arXiv:2506.02327, 2025.
Mu L, Huang X, Gu Y, Qin S, Zhang S, Zhang X. EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories. arXiv:2602.03569, 2026.
Gadd C, Gokhale K, Acharya A, et al. SurvivEHR: a competing risks, time-to-event foundation model for multiple long-term conditions from primary care electronic health records. npj Digital Medicine. 2026. doi:10.1038/s41746-026-02709-z.
Schölkopf B, Locatello F, Bauer S, Ke NR, Kalchbrenner N, Goyal A, Bengio Y. Toward Causal Representation Learning. Proceedings of the IEEE. 2021;109(5):612–634.
Pearl J. Causality: Models, Reasoning, and Inference. Cambridge University Press.
Hernán MA, Robins JM. Causal Inference: What If. Chapman & Hall/CRC.
SteeraMed: A Steerable Biomedical World Model. https://SteeraMed.com
Xiong J, et al. World Models for Biomedicine: A Steerability Framework. Preprints.org, 2026. doi:10.20944/preprints202605.0366.v1.