医学 AI 的下一个十年，不缺大模型，缺一个 ImageNet

damopa

350人浏览 · 2026-05-19 08:07:40

damopa · 2026-05-19 08:07:40 发布

谁能建立“状态—干预—转移”的生物医学基础数据集，谁就可能定义下一代 AI 医学基础设施

作者：熊江辉

摘要

过去十几年，ImageNet 之于计算机视觉的意义，不只是提供了一个大规模图像数据集，而是为整个领域建立了统一任务、统一标签体系和统一评测基准。医学 AI 目前也面临类似问题：我们已经拥有越来越多的大模型、医学问答系统、组学模型、虚拟细胞、数字孪生和 AI 药物发现平台，但仍缺少一个面向医学世界模型的基础数据设施。

本文提出一个观点：医学 AI 的下一阶段，不只需要更大的模型，更需要能够支持模型学习“状态—干预—转移”的纵向数据体系。传统 AI 多处理 sample → label，而医学世界模型真正需要处理的是 state + action → next state。本文从 ImageNet 的启发出发，讨论为什么医学世界模型需要自己的“ImageNet”，它大致应具备哪些特征，可能带来什么意义，以及面临哪些科学和工程挑战。

需要说明的是，本文所说的“医学世界模型的 ImageNet”是一种基础设施类比，并不是指将 ImageNet 的图像分类任务直接搬到医学领域。医学世界模型所需的数据结构更复杂、更动态，也更依赖纵向观测、干预记录、机制证据和安全边界。

关键词

医学 AI；医学世界模型；Biomedical World Model；ImageNet；状态转移；AI for Science；数字孪生；虚拟细胞；N-of-1；生物医学数据基础设施；SEWO；可驾驭医学世界模型

1. 从 ImageNet 说起：AI 的跃迁往往先来自基础设施

过去十几年，人工智能最重要的里程碑之一，并不只是某个模型突然变强，而是计算机视觉领域出现了一个关键基础设施：ImageNet。

ImageNet 表面上是一个大规模图像数据库，但它真正改变计算机视觉的地方，不只是数据量，而是它建立了：

统一任务；
统一标签体系；
统一训练集和测试集；
统一评测方式；
可比较、可复现、可迭代的研究坐标系。

在 ImageNet 之前，不同研究者可能使用不同数据集、不同标签、不同评估方式，模型之间很难公平比较。ImageNet 出现之后，整个计算机视觉领域第一次有了一个大规模公共基准。后来的 AlexNet、VGG、ResNet 等模型，都在这个共同坐标系中快速迭代。

所以，ImageNet 的本质不是“大量图片”，而是：

一个让模型能力可以被共同定义、共同训练、共同比较的基础设施。

今天，医学 AI 正处在一个类似阶段。

2. 医学 AI 现在不缺模型，缺什么？

过去几年，医学 AI 的热点是“大模型”。

我们已经看到：

医学大语言模型；
医学问答系统；
医学影像大模型；
多模态医学模型；
组学基础模型；
AI 药物发现模型；
虚拟细胞模型；
数字孪生系统；
临床辅助决策模型。

这些方向都很重要。

但如果把医学 AI 的未来仅仅理解为“更会回答医学问题的大模型”，可能低估了医学 AI 真正的难点。

医学的核心不是回答问题，而是理解和改变生命轨迹。

一个医生真正关心的并不只是：

这个人是什么病？

还包括：

当前状态是如何形成的？
哪些因素正在推动系统恶化？
哪些节点可能被干预？
哪种干预可能带来改善？
改善应该通过哪些指标验证？
如果没有改善，问题出在哪里？
如果出现副作用，系统为何偏离预期？

这些问题本质上不是单纯的知识问答，而是状态转移问题。

换成计算语言，就是医学 AI 不能只做：

sample → label

它还需要逐步学习：

state + action → next state

也就是：

当前生命状态 + 干预动作 → 后续状态变化

这正是医学世界模型与传统医学 AI 的核心区别。

3. 什么是医学世界模型？

“世界模型”（world model）这个概念，在强化学习、机器人、自动驾驶和生成式环境建模中被广泛讨论。

在这些领域中，世界模型通常用于帮助智能体理解：

如果我采取某个动作，环境会如何变化？

例如：

current state + action → future state

如果迁移到医学领域，问题就变成：

current biological state + intervention → future biological state

也就是说，医学世界模型要处理的问题包括：

当前人体、组织、细胞或疾病系统处于什么状态？
某种药物、营养、运动、睡眠、细胞治疗或生活方式干预会产生什么影响？
干预后系统可能朝哪个方向变化？
哪些变化可以被测量？
哪些机制可以解释？
哪些结果需要进一步验证？

因此，医学世界模型不应被理解为一个普通医学聊天机器人，也不应被理解为一个简单的疾病风险预测器。

更准确地说，它应该是一个面向生命系统的：

状态表示 + 干预建模 + 状态转移模拟 + 机制证据链 + 反馈校正系统。

需要强调的是，医学世界模型不能简单照搬游戏、机器人或自动驾驶中的世界模型。人体不是游戏环境，医学干预不能随意试错，模型输出也不能直接替代临床判断。因此，医学世界模型必须在机制解释、安全边界、伦理审查和临床验证方面接受更严格约束。

4. 为什么医学 AI 需要自己的 ImageNet？

ImageNet 对计算机视觉的基本数据结构可以简化为：

image + label

医学世界模型真正需要的数据结构则更接近：

baseline state + action + follow-up state

或者：

S(t) + A → S(t + Δt)

其中：

S(t)：干预前状态；
A：干预动作；
S(t + Δt)：干预后状态；
Δt：时间间隔。

这意味着，医学世界模型需要的不是普通数据库。

它不应该只是：

病例库；
医学影像库；
组学仓库；
文献知识图谱；
电子病历大表；
药物靶点数据库。

这些都很重要，但还不够。

医学世界模型需要的是一个围绕状态转移构建的数据基础设施。

我暂时称之为：

Biomedical TransitionNet

它不是为了替代 ImageNet，而是借用 ImageNet 的基础设施思想，为医学世界模型建立类似的共同坐标系。

5. 医学世界模型的数据单元应该是什么？

传统监督学习的数据单元通常是：

x → y

例如：

影像 → 疾病标签
基因变异 → 风险标签
病历文本 → 诊断编码

而医学世界模型的数据单元应该是：

state_before
+ intervention
+ state_after
+ time_interval
+ evidence_chain
+ uncertainty

可以抽象表示为：

{
  "baseline_state": {
    "molecular": "...",
    "clinical": "...",
    "phenotype": "...",
    "lifestyle": "...",
    "context": "..."
  },
  "action": {
    "type": "...",
    "dose": "...",
    "frequency": "...",
    "duration": "...",
    "mechanism": "..."
  },
  "follow_up_state": {
    "molecular": "...",
    "clinical": "...",
    "phenotype": "...",
    "adverse_events": "..."
  },
  "transition": {
    "direction": "...",
    "magnitude": "...",
    "time_scale": "...",
    "confidence": "..."
  },
  "evidence_chain": {
    "target": "...",
    "pathway": "...",
    "biomarker": "...",
    "phenotype": "...",
    "validation": "..."
  }
}

这类数据才真正适合训练医学世界模型。

因为它不只是告诉模型：

这个样本属于哪一类。

而是告诉模型：

在什么状态下，采取什么干预，系统发生了什么变化。

6. 医学世界模型的 ImageNet 至少应包含五层结构

如果要构建医学世界模型领域的“ImageNet”，它至少需要五层结构。

6.1 State Representation：状态表示

医学世界模型首先要回答：

什么是一个人的当前状态？

一个人的生命状态不能被一个诊断标签概括。

例如，“糖尿病”“高血压”“衰老”“炎症”“疲劳”这些词，更多是表型描述。真正的生物状态可能包括：

基因组；
DNA 甲基化；
转录组；
蛋白组；
代谢组；
免疫状态；
炎症状态；
器官功能；
微生物组；
睡眠；
运动；
饮食；
药物使用；
环境暴露；
既往病史。

这些信息需要被组织成可计算的状态表示。

例如：

individual_state =
  molecular_state
  + pathway_state
  + organ_state
  + phenotype_state
  + lifestyle_context
  + clinical_context

如果没有标准化状态表示，医学世界模型就不知道自己在模拟什么。

6.2 Action Ontology：干预动作本体

世界模型一定需要 action。

在医学中，action 可以是：

药物；
营养补充剂；
饮食；
运动；
睡眠干预；
心理压力管理；
细胞治疗；
基因治疗；
再生医学干预；
多药联合；
N-of-1 个体化方案。

但医学中的 action 比机器人中的 action 复杂得多。

一个药物干预至少涉及：

药物名称；
剂量；
频率；
给药途径；
持续时间；
联合用药；
依从性；
禁忌证；
潜在副作用。

一个运动干预也涉及：

类型；
强度；
频率；
持续时间；
心率区间；
恢复情况；
个体基础状态。

如果 action 不能标准化，模型就很难学习状态转移。

6.3 Transition Record：状态转移记录

医学世界模型真正需要的是 transition。

也就是：

before → after

例如：

干预前炎症状态 → 干预后炎症状态
干预前 DNA 甲基化年龄 → 干预后 DNA 甲基化年龄
干预前代谢状态 → 干预后代谢状态
干预前肿瘤状态 → 治疗后肿瘤状态

没有复测，就没有 transition。

没有 transition，就没有世界模型。

这也是当前医学数据最薄弱的地方之一。

很多数据是单点的：

one-time measurement

但医学世界模型需要的是：

longitudinal measurement

即纵向数据。

6.4 Evidence Chain：机制证据链

医学世界模型不能只输出一个概率。

如果模型说：

某个干预可能有效。

这远远不够。

它还应该说明：

作用于哪些靶点？
影响哪些通路？
对哪些异常状态有意义？
哪些指标可以验证？
哪些证据来自实验？
哪些证据来自临床？
哪些只是模型推断？
哪些风险需要监测？

也就是说，医学世界模型的输出不能只是：

prediction

还应该包括：

prediction + mechanism + validation + uncertainty

这对医学场景非常重要。

因为医学 AI 不应成为不可审计的黑箱。

6.5 Benchmark Task：基准任务

ImageNet 的关键价值之一，是让不同模型可以在同一个任务上比较。

医学世界模型也需要 benchmark。

可能的 benchmark 包括：

细胞扰动响应预测；
药物干预后的表达变化预测；
肿瘤治疗后的影像状态变化预测；
代谢干预后的指标变化预测；
炎症状态转移预测；
衰老相关指标变化预测；
N-of-1 干预后的个体状态变化方向预测。

但评估指标不能简单照搬分类准确率。

更合理的评估可能包括：

状态变化方向是否正确；
机制解释是否合理；
是否能提出可验证指标；
是否能识别不确定性；
是否能识别潜在风险；
是否能跨个体、跨干预、跨时间泛化。

7. 相关研究进展：不要夸大，也不要低估

为了保持科学严谨，需要明确：医学世界模型不是凭空出现的，也不是一个已经完全成熟的领域。

目前已经有一些相关方向值得关注。

7.1 ImageNet：计算机视觉基础设施的经典案例

ImageNet 原始论文和 ILSVRC 总结论文表明，大规模、层级化、标准化的数据与评测体系，对计算机视觉发展产生了重要推动作用。

但需要注意：ImageNet 是图像识别和检测基准，不能直接等同于医学世界模型所需的数据体系。本文使用 ImageNet，是作为“基础设施类比”，不是任务等价。

7.2 World Models：从 AI 智能体到医学启发

Ha 和 Schmidhuber 的 World Models 工作，是 AI 世界模型方向的代表性工作之一。其核心思想是智能体可以学习一个内部模型，用于模拟环境变化和行动后果。

医学不能简单照搬这个范式，因为人体不是游戏环境，也不能随意试错。但“状态—动作—未来状态”的思想，对医学 AI 有重要启发。

7.3 虚拟细胞：细胞扰动响应建模

Arc Institute 发布的 State 模型，尝试预测细胞在药物、细胞因子和基因扰动下的响应。公开资料显示，State 使用了大规模观测细胞和扰动细胞数据，主要面向细胞层面的扰动响应预测。

需要注意：State 是虚拟细胞方向的重要进展，但它主要处于细胞层面，并不等同于完整的人体医学世界模型。

7.4 Medical World Model：肿瘤演化模拟

近期有研究直接使用 Medical World Model 概念，例如 MeWM，尝试在治疗条件下生成性模拟肿瘤未来状态。

这说明医学 AI 正在从静态识别和风险预测，走向干预条件下的疾病动态模拟。

但这类研究仍处在早期阶段，距离通用医学世界模型还有很长距离。

7.5 数字孪生与虚拟生理系统：医学系统建模的长期传统

医学世界模型并不是凭空出现的。更早之前，医学工程、系统生物学、计算生理学和数字孪生等方向，已经长期尝试把生命系统中的结构、机制、动力学和可验证输出连接起来。

这些工作给医学世界模型提供了重要启发：

真正有价值的医学模型，往往不是黑箱分类器，而是能够把状态、机制、动态变化和可验证指标连接起来的系统模型。

今天的医学世界模型，可以看作这种系统建模传统在 AI、多组学、真实世界数据和大规模计算时代的进一步延伸。

7.6 可驾驭医学世界模型：为什么只预测还不够

我们此前提出的 SEWO / Steerable Medicine World Model（可驾驭医学世界模型） 框架，强调医学世界模型不能只追求预测准确率，而应具备：

可定义状态；
可描述干预；
可推演转移；
可审计机制；
可追踪偏差；
可被研究者和医生质疑、修正和驾驭。

相关思想已在预印本 World Models for Biomedicine: A Steerability Framework 中提出，并在 steerable.world 上进行了框架化呈现。

这里必须强调：SEWO 不是已经验证的临床治疗系统，也不是医疗器械，而是一种面向未来生物医学世界模型的结构约束和证据链设计原则。

8. 为什么长寿医学可能是一个切入点？

医学世界模型可以从很多领域切入，例如：

肿瘤；
心血管；
代谢病；
免疫疾病；
神经退行性疾病；
细胞扰动响应；
药物发现；
长寿医学。

其中，长寿医学可能是一个值得关注的切入点。

原因包括：

8.1 衰老是连续状态

衰老不是单一疾病标签，而是连续变化的系统状态。

它涉及：

炎症；
代谢；
免疫；
表观遗传；
线粒体功能；
蛋白稳态；
干细胞耗竭；
细胞衰老；
器官功能下降。

这非常适合状态建模。

8.2 长寿医学天然需要复测

长寿医学关注长期轨迹，不是一锤子买卖。

一个干预是否有意义，必须通过多次复测判断。

这天然形成：

baseline state → intervention → follow-up state

也就是世界模型需要的结构。

8.3 干预方式多样

长寿医学中的 action 非常丰富，包括：

饮食；
运动；
睡眠；
补充剂；
药物；
细胞治疗；
再生医学；
压力管理；
环境暴露管理。

这为 action ontology 提供了丰富场景。

8.4 个体差异巨大

同样的干预，不同人的响应可能完全不同。

这意味着长寿医学不能只依赖平均效应，而需要 N-of-1 状态转移建模。

每一个结构化 N-of-1 干预，都可以看作一次小型世界模型实验：

individual state → intervention → individual transition

9. 这件事的工程意义

从工程角度看，医学世界模型的 ImageNet 不只是科研问题，也是数据工程、平台工程和 AI 基础设施问题。

它需要解决：

数据采集；
数据标准化；
多模态融合；
时间序列建模；
干预动作编码；
因果混杂控制；
隐私保护；
模型评估；
安全边界；
证据链追踪。

这意味着它不是一个简单数据集，而更像一个持续运行的数据飞轮。

可以抽象为：

测量状态
  ↓
标准化状态表示
  ↓
记录干预动作
  ↓
复测后续状态
  ↓
形成状态转移样本
  ↓
训练 / 评估世界模型
  ↓
生成新的可验证假设
  ↓
进入下一轮复测和校正

这就是医学世界模型的数据闭环。

10. 主要挑战

这件事意义重大，但非常困难。

10.1 状态表示复杂

人体状态不能被单个标签概括。

如何把多组学、临床指标、影像、生活方式、症状、环境暴露和病史组织成可计算状态，是巨大挑战。

10.2 干预动作难以标准化

药物、运动、饮食、睡眠、补充剂、细胞治疗等 action 都有复杂参数。

如果 action 描述不标准，模型很难学习。

10.3 复测数据稀缺

世界模型需要前后变化，但很多医学数据只有一次检测。

这要求重新设计数据采集流程。

10.4 因果混杂严重

真实世界中，一个人可能同时改变饮食、运动、睡眠、药物和补充剂。

如何判断状态变化来自哪个因素，是非常困难的问题。

10.5 安全和伦理要求高

医学世界模型不能像游戏模型一样自由试错。

任何涉及干预的模型，都必须明确边界：

什么只是研究假设；
什么可以作为健康管理提示；
什么需要医生判断；
什么不能自动推荐；
什么必须经过临床验证和监管审查。

10.6 开放标准与商业激励存在张力

如果完全封闭，行业难以形成共同基准。

如果完全开放，企业可能缺少持续投入动力。

如何在开放 benchmark、隐私保护、商业回报和科研协作之间取得平衡，是现实问题。

11. 一个可能的最小可行方向

本文不展开具体实施方案，只给出一个方向性框架。

医学世界模型的 ImageNet 不应一开始就试图模拟整个人体。

更现实的路径是从最小可行任务开始，例如：

细胞扰动响应预测；
肿瘤治疗后状态变化预测；
代谢干预后的指标变化预测；
炎症状态干预响应预测；
DNA 甲基化年龄变化预测；
N-of-1 长寿干预状态转移记录。

一个最小可行任务至少需要：

1. 明确状态变量
2. 明确干预动作
3. 明确复测时间
4. 明确状态变化指标
5. 明确评估任务
6. 明确安全边界

先把一个任务做清楚，比一开始追求大而全更重要。

12. 谁定义 state、action、transition，谁就可能定义未来

医学 AI 的下一个十年，不缺大模型。

更准确地说，医学 AI 当然仍然需要更强的模型，但更大的模型本身并不能自动解决医学世界模型所需的状态转移学习问题。

真正稀缺的是：

能让模型学习生命状态转移的数据基础设施。

未来医学 AI 的平台级公司，不一定是拥有最大语言模型的公司，而可能是最早建立以下能力的公司：

持续测量生命状态
标准化记录干预动作
系统复测状态变化
构建机制证据链
形成状态转移数据飞轮

谁能定义 state，谁就定义医学 AI 看到什么。

谁能定义 action，谁就定义医学 AI 如何理解干预。

谁能定义 transition，谁就定义医学 AI 如何学习生命变化。

谁能定义 benchmark，谁就定义整个领域如何进步。

结语：医学世界模型的 ImageNet，要让 AI 学会理解生命如何响应干预

ImageNet 让机器视觉第一次拥有了共同坐标系。

它让 AI 学会更系统地看见世界。

而医学世界模型需要的 ImageNet，不是让 AI 识别更多疾病标签，而是让 AI 学会理解生命如何响应干预。

这件事一旦做成，医学 AI 就不再只是会回答问题，不再只是会总结文献，不再只是会预测风险。

它将开始真正学习：

状态如何形成
干预如何作用
系统如何转移
证据如何验证

医学 AI 的下一个十年，不缺大模型。

真正缺的，是一个关于生命状态转移的共同基础设施。

参考文献

Deng J, Dong W, Socher R, Li LJ, Li K, Fei-Fei L. ImageNet: A Large-Scale Hierarchical Image Database. CVPR. 2009.

https://ieeexplore.ieee.org/document/5206848
Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. 2015.

https://arxiv.org/abs/1409.0575
ImageNet official website.

https://www.image-net.org/
Ha D, Schmidhuber J. World Models. 2018.

https://worldmodels.github.io/
Arc Institute. Arc Institute’s first virtual cell model: State.

https://arcinstitute.org/news/virtual-cell-model-state
Predicting cellular responses to perturbation across diverse contexts with State. bioRxiv. 2025.

https://www.biorxiv.org/content/10.1101/2025.06.26.661135v1
Yang Y, Wang ZY, Liu Q, et al. Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning. arXiv.

https://arxiv.org/abs/2506.02327
IEEE Transactions on Biomedical Engineering. Digital Twins / AI World Models.

https://www.embs.org/tbme/research-highlights/digital-twins-ai-world-models/
Acosta JN, Falcone GJ, Rajpurkar P, Topol EJ. Multimodal biomedical AI. Nature Medicine. 2022.

https://www.nature.com/articles/s41591-022-01981-2
Xiong J. World Models for Biomedicine: A Steerability Framework. Preprints.org. 2026.

https://www.preprints.org/manuscript/202605.0366

DOI: https://doi.org/10.20944/preprints202605.0366.v1
SEWO — Steerable Medicine World Model / 可驾驭医学世界模型.

https://steerable.world