医疗 AI 与多模态大模型:28 个肿瘤/癌症开源数据集深度盘点与工程化选型指南
一、 引言:多模态医疗 AI 训练的数据集检索痛点
在多模态大模型(Multimodal Foundation Models)技术向医疗垂直领域加速渗透的当下,无论是进行肿瘤影像的自动分割、病理切片的微环境分析,还是端到端的临床决策支持系统(CDSS)开发,算法架构师和科研人员面临的最大工程瓶颈往往不是模型架构的设计,而是高质量、多模态对齐的数据集检索与清洗。
由于医学数据的隐私性、长尾效应以及强烈的“烟囱式”科室断层,全球的公开医疗数据集往往零散地分布在各类学术论文附录、不同高校的实验室主页或各类历史竞赛平台中。这种“数据孤岛”现象导致研发团队在模型冷启动阶段,需要耗费高达 70% 的精力在数据的打捞与基础清洗上。
为了解决这一痛点,本文参考了目前公开的医疗数据集系统化索引项目 —— 千方病案医数集(QianfangHub) 的医学解剖逻辑分类框架 。该项目通过对全球碎片化的公开疾病数据集进行严谨的病理逻辑编排 ,极大提升了医疗 AI 数据的 Discoverability(可发现性)。
本文将重点针对其中的肿瘤/癌症方向(Neoplasms)开源数据集进行工程化盘点 ,按照计算机视觉与影像分割、多组学与生物信息学以及临床表型与流行病学表格三大技术栈进行归类,并提供原始官方数据源接口,供相关科研与工程团队进行技术选型。
二、 计算机视觉与肿瘤分割类数据集(CV & Segmentation)
这类数据集主要以 DICOM 或 NIfTI 格式的 3D/2D 高清医学影像(CT、MRI、PET)为主,且多数配备了放射科专家级别的病变区域(ROI)语义分割标签,是训练三维卷积网络(3D-CNN)或医疗多视觉大模型(VLM)的空间特征提取器的核心资产。
| 数据集名称 | 技术模态 | 核心工程价值与应用场景 | 官方/原始来源链接 |
| Data Science Bowl 2017 | 图像(CT) | 经典的大尺度胸部 CT 肺癌筛查数据集,包含完整的 DICOM 序列。主要用于训练端到端的三维目标检测与分类算法,预测患者在一年内是否会恶化为肺癌。 | Kaggle 官方仓库 |
| ACNS0332 | 图像(MRI) | 儿童髓母细胞瘤(Medulloblastoma)的多中心临床核磁共振影像数据集,包含 T1、T2、FLAIR 等多个重要序列。 | TCIA 档案库 |
| ACNS0332-Tumor-Annotations | 图像(3D标注) | 配套 ACNS0332 影像的专家级标准数据集,包含了对髓母细胞瘤原发灶以及脊髓转移灶的精确三维立体分割标注,适合三维语义分割模型的基准验证。 | TCIA 分析结果页 |
| ACRIN-HNSCC-FDG-PET-CT | 多模态 | 头颈部鳞状细胞癌(HNSCC)的多中心临床试验对齐数据集。通过将 FDG-PET 的功能代谢信息与 CT 的解剖结构信息进行空间对齐,是训练多模态配准算法的优质基准。 | TCIA 档案库 |
| ACRIN-NSCLC-FDG-PET | 图像(PET) | 非小细胞肺癌(NSCLC)的标准氟代脱氧葡萄糖(FDG)正电子发射断层扫描影像库,常用于影像组学(Radiomics)异质性分析。 | TCIA 档案库 |
| AHOD0831 | 图像(CT/PET) | 专门针对儿童霍奇金淋巴瘤(Hodgkin Lymphoma)的多中心影像数据集,包含化疗前后的对比追踪序列,适合时序预测或疗效评估模型。 | TCIA 档案库 |
| AHOD0831-Tumor-Annotations | 图像(标注) | AHOD0831 临床试验对应的儿童淋巴瘤病灶三维分割金标准数据。 | TCIA 分析结果页 |
| A091105影像数据集 | 图像(多模态) | 侵袭性纤维瘤病(Aggressive Fibromatosis)临床试验相关的纵向追踪影像数据集。 | TCIA 档案库 |
| A091105肿瘤标注数据集 | 图像(标注) | 针对 A091105 影像序列中纤维瘤病灶的专家级精细化边缘分割标注。 | TCIA 分析结果页 |
| AREN0533 | 图像(CT) | 专注于高风险 III/IV 期儿童肾母细胞瘤(Wilms' Tumor)的高清 CT 影像集合。 | TCIA 档案库 |
| AREN0533-TUMOR-ANNOTATIONS | 图像(3D标注) | 针对高分期肾母细胞瘤的原发灶及肺转移灶的精细化多标签分割数据集。 | TCIA 分析结果页 |
| AREN0534 | 图像(CT/MRI) | 针对双侧或特殊类型肾母细胞瘤(Wilms' Tumor)的临床试验影像库,对长尾和不规则肿瘤有极高的训练价值。 | TCIA 档案库 |
| AREN0534-TUMOR-ANNOTATIONS | 图像(3D标注) | 双侧肾母细胞瘤的多时间节点(新辅助化疗前后)肿瘤体积三维分割标注。 | TCIA 分析结果页 |
| ATLAS | 图像(MRI) | 原发性肝细胞癌(HCC)的多时相增强 MRI 分割数据集,包含肝脏整体与癌变结节的精准多标签标注。 | Zenodo 托管平台 |
三、 多组学与生物信息转录组学类数据集(Omics)
这类数据集深入到分子生物学、表观遗传学层面,包含大量的单细胞转录组(scRNA-seq)、DNA 甲基化阵列、大规模下一代测序(NGS)突变网络。在宏观影像与微观分子特征进行关联(即影像基因组学 Radiogenomics)或者训练生物医药大模型时,它们是不可或缺的底层特征库。
-
21T乳腺癌进展细胞系数据集 (GSE18370)
-
技术模态:表格(基因表达谱)
-
应用场景:涵盖非典型导管增生(ADH)- 导管原位癌(DCIS)- 浸润性导管癌(IDC)完整演进模型的经典转录组数据,常用于训练肿瘤恶化演进的时序动力学模型。
-
原始链接:NCBI GEO 数据库
-
-
A3250炎性乳腺癌细胞RNA测序数据集 (GSE180788)
-
技术模态:表格(RNA-seq 测序矩阵)
-
应用场景:A3250 炎性乳腺癌(IBC)细胞系的深度 RNA 测序,主要用于挖掘高侵袭性乳腺癌的耐药分子标志物。
-
原始链接:NCBI GEO 数据库
-
-
AACR GENIE阑尾癌队列 (AACR Project GENIE)
-
技术模态:表格(NGS 基因突变谱)
-
应用场景:美国癌症研究协会(AACR)GENIE 国际级财团公开的罕见阑尾癌(Appendiceal Cancer)大型临床测序队列,包含详细的下一代测序变异信息与临床表型,适合复杂基因网络图神经网络(GNN)训练。
-
原始链接:cBioPortal 生信平台
-
-
ACC异种移植与正常唾液腺表达数据集 (GSE36820)
-
技术模态:表格(微阵列基因表达谱)
-
应用场景:腺样囊性癌(ACC)患者衍生异种移植模型(PDX)与正常组织的差异表达对比,常作为虚拟筛选及药物靶点发现的基准控制组。
-
原始链接:NCBI GEO 数据库
-
-
ALCL肿瘤RNA测序数据集 (EGAS50000001011)
-
技术模态:表格(全转录组测序)
-
应用场景:间变性大细胞淋巴瘤(ALCL)原发肿瘤患者的全转录组转录谱,属于高度受控、质量极高的科研级受控资产。
-
原始链接:EGA 欧洲生物信息档案馆
-
-
ALK信号特征基因表达数据集 (GSE6184)
-
技术模态:表格(微阵列芯片)
-
应用场景:ALK 阳性间变性大细胞淋巴瘤细胞系在小分子抑制剂干预前后的信号通路特征变化表达谱。
-
原始链接:NCBI GEO 数据库
-
-
ALK阳性儿童ALCL甲基化数据集 (GSE186487)
-
技术模态:表格(DNA 甲基化阵列)
-
应用场景:聚焦于儿童 ALK 阳性 ALCL 的表观遗传学图谱,包含全基因组级别的 DNA 甲基化微阵列测序结果。
-
原始链接:NCBI GEO 数据库
-
-
ALK阴性间变性大细胞淋巴瘤表达谱数据集 (GSE65823)
-
技术模态:表格(转录组矩阵)
-
应用场景:外周 T 细胞淋巴瘤及 ALK 阴性 ALCL 的对照研究表达谱,用于恶性非霍奇金淋巴瘤的分型与鉴别诊断算法。
-
原始链接:NCBI GEO 数据库
-
-
AML单细胞耐药景观数据集
-
技术模态:表格(单细胞转录组 + CyTOF)
-
应用场景:急性髓系白血病(AML)在治疗进程中先天性与获得性耐药特征的单细胞转录组(scRNA-seq)及质谱流式细胞术(CyTOF)联合数据集。用于训练单细胞轨迹推断(Trajectory Inference)算法。
-
原始链接:Zenodo 托管平台
-
-
ApoE缺失调控金黄色葡萄球菌骨髓炎RNA-seq数据集 (GSE227521)
-
技术模态:表格(RNA-seq 表达谱)
-
应用场景:探讨 ApoE 基因缺失背景下,骨肿瘤伴随/易混淆的金黄色葡萄球菌骨髓炎病理微环境演变的转录组实验。
-
原始链接:NCBI GEO 数据库
-
-
ATRT DNA甲基化数据集 (GSE70460)
-
技术模态:表格(甲基化 Beta 值矩阵)
-
应用场景:罕见中枢神经系统非典型畸胎瘤/样横纹肌样瘤(ATRT)的经典数据集,广泛用于儿童中枢神经系统肿瘤分子分型机器学习模型的构建。
-
原始链接:NCBI GEO 数据库
-
-
ACRG胃癌队列表达谱数据集 (GSE62254)
-
技术模态:表格(Affymetrix 芯片数据)
-
应用场景:包含 300 例原发性胃癌完整转录组表达谱队列,配套长期的随访与生存期数据,是胃癌预后生存风险评分模型(如 DeepSurv 等深度生存分析网络)的业界金标准训练集。
-
原始链接:NCBI GEO 数据库
-
四、 临床试验与流行病学表格类数据集(Clinical & Table)
这类数据主要以结构化的关系型表格形式存储,记录了大尺度的宏观统计、临床试验随访指标以及生存期终点,非常适合用来做传统生存分析(Survival Analysis)、多中心临床表型建模以及多中心疾病风险预测。
-
2017与2024全球视网膜母细胞瘤服务可及性数据集
-
技术模态:表格(统计学矩阵)
-
应用场景:伦敦卫生与热带医学院(LSHTM)跨越数年收集的全球视网膜母细胞瘤(RB)诊疗基础设施与服务可及性宏观统计数据库,常用于医疗资源不均性宏观建模。
-
-
2017全球视网膜母细胞瘤诊断数据
-
技术模态:表格(多中心临床表型)
-
应用场景:全球 100 多个国家多中心、大样本量的儿童视网膜母细胞瘤初诊时患者的真实临床表格数据(如分期、年龄、首发症状等)。
-
原始链接:Zenodo 托管平台
-
-
A091105临床试验数据 (NCT02066181)
-
技术模态:表格(多中心临床表型)
-
应用场景:侵袭性纤维瘤病三期临床试验的核心表格数据,包含给药剂量、患者生存期与毒副反应记录。
-
原始链接:NCI 临床数据档案馆
-
五、 多模态数据工程中的关键预处理技术
在将上述开源数据集引入大模型训练 pipeline 时,工程团队通常需要完成以下几项关键的数据治理步骤:
-
放射影像的标准化空间重采样:
由于公开影像来自全球多中心、不同的扫描仪(GE、Siemens、Philips 等),其层厚和像素间距(Spacing)各不相同。在送入 3D 卷积或 ViT 之前,需利用 SimpleITK 或 MONAI 统一重采样至相同空间分辨率(如 $1.0\text{mm} \times 1.0\text{mm} \times 1.0\text{mm}$)。
-
组学矩阵的批次效应消除(Batch Effect Removal):
来自不同 GEO 编号的微阵列数据或 RNA-seq 数据存在由于实验耗材、操作人员不同带来的系统误差。在特征工程阶段,通常需要采用
ComBat算法或基于深度自编码器(Autoencoder)的方法进行去批次校正。 -
异构模态的标记对齐:
将结构化的表型数据与非结构化的 EMR 文本、3D 影像关联时,应建立统一的基于患者 ID 匿名映射的图谱索引,通过多模态融合技术(如 Early Fusion 或 Cross-Attention)确保特征在时间轴和空间轴上的强监督对齐。
随着医疗大模型向临床实际应用场景迈进,数据资产的结构化和严谨编排正成为推动整个行业发展的基础底座。感兴趣的开发者可以参考开源社区中如 QianfangHub/awesome-disease-datasets 等疾病数据集编排库,共同推进医疗数据孤岛的消解。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)