HISTEX-多模态数据缺失学习
论文详细解析:HISTEX (MICCAI 2025)
摘要
本文详细解析了MICCAI 2025论文《HISTEX:整合组织学图像与空间转录组推断超分辨率基因表达》。该研究首次实现了从低成本低分辨率空间转录组(ST)数据结合常规H&E染色图像预测单细胞/亚细胞级超分辨率全转录组表达,解决了空间组学领域分辨率与测序深度不可兼得的核心矛盾。
核心创新:
- 方法创新:提出三阶段架构(多模态增强→双向交叉注意力融合→多实例学习优化),无需超分辨率标签即可训练
- 性能突破:在多个数据集上RMSE降低39-46%,SSIM提升10-15%,显著优于现有SOTA方法
- 应用价值:发现154个在低分辨率数据中无法检测的生物学通路,实现精细组织结构注释
- 技术演进:作为多模态医疗AI前沿探索层代表,与SMIL、DisPro、PAMT共同构成从基础到前沿的完整技术脉络
关键结论:HISTEX大幅降低了高分辨率空间组学研究门槛,为肿瘤微环境、发育生物学等精细研究提供了低成本高效工具。
一、论文核心信息
- 标题:整合组织学图像与空间转录组推断超分辨率基因表达
- 发表会议:MICCAI 2025(医学影像顶会)
- 作者团队:云南大学+深圳大数据研究院+深圳技术大学
- 代码开源:https://github.com/wenwenmin/HISTEX
- 核心价值:首次实现了从低成本低分辨率空间转录组(ST)+常规H&E染色图像预测单细胞/亚细胞级超分辨率全转录组表达,性能远超现有SOTA方法,大幅降低了高分辨率空间组学研究的门槛。
二、核心解决的问题
空间转录组(ST)技术存在一个根本性的技术矛盾,这也是HISTEX针对性解决的核心痛点:
- 成像型ST(如Xenium、MERFISH):可达到单细胞甚至亚细胞分辨率,但只能检测几十到几百个目标基因,无法覆盖全转录组
- NGS型ST(如经典Visium):可检测全转录组,但空间分辨率极低(55μm spot,包含10-50个细胞),且spot之间存在大量空白区域,丢失了细粒度的空间基因表达信息
- 新一代Visium HD:分辨率提升至8μm,但样本制备复杂、测序成本极高(单样本数万元),无法大规模推广应用
现有超分辨率方法存在两大缺陷:
- 仅能预测spot之间的空白区域,无法实现真正的亚spot级超分辨率
- 过度依赖组织学图像的形态相似性,导致预测结果与真实基因表达存在显著偏差
三、使用的数据集与预处理
1. 核心实验数据集(均包含配对的H&E组织学图像和空间转录组数据)
| 数据集缩写 | 技术平台 | 样本类型 | 样本量(切片数) | 用途 |
|---|---|---|---|---|
| MBHD | Visium HD | 小鼠大脑 | 1个切片 | 内部验证 |
| HBCHD | Visium HD | 人类乳腺癌 | 1个切片 | 内部验证 |
| HBC 1/2/3 | Xenium | 人类乳腺癌 | 3个切片 | 金标准验证 |
| HER2ST | Visium | HER2阳性乳腺癌 | 多个切片 | 下游生物学分析 |
2. 数据预处理与标签构建
由于没有天然的超分辨率基因表达标签,作者采用了伪标签构建策略:
- Visium HD数据:将原始8μm分辨率的bin数据聚合为55μm的伪Visium数据作为输入,原始8μm数据作为超分辨率标签
- Xenium数据:将单细胞分辨率的表达数据网格化到8μm分辨率作为标签,再聚合为55μm伪Visium数据作为输入
- 基因选择:每个数据集预测表达量最高的1000个高变异基因(HVGs)
3. 多模态数据增强与特征提取
(1)基因表达数据增强
采用双线性插值对低分辨率spot数据进行2×上采样,生成高密度的基因表达矩阵,同时保留原始spot的位置信息作为掩码,避免引入虚假信号。
(2)组织学图像特征提取
使用UNI病理基础模型(Nature Medicine 2024)作为特征提取器:
- 将H&E图像标准化为0.5μm/像素分辨率
- 分割为224×224的patch输入UNI
- 每个patch输出14×14×1024的特征图,最终形成与基因表达矩阵空间对齐的组织学特征图
四、核心方法框架
HISTEX采用三阶段架构,完美解决了无超分辨率标签下的多模态融合问题:
阶段1:多模态信息增强与提取
- 基因分支:双线性插值生成高密度基因表达矩阵
- 图像分支:UNI基础模型提取多尺度组织学特征
- 输出:空间对齐的基因表达特征图和组织学特征图
阶段2:双向交叉注意力(BCA)多模态融合
核心创新:设计了双向交叉注意力机制,实现基因和组织学特征的深度交互:
- 两个并行的交叉注意力块:
- 基因→图像:用基因特征作为查询,聚合相关的组织学特征
- 图像→基因:用组织学特征作为查询,聚合相关的基因特征
- 第三个交叉注意力块:将前两个块的输出进行二次融合
- 残差连接:保留原始组织学特征,避免信息丢失
阶段3:多实例学习(MIL)模型优化
核心创新:解决了没有超分辨率标签的训练难题:
- 将每个原始spot视为一个"包"(bag)
- 将spot覆盖的所有超分辨率像素视为"实例"(instance)
- 聚合所有实例的预测表达,得到bag级别的预测
- 用原始spot的真实表达作为监督信号计算MSE损失
五、实验结果与核心结论
1. 超分辨率预测性能
在所有数据集上,HISTEX均显著优于所有SOTA方法:
| 数据集 | HISTEX RMSE | 第二好方法 RMSE | RMSE降低 | HISTEX SSIM | 第二好方法 SSIM | SSIM提升 |
|---|---|---|---|---|---|---|
| MBHD | 0.0292 | 0.0542 | 46.1% | 0.8443 | 0.7409 | 14.0% |
| HBCHD | 0.0352 | 0.0617 | 42.9% | 0.8273 | 0.7462 | 10.8% |
| HBC 1 | 0.0365 | 0.0601 | 39.2% | 0.8234 | 0.7134 | 15.4% |
关键发现:HISTEX不仅在全局指标上领先,更能准确捕捉基因表达的精细空间模式,特别是低表达但具有重要生物学意义的基因。
2. 下游生物学应用
- 空间模式增强:显著提升了疾病相关基因的空间表达模式清晰度,使原本模糊的信号变得具有统计学意义
- 通路富集分析:在超分辨率数据中发现了154个在原始低分辨率数据中无法检测到的显著生物学通路,其中多个与肿瘤侵袭和转移密切相关
- 超分辨率组织结构注释:基于增强后的基因表达数据,能够更精确地划分肿瘤区域、免疫浸润区域和结缔组织区域,性能远超传统低分辨率聚类方法
六、四篇论文综合对比
1. 核心问题与技术路线对比
| 论文 | 发表 | 核心解决问题 | 核心技术路线 | 核心创新点 |
|---|---|---|---|---|
| SMIL | AAAI 2021 | 训练+测试同时存在严重模态缺失(最高90%) | 贝叶斯元学习 + 模态先验加权重建 + 不确定性正则化 | 首次系统研究极端模态缺失问题,无需大量完整样本 |
| DisPro | CVPR 2025 | 不完整多模态生存预测中知识补偿不全面 | 两阶段蒸馏提示学习 + BioBERT LLM + 单模态知识蒸馏 | 首次同时补偿缺失模态的共有知识+特有知识 |
| PAMT | TPAMI 2026 | 完整多模态生存预测中粗粒度融合与可解释性差 | 通路感知Transformer + 无标签通路-patch对比损失 + 单向交叉融合 | 实现通路-patch细粒度交互,天然具备临床可解释性 |
| HISTEX | MICCAI 2025 | 空间转录组分辨率与测序深度不可兼得 | 线性插值增强 + UNI基础模型 + 双向交叉注意力 + MIL优化 | 从低分辨率ST预测单细胞级全转录组表达,无需超分辨率标签 |
2. 使用场景与适用条件对比
| 论文 | 适用场景 | 数据要求 | 优势 | 局限性 |
|---|---|---|---|---|
| SMIL | 通用多模态分类,训练数据极度稀缺 | 任意双模态,允许90%样本缺失 | 极端缺失下仍能稳定训练 | 仅能补偿模态共有知识,无医疗针对性 |
| DisPro | 医疗多模态生存预测,存在模态缺失 | 病理+bulk基因组,允许60%样本缺失 | 鲁棒性强,缺失率越高优势越明显 | 可解释性不如PAMT |
| PAMT | 医疗多模态生存预测,追求可解释性 | 完整配对的病理+bulk基因组 | 可解释性强,能挖掘生物学机制 | 要求数据完整,无法处理模态缺失 |
| HISTEX | 空间转录组超分辨率增强,精细组织结构研究 | 配对的H&E图像+低分辨率ST | 成本低,分辨率高,能发现新的生物学信号 | 目前仅支持2×超分辨率 |
3. 模态数据与样本量对比
| 论文 | 模态组合 | 数据形式 | 总样本量 | 具体数据集样本量 |
|---|---|---|---|---|
| SMIL | 图像+文本 图像+音频 |
单实例数据 | ~29655 | MM-IMDb(25956)、CMU-MOSI(2199)、avMNIST(1500) |
| DisPro | 病理WSI+bulk RNA-seq | 多实例数据 | 2833例 | BLCA(372)、BRCA(1007)、COADREAD(533)、LUAD(443)、UCEC(478) |
| PAMT | 病理WSI+bulk RNA-seq(通路分组) | 多实例数据 | 1293例(内部) | BLCA(372)、LUAD(443)、LUSC(478) 外部验证:CPTAC-LUAD/LSCC/UCEC 泛癌训练:TCGA-Cancer3/Cancer11 |
| HISTEX | H&E图像+空间转录组 | 空间多模态数据 | ~5个切片 | MBHD(1)、HBCHD(1)、HBC(3)、HER2ST(多个) |
七、四篇论文的技术演进脉络
这四篇论文清晰地展现了多模态医疗AI从通用到专用、从基础到前沿的完整发展路径:
- 基础层:SMIL解决了多模态学习最根本的"数据缺失"问题,为所有后续工作奠定了基础
- 医疗适配层:DisPro将通用的缺失模态学习方法引入医疗领域,并结合LLM的能力大幅提升了性能
- 临床价值层:PAMT进一步解决了医疗AI最关键的"可解释性"问题,使模型能够真正辅助临床决策
- 前沿探索层:HISTEX将多模态学习扩展到新兴的空间组学领域,开启了空间多模态AI的新篇章
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)