HISTEX-多模态数据缺失学习

Philo`

301人浏览 · 2026-05-15 13:42:47

Philo` · 2026-05-15 13:42:47 发布

论文详细解析：HISTEX (MICCAI 2025)

摘要

本文详细解析了MICCAI 2025论文《HISTEX：整合组织学图像与空间转录组推断超分辨率基因表达》。该研究首次实现了从低成本低分辨率空间转录组（ST）数据结合常规H&E染色图像预测单细胞/亚细胞级超分辨率全转录组表达，解决了空间组学领域分辨率与测序深度不可兼得的核心矛盾。

核心创新：

方法创新：提出三阶段架构（多模态增强→双向交叉注意力融合→多实例学习优化），无需超分辨率标签即可训练
性能突破：在多个数据集上RMSE降低39-46%，SSIM提升10-15%，显著优于现有SOTA方法
应用价值：发现154个在低分辨率数据中无法检测的生物学通路，实现精细组织结构注释
技术演进：作为多模态医疗AI前沿探索层代表，与SMIL、DisPro、PAMT共同构成从基础到前沿的完整技术脉络

关键结论：HISTEX大幅降低了高分辨率空间组学研究门槛，为肿瘤微环境、发育生物学等精细研究提供了低成本高效工具。

一、论文核心信息

标题：整合组织学图像与空间转录组推断超分辨率基因表达
发表会议：MICCAI 2025（医学影像顶会）
作者团队：云南大学+深圳大数据研究院+深圳技术大学
代码开源：https://github.com/wenwenmin/HISTEX
核心价值：首次实现了从低成本低分辨率空间转录组（ST）+常规H&E染色图像预测单细胞/亚细胞级超分辨率全转录组表达，性能远超现有SOTA方法，大幅降低了高分辨率空间组学研究的门槛。

二、核心解决的问题

空间转录组（ST）技术存在一个根本性的技术矛盾，这也是HISTEX针对性解决的核心痛点：

成像型ST（如Xenium、MERFISH）：可达到单细胞甚至亚细胞分辨率，但只能检测几十到几百个目标基因，无法覆盖全转录组
NGS型ST（如经典Visium）：可检测全转录组，但空间分辨率极低（55μm spot，包含10-50个细胞），且spot之间存在大量空白区域，丢失了细粒度的空间基因表达信息
新一代Visium HD：分辨率提升至8μm，但样本制备复杂、测序成本极高（单样本数万元），无法大规模推广应用

现有超分辨率方法存在两大缺陷：

仅能预测spot之间的空白区域，无法实现真正的亚spot级超分辨率
过度依赖组织学图像的形态相似性，导致预测结果与真实基因表达存在显著偏差

三、使用的数据集与预处理

1. 核心实验数据集（均包含配对的H&E组织学图像和空间转录组数据）

数据集缩写	技术平台	样本类型	样本量（切片数）	用途
MBHD	Visium HD	小鼠大脑	1个切片	内部验证
HBCHD	Visium HD	人类乳腺癌	1个切片	内部验证
HBC 1/2/3	Xenium	人类乳腺癌	3个切片	金标准验证
HER2ST	Visium	HER2阳性乳腺癌	多个切片	下游生物学分析

2. 数据预处理与标签构建

由于没有天然的超分辨率基因表达标签，作者采用了伪标签构建策略：

Visium HD数据：将原始8μm分辨率的bin数据聚合为55μm的伪Visium数据作为输入，原始8μm数据作为超分辨率标签
Xenium数据：将单细胞分辨率的表达数据网格化到8μm分辨率作为标签，再聚合为55μm伪Visium数据作为输入
基因选择：每个数据集预测表达量最高的1000个高变异基因（HVGs）

3. 多模态数据增强与特征提取

（1）基因表达数据增强

采用双线性插值对低分辨率spot数据进行2×上采样，生成高密度的基因表达矩阵，同时保留原始spot的位置信息作为掩码，避免引入虚假信号。

（2）组织学图像特征提取

使用UNI病理基础模型（Nature Medicine 2024）作为特征提取器：

将H&E图像标准化为0.5μm/像素分辨率
分割为224×224的patch输入UNI
每个patch输出14×14×1024的特征图，最终形成与基因表达矩阵空间对齐的组织学特征图

四、核心方法框架

HISTEX采用三阶段架构，完美解决了无超分辨率标签下的多模态融合问题：

阶段1：多模态信息增强与提取

基因分支：双线性插值生成高密度基因表达矩阵
图像分支：UNI基础模型提取多尺度组织学特征
输出：空间对齐的基因表达特征图和组织学特征图

阶段2：双向交叉注意力（BCA）多模态融合

核心创新：设计了双向交叉注意力机制，实现基因和组织学特征的深度交互：

两个并行的交叉注意力块：
- 基因→图像：用基因特征作为查询，聚合相关的组织学特征
- 图像→基因：用组织学特征作为查询，聚合相关的基因特征
第三个交叉注意力块：将前两个块的输出进行二次融合
残差连接：保留原始组织学特征，避免信息丢失

阶段3：多实例学习（MIL）模型优化

核心创新：解决了没有超分辨率标签的训练难题：

将每个原始spot视为一个"包"（bag）
将spot覆盖的所有超分辨率像素视为"实例"（instance）
聚合所有实例的预测表达，得到bag级别的预测
用原始spot的真实表达作为监督信号计算MSE损失

五、实验结果与核心结论

1. 超分辨率预测性能

在所有数据集上，HISTEX均显著优于所有SOTA方法：

数据集	HISTEX RMSE	第二好方法 RMSE	RMSE降低	HISTEX SSIM	第二好方法 SSIM	SSIM提升
MBHD	0.0292	0.0542	46.1%	0.8443	0.7409	14.0%
HBCHD	0.0352	0.0617	42.9%	0.8273	0.7462	10.8%
HBC 1	0.0365	0.0601	39.2%	0.8234	0.7134	15.4%

关键发现：HISTEX不仅在全局指标上领先，更能准确捕捉基因表达的精细空间模式，特别是低表达但具有重要生物学意义的基因。

2. 下游生物学应用

空间模式增强：显著提升了疾病相关基因的空间表达模式清晰度，使原本模糊的信号变得具有统计学意义
通路富集分析：在超分辨率数据中发现了154个在原始低分辨率数据中无法检测到的显著生物学通路，其中多个与肿瘤侵袭和转移密切相关
超分辨率组织结构注释：基于增强后的基因表达数据，能够更精确地划分肿瘤区域、免疫浸润区域和结缔组织区域，性能远超传统低分辨率聚类方法

六、四篇论文综合对比

1. 核心问题与技术路线对比

论文	发表	核心解决问题	核心技术路线	核心创新点
SMIL	AAAI 2021	训练+测试同时存在严重模态缺失（最高90%）	贝叶斯元学习 + 模态先验加权重建 + 不确定性正则化	首次系统研究极端模态缺失问题，无需大量完整样本
DisPro	CVPR 2025	不完整多模态生存预测中知识补偿不全面	两阶段蒸馏提示学习 + BioBERT LLM + 单模态知识蒸馏	首次同时补偿缺失模态的共有知识+特有知识
PAMT	TPAMI 2026	完整多模态生存预测中粗粒度融合与可解释性差	通路感知Transformer + 无标签通路-patch对比损失 + 单向交叉融合	实现通路-patch细粒度交互，天然具备临床可解释性
HISTEX	MICCAI 2025	空间转录组分辨率与测序深度不可兼得	线性插值增强 + UNI基础模型 + 双向交叉注意力 + MIL优化	从低分辨率ST预测单细胞级全转录组表达，无需超分辨率标签

2. 使用场景与适用条件对比

论文	适用场景	数据要求	优势	局限性
SMIL	通用多模态分类，训练数据极度稀缺	任意双模态，允许90%样本缺失	极端缺失下仍能稳定训练	仅能补偿模态共有知识，无医疗针对性
DisPro	医疗多模态生存预测，存在模态缺失	病理+bulk基因组，允许60%样本缺失	鲁棒性强，缺失率越高优势越明显	可解释性不如PAMT
PAMT	医疗多模态生存预测，追求可解释性	完整配对的病理+bulk基因组	可解释性强，能挖掘生物学机制	要求数据完整，无法处理模态缺失
HISTEX	空间转录组超分辨率增强，精细组织结构研究	配对的H&E图像+低分辨率ST	成本低，分辨率高，能发现新的生物学信号	目前仅支持2×超分辨率

3. 模态数据与样本量对比

论文	模态组合	数据形式	总样本量	具体数据集样本量
SMIL	图像+文本图像+音频	单实例数据	~29655	MM-IMDb(25956)、CMU-MOSI(2199)、avMNIST(1500)
DisPro	病理WSI+bulk RNA-seq	多实例数据	2833例	BLCA(372)、BRCA(1007)、COADREAD(533)、LUAD(443)、UCEC(478)
PAMT	病理WSI+bulk RNA-seq（通路分组）	多实例数据	1293例（内部）	BLCA(372)、LUAD(443)、LUSC(478) 外部验证：CPTAC-LUAD/LSCC/UCEC 泛癌训练：TCGA-Cancer3/Cancer11
HISTEX	H&E图像+空间转录组	空间多模态数据	~5个切片	MBHD(1)、HBCHD(1)、HBC(3)、HER2ST(多个)