宫颈癌 TCT 诊断模型研发——论文调研

一、综述类(必读)

1. 系统综述(首选)★★★★★

标题:A systematic review of deep learning-based cervical cytology screening: from cell identification to whole slide image analysis
期刊:Artificial Intelligence Review
时间:2023
DOI:10.1007/s10462-023-10588-z

核心内容

  • 系统综述 2016 年以来 80 余篇宫颈细胞学 AI 文献;
  • 覆盖细胞识别、异常检测、分割、分类到全切片(WSI)分析;
  • 明确指出研究主线正由单细胞级任务逐步转向整片级筛查与诊断
  • 对公开数据集、标注方式、可解释性与临床落地问题做了较系统总结。

用途:适合作为开题/立项“研究现状”总述的第一篇基础文献。


2. 方向综述★★★☆

标题:Deep learning techniques for cervical cancer diagnosis based on cytology and colposcopy
期刊:Informatics in Medicine Unlocked
时间:2024

核心内容

  • 从宫颈细胞学与阴道镜两个方向梳理深度学习应用;
  • 对 CNN、注意力机制等架构进行归纳;
  • 更适合作为“领域扩展阅读”,不如上面的系统综述聚焦 TCT/WSI 主线。

二、核心对标论文(精读)

3. Nature Communications:目前最值得对标的临床落地研究(首选)★★★★★

标题:Deep learning enabled liquid-based cytology model for cervical precancer and cancer detection
期刊:Nature Communications
时间:2025
DOI:10.1038/s41467-025-58883-3

研究特点

  • 直接面向 liquid-based cytology / whole cytology slides
  • 采用两阶段流程:先做细胞/局部异常信息提取,再做切片级判别;
  • 面向真实筛查与分流场景,强调多中心与临床可用性。

数据规模与验证

  • 训练集:17,397 张切片;
  • 额外测试共 10,826 例;
  • 涉及 9 家医院、多阶段评估与读者研究。

核心价值

  • 是近年宫颈 TCT/LBC 智能诊断最具代表性的临床级研究之一;
  • 非常适合作为后续系统设计、性能对标和应用场景设定的首要参考。

4. Nature Communications:宫颈细胞学分级与癌诊断的高质量临床研究 ★★★★★

标题:Artificial intelligence enables precision diagnosis of cervical cytology grades and cervical cancer
期刊:Nature Communications
时间:2024
DOI:10.1038/s41467-024-48705-3

研究特点

  • 面向宫颈细胞学分级诊断与宫颈癌识别;
  • 包含回顾性、前瞻性及随机观察试验;
  • 重点不只是“模型做得准”,更强调 AI 对病理医生诊断的一致性和增益。

适用价值

  • 如果你的研发目标不仅是阳性/阴性筛查,而是进一步向 TBS 分级、辅助判读、临床协同发展,这篇必须看。

5. Nature Communications:TBS 分类经典代表作 ★★★★★

标题:Hybrid AI-assistive diagnostic model permits rapid TBS classification of cervical liquid-based thin-layer cell smears
期刊:Nature Communications
时间:2021
DOI:10.1038/s41467-021-23913-3

研究特点

  • 直接面向TBS 分类
  • 多中心大样本研究;
  • 强调 AI 辅助可提升效率并改善判读一致性。

价值定位

  • 虽然不是最新文章,但仍是宫颈液基细胞学 AI 诊断领域的经典参考;
  • 很适合用来支撑“国内外已有研究已从单细胞识别推进到整片 TBS 辅助诊断”的论述。

6. Nature Communications:宫颈癌筛查 WSI 分析里程碑工作 ★★★★★

标题:Robust whole slide image analysis for cervical cancer screening using deep learning
期刊:Nature Communications
时间:2021
DOI:10.1038/s41467-021-25296-x

研究特点

  • 代表了宫颈细胞学从 patch/cell 级走向 whole slide image 分析的重要节点;
  • 不仅做全片分类,也关注病灶区域定位与泛化能力;
  • 对后续很多 WSI 路线论文都有方法学启发。

价值定位

  • 如果后续要做整片级诊断模型,这篇是重要技术路线参考。

7. Cancers:适合作为可复现的 WSI 基线论文 ★★★★

标题:A Deep Learning Model for Cervical Cancer Screening on Liquid-Based Cytology Specimens in Whole Slide Images
期刊:Cancers
时间:2022
DOI:10.3390/cancers14051159

研究特点

  • 使用 1,605 张 LBC 全切片图像;
  • 任务相对直接:neoplastic vs non-neoplastic
  • 结果清晰,适合作为“先做一个可跑通的基线系统”的参考。

价值定位

  • 如果你现在还处在从 0 到 1 搭建 TCT/WSI 级模型阶段,这篇很实用;
  • 可作为低门槛、工程上较易复现的对照基线。

三、模型方法与技术补充论文(研发参考)

8. 异常细胞检测:Trans-YOLOv5 ★★★★

标题:Trans-YOLOv5: a YOLOv5-based prior transformer network model for automated detection of abnormal cells or clumps in cervical cytology images
时间:2024

亮点

  • 针对异常细胞/细胞团检测;
  • 把目标检测与 Transformer 注意力结合;
  • 适合作为“细胞级候选区域提取模块”的参考。

适用场景

  • 若考虑做“两阶段流程(异常细胞检测 → 切片级判别)”,可借鉴其检测头与注意力设计。

9. 主动学习:降低标注成本的实用路线 ★★★★

标题:Deep Convolutional Neural Networks Using an Active Learning Strategy for Cervical Cancer Screening and Diagnosis
期刊:Frontiers in Bioinformatics
时间:2023

亮点

  • Mask R-CNN + 机器学习患者级诊断;
  • 通过主动学习减少专家标注工作量;
  • 对“数据少、标注贵”的院内研发环境尤其有参考意义。

适用场景

  • 适合作为后续“人机协同标注迭代”的技术补充思路。

10. WSI 分类:Cell Comparative Learning ★★★★

标题:Cell comparative learning: A cervical cytopathology whole slide image classification method using normal and abnormal cells
期刊:Computerized Medical Imaging and Graphics
时间:2024

亮点

  • 利用正常与异常细胞的对比关系进行全片分类;
  • 融合检测、表征学习与 Transformer/MIL 思路;
  • 更贴近病理医生“对比观察”的判读逻辑。

适用场景

  • 对设计“病理知识引导”的模型结构有启发。

11. 自监督学习:适合低标注数据场景 ★★★★

标题:Self-supervised learning-based cervical cytology for the triage of HPV-positive women in resource-limited settings and low-data regime
期刊:Computers in Biology and Medicine
时间:2024

亮点

  • 将自监督学习用于宫颈细胞学;
  • 强调低数据、资源受限与 HPV 阳性人群分流场景;
  • 对减少强标注依赖具有现实意义。

适用场景

  • 如果数据量有限,这篇可作为“先预训练、再微调”的方法参考。

12. 可解释检测器:临床友好方向 ★★★☆

标题:Interpretable detector for cervical cytology using self-attention mechanisms
期刊:Engineering Applications of Artificial Intelligence
时间:2024

亮点

  • 强调可解释性;
  • 融入 self-attention;
  • 更适合做“辅助研究/方法补充”,不是当前最核心的对标论文。

13. 多尺度特征融合细胞检测 ★★★☆

标题:Detection of cervical cell based on multi-scale feature fusion and attention mechanism
期刊:Scientific Reports
时间:2025

亮点

  • 主要针对细胞尺度变化、复杂背景下的检测问题;
  • 适合作为细胞检测模块的补充阅读。

四、前沿探索方向(可选精读)

14. 弱监督 / 半监督:减少细粒度标注依赖 ★★★★

标题:Weakly Semi-Supervised Cervical Lesion Cell Detection via Twin-memory augmented MIL
会议:MICCAI 2025

亮点

  • 将弱监督、半监督与 MIL 结合;
  • 解决 WSI 级标注和细胞级标注不匹配问题;
  • 是很符合宫颈细胞学真实数据现状的方向。

价值定位

  • 适合放在“拟采用的创新方向”中,但不建议作为第一阶段主线。

15. SAM / 基础模型迁移 ★★★

标题:Cervical Cell Image Segmentation Based on SAM
时间:2025

亮点

  • 探索基础模型在宫颈细胞分割中的适用性;
  • 对前景实例分割、标注辅助可能有价值。

价值定位

  • 更偏探索性,可作为未来方向,不建议作为当前项目主干。

16. 宫颈细胞学基础模型方向(前沿跟踪)★★★☆

标题:UniCAS: A foundation model for cervical cytology screening
期刊:Cell Reports Medicine
时间:2026

亮点

  • 基础模型/预训练大模型路线;
  • 代表该领域开始由任务专用模型向 foundation model 演进。

价值定位

  • 适合放在“前沿趋势展望”,但对当前具体研发实施的直接参考有限。

五、数据集与数据资源论文

17. 高质量数据资源论文★★★★★

标题:A large annotated cervical cytology images dataset for AI models to aid cervical cancer screening
期刊:Scientific Data
时间:2025

核心价值

  • 提供较大规模、较系统标注的宫颈细胞学图像数据资源;
  • 适合用来支撑“高质量数据集仍然稀缺,数据建设本身是核心工作”的论述;
  • 对后续预训练、检测器训练、标注规范设计都有参考意义。

18. 公开数据集汇总

数据集名称 类型 规模 特点
Herlev 单细胞图像 917 张 经典老数据集,适合基础分类实验
SIPaKMeD 单细胞图像 4049 张 5 类,使用较广
ISBI 2014/2015 细胞图像/分割 - 竞赛数据,常用于分割任务
CRIC 细胞图像 400 张左右 含较细粒度分类
Liang 等使用数据 TCT 细胞学检测 7410 张 / 50954 框 11 类异常细胞检测
多中心临床数据(Nat Commun 2025) LBC/WSI 17397 张训练切片 目前最具代表性的临床级数据体系之一

说明

  • 公开数据仍以单细胞图像为主;
  • 真正接近临床应用的高价值研究,更多基于院内/多中心非公开 WSI 或数字切片数据
  • 因此,院内数据建设、标注规范与质量控制仍是关键竞争力。

六、技术路线总结与研发建议

1. 当前高质量研究的主线

从近几年高质量论文看,宫颈 TCT/LBC 智能诊断技术路线已经比较清晰:

TCT/LBC 智能诊断主线
├── 细胞级检测/候选区域提取
│   ├── YOLO / Faster R-CNN / Mask R-CNN
│   └── 注意力增强检测器
├── 切片级/患者级诊断
│   ├── MIL(ABMIL / CLAM / TransMIL)
│   ├── WSI 分类
│   └── TBS 分级与风险分层
├── 表征学习
│   ├── CNN / ViT / Transformer
│   ├── 自监督预训练
│   └── 对比学习
└── 标注成本控制
    ├── 主动学习
    ├── 弱监督 / 半监督
    └── 基础模型辅助标注

2. 对项目的直接建议

(1)任务定义尽量从“整片级辅助诊断”出发
不要只停留在单细胞分类。高质量研究已经明显转向 whole slide / whole cytology slide / TBS 辅助判读

(2)优先考虑“两阶段路线”
即:异常细胞/候选区域检测 → MIL/WSI 级综合判别。这条路线兼顾可解释性与工程可实施性。

(3)重视标注策略设计
如果院内标注资源有限,可引入主动学习、自监督或弱监督策略,降低对精细标注的依赖。

(4)评价体系不要只报 accuracy
建议同时关注敏感性、特异性、AUC、病理医生辅助增益、阅片时间、外部验证效果等,更符合临床转化要求。

(5)数据建设本身就是核心成果
相比单纯换模型,院内 TCT/WSI 数据集建设、质控、标注标准统一,往往更决定项目上限。


七、推荐阅读顺序

优先级 论文 阅读目的
⭐⭐⭐ 必读 系统综述(AI Review 2023) 快速建立整体认识
⭐⭐⭐ 必读 Nat Commun 2025(Xue 等) 对标当前最强临床级系统
⭐⭐⭐ 必读 Nat Commun 2024(Wang 等) 细胞学分级与临床辅助诊断
⭐⭐⭐ 必读 Nat Commun 2021(Zhu 等) TBS 分类经典路线
⭐⭐ 重要 Nat Commun 2021(Cheng 等) WSI 级分析方法框架
⭐⭐ 重要 Cancers 2022(Kanavati 等) 可复现基线模型
⭐⭐ 重要 Frontiers 2023(主动学习) 降低标注成本
⭐⭐ 重要 CMIG 2024(Cell comparative learning) 病理逻辑驱动模型设计
⭐ 扩展 CBM 2024(自监督) 低标注数据策略
⭐ 扩展 MICCAI 2025(弱监督) 前沿探索方向
⭐ 扩展 Scientific Data 2025(数据集) 数据建设与预训练参考
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐