宫颈癌 TCT 诊断模型研发 — 论文调研
宫颈癌 TCT 诊断模型研发——论文调研
一、综述类(必读)
1. 系统综述(首选)★★★★★
标题:A systematic review of deep learning-based cervical cytology screening: from cell identification to whole slide image analysis
期刊:Artificial Intelligence Review
时间:2023
DOI:10.1007/s10462-023-10588-z
核心内容:
- 系统综述 2016 年以来 80 余篇宫颈细胞学 AI 文献;
- 覆盖细胞识别、异常检测、分割、分类到全切片(WSI)分析;
- 明确指出研究主线正由单细胞级任务逐步转向整片级筛查与诊断;
- 对公开数据集、标注方式、可解释性与临床落地问题做了较系统总结。
用途:适合作为开题/立项“研究现状”总述的第一篇基础文献。
2. 方向综述★★★☆
标题:Deep learning techniques for cervical cancer diagnosis based on cytology and colposcopy
期刊:Informatics in Medicine Unlocked
时间:2024
核心内容:
- 从宫颈细胞学与阴道镜两个方向梳理深度学习应用;
- 对 CNN、注意力机制等架构进行归纳;
- 更适合作为“领域扩展阅读”,不如上面的系统综述聚焦 TCT/WSI 主线。
二、核心对标论文(精读)
3. Nature Communications:目前最值得对标的临床落地研究(首选)★★★★★
标题:Deep learning enabled liquid-based cytology model for cervical precancer and cancer detection
期刊:Nature Communications
时间:2025
DOI:10.1038/s41467-025-58883-3
研究特点:
- 直接面向 liquid-based cytology / whole cytology slides;
- 采用两阶段流程:先做细胞/局部异常信息提取,再做切片级判别;
- 面向真实筛查与分流场景,强调多中心与临床可用性。
数据规模与验证:
- 训练集:17,397 张切片;
- 额外测试共 10,826 例;
- 涉及 9 家医院、多阶段评估与读者研究。
核心价值:
- 是近年宫颈 TCT/LBC 智能诊断最具代表性的临床级研究之一;
- 非常适合作为后续系统设计、性能对标和应用场景设定的首要参考。
4. Nature Communications:宫颈细胞学分级与癌诊断的高质量临床研究 ★★★★★
标题:Artificial intelligence enables precision diagnosis of cervical cytology grades and cervical cancer
期刊:Nature Communications
时间:2024
DOI:10.1038/s41467-024-48705-3
研究特点:
- 面向宫颈细胞学分级诊断与宫颈癌识别;
- 包含回顾性、前瞻性及随机观察试验;
- 重点不只是“模型做得准”,更强调 AI 对病理医生诊断的一致性和增益。
适用价值:
- 如果你的研发目标不仅是阳性/阴性筛查,而是进一步向 TBS 分级、辅助判读、临床协同发展,这篇必须看。
5. Nature Communications:TBS 分类经典代表作 ★★★★★
标题:Hybrid AI-assistive diagnostic model permits rapid TBS classification of cervical liquid-based thin-layer cell smears
期刊:Nature Communications
时间:2021
DOI:10.1038/s41467-021-23913-3
研究特点:
- 直接面向TBS 分类;
- 多中心大样本研究;
- 强调 AI 辅助可提升效率并改善判读一致性。
价值定位:
- 虽然不是最新文章,但仍是宫颈液基细胞学 AI 诊断领域的经典参考;
- 很适合用来支撑“国内外已有研究已从单细胞识别推进到整片 TBS 辅助诊断”的论述。
6. Nature Communications:宫颈癌筛查 WSI 分析里程碑工作 ★★★★★
标题:Robust whole slide image analysis for cervical cancer screening using deep learning
期刊:Nature Communications
时间:2021
DOI:10.1038/s41467-021-25296-x
研究特点:
- 代表了宫颈细胞学从 patch/cell 级走向 whole slide image 分析的重要节点;
- 不仅做全片分类,也关注病灶区域定位与泛化能力;
- 对后续很多 WSI 路线论文都有方法学启发。
价值定位:
- 如果后续要做整片级诊断模型,这篇是重要技术路线参考。
7. Cancers:适合作为可复现的 WSI 基线论文 ★★★★
标题:A Deep Learning Model for Cervical Cancer Screening on Liquid-Based Cytology Specimens in Whole Slide Images
期刊:Cancers
时间:2022
DOI:10.3390/cancers14051159
研究特点:
- 使用 1,605 张 LBC 全切片图像;
- 任务相对直接:neoplastic vs non-neoplastic;
- 结果清晰,适合作为“先做一个可跑通的基线系统”的参考。
价值定位:
- 如果你现在还处在从 0 到 1 搭建 TCT/WSI 级模型阶段,这篇很实用;
- 可作为低门槛、工程上较易复现的对照基线。
三、模型方法与技术补充论文(研发参考)
8. 异常细胞检测:Trans-YOLOv5 ★★★★
标题:Trans-YOLOv5: a YOLOv5-based prior transformer network model for automated detection of abnormal cells or clumps in cervical cytology images
时间:2024
亮点:
- 针对异常细胞/细胞团检测;
- 把目标检测与 Transformer 注意力结合;
- 适合作为“细胞级候选区域提取模块”的参考。
适用场景:
- 若考虑做“两阶段流程(异常细胞检测 → 切片级判别)”,可借鉴其检测头与注意力设计。
9. 主动学习:降低标注成本的实用路线 ★★★★
标题:Deep Convolutional Neural Networks Using an Active Learning Strategy for Cervical Cancer Screening and Diagnosis
期刊:Frontiers in Bioinformatics
时间:2023
亮点:
- Mask R-CNN + 机器学习患者级诊断;
- 通过主动学习减少专家标注工作量;
- 对“数据少、标注贵”的院内研发环境尤其有参考意义。
适用场景:
- 适合作为后续“人机协同标注迭代”的技术补充思路。
10. WSI 分类:Cell Comparative Learning ★★★★
标题:Cell comparative learning: A cervical cytopathology whole slide image classification method using normal and abnormal cells
期刊:Computerized Medical Imaging and Graphics
时间:2024
亮点:
- 利用正常与异常细胞的对比关系进行全片分类;
- 融合检测、表征学习与 Transformer/MIL 思路;
- 更贴近病理医生“对比观察”的判读逻辑。
适用场景:
- 对设计“病理知识引导”的模型结构有启发。
11. 自监督学习:适合低标注数据场景 ★★★★
标题:Self-supervised learning-based cervical cytology for the triage of HPV-positive women in resource-limited settings and low-data regime
期刊:Computers in Biology and Medicine
时间:2024
亮点:
- 将自监督学习用于宫颈细胞学;
- 强调低数据、资源受限与 HPV 阳性人群分流场景;
- 对减少强标注依赖具有现实意义。
适用场景:
- 如果数据量有限,这篇可作为“先预训练、再微调”的方法参考。
12. 可解释检测器:临床友好方向 ★★★☆
标题:Interpretable detector for cervical cytology using self-attention mechanisms
期刊:Engineering Applications of Artificial Intelligence
时间:2024
亮点:
- 强调可解释性;
- 融入 self-attention;
- 更适合做“辅助研究/方法补充”,不是当前最核心的对标论文。
13. 多尺度特征融合细胞检测 ★★★☆
标题:Detection of cervical cell based on multi-scale feature fusion and attention mechanism
期刊:Scientific Reports
时间:2025
亮点:
- 主要针对细胞尺度变化、复杂背景下的检测问题;
- 适合作为细胞检测模块的补充阅读。
四、前沿探索方向(可选精读)
14. 弱监督 / 半监督:减少细粒度标注依赖 ★★★★
标题:Weakly Semi-Supervised Cervical Lesion Cell Detection via Twin-memory augmented MIL
会议:MICCAI 2025
亮点:
- 将弱监督、半监督与 MIL 结合;
- 解决 WSI 级标注和细胞级标注不匹配问题;
- 是很符合宫颈细胞学真实数据现状的方向。
价值定位:
- 适合放在“拟采用的创新方向”中,但不建议作为第一阶段主线。
15. SAM / 基础模型迁移 ★★★
标题:Cervical Cell Image Segmentation Based on SAM
时间:2025
亮点:
- 探索基础模型在宫颈细胞分割中的适用性;
- 对前景实例分割、标注辅助可能有价值。
价值定位:
- 更偏探索性,可作为未来方向,不建议作为当前项目主干。
16. 宫颈细胞学基础模型方向(前沿跟踪)★★★☆
标题:UniCAS: A foundation model for cervical cytology screening
期刊:Cell Reports Medicine
时间:2026
亮点:
- 基础模型/预训练大模型路线;
- 代表该领域开始由任务专用模型向 foundation model 演进。
价值定位:
- 适合放在“前沿趋势展望”,但对当前具体研发实施的直接参考有限。
五、数据集与数据资源论文
17. 高质量数据资源论文★★★★★
标题:A large annotated cervical cytology images dataset for AI models to aid cervical cancer screening
期刊:Scientific Data
时间:2025
核心价值:
- 提供较大规模、较系统标注的宫颈细胞学图像数据资源;
- 适合用来支撑“高质量数据集仍然稀缺,数据建设本身是核心工作”的论述;
- 对后续预训练、检测器训练、标注规范设计都有参考意义。
18. 公开数据集汇总
| 数据集名称 | 类型 | 规模 | 特点 |
|---|---|---|---|
| Herlev | 单细胞图像 | 917 张 | 经典老数据集,适合基础分类实验 |
| SIPaKMeD | 单细胞图像 | 4049 张 | 5 类,使用较广 |
| ISBI 2014/2015 | 细胞图像/分割 | - | 竞赛数据,常用于分割任务 |
| CRIC | 细胞图像 | 400 张左右 | 含较细粒度分类 |
| Liang 等使用数据 | TCT 细胞学检测 | 7410 张 / 50954 框 | 11 类异常细胞检测 |
| 多中心临床数据(Nat Commun 2025) | LBC/WSI | 17397 张训练切片 | 目前最具代表性的临床级数据体系之一 |
说明:
- 公开数据仍以单细胞图像为主;
- 真正接近临床应用的高价值研究,更多基于院内/多中心非公开 WSI 或数字切片数据;
- 因此,院内数据建设、标注规范与质量控制仍是关键竞争力。
六、技术路线总结与研发建议
1. 当前高质量研究的主线
从近几年高质量论文看,宫颈 TCT/LBC 智能诊断技术路线已经比较清晰:
TCT/LBC 智能诊断主线
├── 细胞级检测/候选区域提取
│ ├── YOLO / Faster R-CNN / Mask R-CNN
│ └── 注意力增强检测器
├── 切片级/患者级诊断
│ ├── MIL(ABMIL / CLAM / TransMIL)
│ ├── WSI 分类
│ └── TBS 分级与风险分层
├── 表征学习
│ ├── CNN / ViT / Transformer
│ ├── 自监督预训练
│ └── 对比学习
└── 标注成本控制
├── 主动学习
├── 弱监督 / 半监督
└── 基础模型辅助标注
2. 对项目的直接建议
(1)任务定义尽量从“整片级辅助诊断”出发
不要只停留在单细胞分类。高质量研究已经明显转向 whole slide / whole cytology slide / TBS 辅助判读。
(2)优先考虑“两阶段路线”
即:异常细胞/候选区域检测 → MIL/WSI 级综合判别。这条路线兼顾可解释性与工程可实施性。
(3)重视标注策略设计
如果院内标注资源有限,可引入主动学习、自监督或弱监督策略,降低对精细标注的依赖。
(4)评价体系不要只报 accuracy
建议同时关注敏感性、特异性、AUC、病理医生辅助增益、阅片时间、外部验证效果等,更符合临床转化要求。
(5)数据建设本身就是核心成果
相比单纯换模型,院内 TCT/WSI 数据集建设、质控、标注标准统一,往往更决定项目上限。
七、推荐阅读顺序
| 优先级 | 论文 | 阅读目的 |
|---|---|---|
| ⭐⭐⭐ 必读 | 系统综述(AI Review 2023) | 快速建立整体认识 |
| ⭐⭐⭐ 必读 | Nat Commun 2025(Xue 等) | 对标当前最强临床级系统 |
| ⭐⭐⭐ 必读 | Nat Commun 2024(Wang 等) | 细胞学分级与临床辅助诊断 |
| ⭐⭐⭐ 必读 | Nat Commun 2021(Zhu 等) | TBS 分类经典路线 |
| ⭐⭐ 重要 | Nat Commun 2021(Cheng 等) | WSI 级分析方法框架 |
| ⭐⭐ 重要 | Cancers 2022(Kanavati 等) | 可复现基线模型 |
| ⭐⭐ 重要 | Frontiers 2023(主动学习) | 降低标注成本 |
| ⭐⭐ 重要 | CMIG 2024(Cell comparative learning) | 病理逻辑驱动模型设计 |
| ⭐ 扩展 | CBM 2024(自监督) | 低标注数据策略 |
| ⭐ 扩展 | MICCAI 2025(弱监督) | 前沿探索方向 |
| ⭐ 扩展 | Scientific Data 2025(数据集) | 数据建设与预训练参考 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)