宫颈癌 TCT 诊断模型研发 — 论文调研

怪人i命

417人浏览 · 2026-04-08 09:47:38

怪人i命 · 2026-04-08 09:47:38 发布

宫颈癌 TCT 诊断模型研发——论文调研

一、综述类（必读）

1. 系统综述（首选）★★★★★

标题：A systematic review of deep learning-based cervical cytology screening: from cell identification to whole slide image analysis
期刊：Artificial Intelligence Review
时间：2023
DOI：10.1007/s10462-023-10588-z

核心内容：

系统综述 2016 年以来 80 余篇宫颈细胞学 AI 文献；
覆盖细胞识别、异常检测、分割、分类到全切片（WSI）分析；
明确指出研究主线正由单细胞级任务逐步转向整片级筛查与诊断；
对公开数据集、标注方式、可解释性与临床落地问题做了较系统总结。

用途：适合作为开题/立项“研究现状”总述的第一篇基础文献。

2. 方向综述★★★☆

标题：Deep learning techniques for cervical cancer diagnosis based on cytology and colposcopy
期刊：Informatics in Medicine Unlocked
时间：2024

核心内容：

从宫颈细胞学与阴道镜两个方向梳理深度学习应用；
对 CNN、注意力机制等架构进行归纳；
更适合作为“领域扩展阅读”，不如上面的系统综述聚焦 TCT/WSI 主线。

二、核心对标论文（精读）

3. Nature Communications：目前最值得对标的临床落地研究（首选）★★★★★

标题：Deep learning enabled liquid-based cytology model for cervical precancer and cancer detection
期刊：Nature Communications
时间：2025
DOI：10.1038/s41467-025-58883-3

研究特点：

直接面向 liquid-based cytology / whole cytology slides；
采用两阶段流程：先做细胞/局部异常信息提取，再做切片级判别；
面向真实筛查与分流场景，强调多中心与临床可用性。

数据规模与验证：

训练集：17,397 张切片；
额外测试共 10,826 例；
涉及 9 家医院、多阶段评估与读者研究。

核心价值：

是近年宫颈 TCT/LBC 智能诊断最具代表性的临床级研究之一；
非常适合作为后续系统设计、性能对标和应用场景设定的首要参考。

4. Nature Communications：宫颈细胞学分级与癌诊断的高质量临床研究 ★★★★★

标题：Artificial intelligence enables precision diagnosis of cervical cytology grades and cervical cancer
期刊：Nature Communications
时间：2024
DOI：10.1038/s41467-024-48705-3

研究特点：

面向宫颈细胞学分级诊断与宫颈癌识别；
包含回顾性、前瞻性及随机观察试验；
重点不只是“模型做得准”，更强调 AI 对病理医生诊断的一致性和增益。

适用价值：

如果你的研发目标不仅是阳性/阴性筛查，而是进一步向 TBS 分级、辅助判读、临床协同发展，这篇必须看。

5. Nature Communications：TBS 分类经典代表作 ★★★★★

标题：Hybrid AI-assistive diagnostic model permits rapid TBS classification of cervical liquid-based thin-layer cell smears
期刊：Nature Communications
时间：2021
DOI：10.1038/s41467-021-23913-3

研究特点：

直接面向TBS 分类；
多中心大样本研究；
强调 AI 辅助可提升效率并改善判读一致性。

价值定位：

虽然不是最新文章，但仍是宫颈液基细胞学 AI 诊断领域的经典参考；
很适合用来支撑“国内外已有研究已从单细胞识别推进到整片 TBS 辅助诊断”的论述。

6. Nature Communications：宫颈癌筛查 WSI 分析里程碑工作 ★★★★★

标题：Robust whole slide image analysis for cervical cancer screening using deep learning
期刊：Nature Communications
时间：2021
DOI：10.1038/s41467-021-25296-x

研究特点：

代表了宫颈细胞学从 patch/cell 级走向 whole slide image 分析的重要节点；
不仅做全片分类，也关注病灶区域定位与泛化能力；
对后续很多 WSI 路线论文都有方法学启发。

价值定位：

如果后续要做整片级诊断模型，这篇是重要技术路线参考。

7. Cancers：适合作为可复现的 WSI 基线论文 ★★★★

标题：A Deep Learning Model for Cervical Cancer Screening on Liquid-Based Cytology Specimens in Whole Slide Images
期刊：Cancers
时间：2022
DOI：10.3390/cancers14051159

研究特点：

使用 1,605 张 LBC 全切片图像；
任务相对直接：neoplastic vs non-neoplastic；
结果清晰，适合作为“先做一个可跑通的基线系统”的参考。

价值定位：

如果你现在还处在从 0 到 1 搭建 TCT/WSI 级模型阶段，这篇很实用；
可作为低门槛、工程上较易复现的对照基线。

三、模型方法与技术补充论文（研发参考）

8. 异常细胞检测：Trans-YOLOv5 ★★★★

标题：Trans-YOLOv5: a YOLOv5-based prior transformer network model for automated detection of abnormal cells or clumps in cervical cytology images
时间：2024

亮点：

针对异常细胞/细胞团检测；
把目标检测与 Transformer 注意力结合；
适合作为“细胞级候选区域提取模块”的参考。

适用场景：

若考虑做“两阶段流程（异常细胞检测 → 切片级判别）”，可借鉴其检测头与注意力设计。

9. 主动学习：降低标注成本的实用路线 ★★★★

标题：Deep Convolutional Neural Networks Using an Active Learning Strategy for Cervical Cancer Screening and Diagnosis
期刊：Frontiers in Bioinformatics
时间：2023

亮点：

Mask R-CNN + 机器学习患者级诊断；
通过主动学习减少专家标注工作量；
对“数据少、标注贵”的院内研发环境尤其有参考意义。

适用场景：

适合作为后续“人机协同标注迭代”的技术补充思路。

10. WSI 分类：Cell Comparative Learning ★★★★

标题：Cell comparative learning: A cervical cytopathology whole slide image classification method using normal and abnormal cells
期刊：Computerized Medical Imaging and Graphics
时间：2024

亮点：

利用正常与异常细胞的对比关系进行全片分类；
融合检测、表征学习与 Transformer/MIL 思路；
更贴近病理医生“对比观察”的判读逻辑。

适用场景：

对设计“病理知识引导”的模型结构有启发。

11. 自监督学习：适合低标注数据场景 ★★★★

标题：Self-supervised learning-based cervical cytology for the triage of HPV-positive women in resource-limited settings and low-data regime
期刊：Computers in Biology and Medicine
时间：2024

亮点：

将自监督学习用于宫颈细胞学；
强调低数据、资源受限与 HPV 阳性人群分流场景；
对减少强标注依赖具有现实意义。

适用场景：

如果数据量有限，这篇可作为“先预训练、再微调”的方法参考。

12. 可解释检测器：临床友好方向 ★★★☆

标题：Interpretable detector for cervical cytology using self-attention mechanisms
期刊：Engineering Applications of Artificial Intelligence
时间：2024

亮点：

强调可解释性；
融入 self-attention；
更适合做“辅助研究/方法补充”，不是当前最核心的对标论文。

13. 多尺度特征融合细胞检测 ★★★☆

标题：Detection of cervical cell based on multi-scale feature fusion and attention mechanism
期刊：Scientific Reports
时间：2025

亮点：

主要针对细胞尺度变化、复杂背景下的检测问题；
适合作为细胞检测模块的补充阅读。

四、前沿探索方向（可选精读）

14. 弱监督 / 半监督：减少细粒度标注依赖 ★★★★

标题：Weakly Semi-Supervised Cervical Lesion Cell Detection via Twin-memory augmented MIL
会议：MICCAI 2025

亮点：

将弱监督、半监督与 MIL 结合；
解决 WSI 级标注和细胞级标注不匹配问题；
是很符合宫颈细胞学真实数据现状的方向。

价值定位：

适合放在“拟采用的创新方向”中，但不建议作为第一阶段主线。

15. SAM / 基础模型迁移 ★★★

标题：Cervical Cell Image Segmentation Based on SAM
时间：2025

亮点：

探索基础模型在宫颈细胞分割中的适用性；
对前景实例分割、标注辅助可能有价值。

价值定位：

更偏探索性，可作为未来方向，不建议作为当前项目主干。

16. 宫颈细胞学基础模型方向（前沿跟踪）★★★☆

标题：UniCAS: A foundation model for cervical cytology screening
期刊：Cell Reports Medicine
时间：2026

亮点：

基础模型/预训练大模型路线；
代表该领域开始由任务专用模型向 foundation model 演进。

价值定位：

适合放在“前沿趋势展望”，但对当前具体研发实施的直接参考有限。

五、数据集与数据资源论文

17. 高质量数据资源论文★★★★★

标题：A large annotated cervical cytology images dataset for AI models to aid cervical cancer screening
期刊：Scientific Data
时间：2025

核心价值：

提供较大规模、较系统标注的宫颈细胞学图像数据资源；
适合用来支撑“高质量数据集仍然稀缺，数据建设本身是核心工作”的论述；
对后续预训练、检测器训练、标注规范设计都有参考意义。

18. 公开数据集汇总

数据集名称	类型	规模	特点
Herlev	单细胞图像	917 张	经典老数据集，适合基础分类实验
SIPaKMeD	单细胞图像	4049 张	5 类，使用较广
ISBI 2014/2015	细胞图像/分割	-	竞赛数据，常用于分割任务
CRIC	细胞图像	400 张左右	含较细粒度分类
Liang 等使用数据	TCT 细胞学检测	7410 张 / 50954 框	11 类异常细胞检测
多中心临床数据（Nat Commun 2025）	LBC/WSI	17397 张训练切片	目前最具代表性的临床级数据体系之一

说明：

公开数据仍以单细胞图像为主；
真正接近临床应用的高价值研究，更多基于院内/多中心非公开 WSI 或数字切片数据；
因此，院内数据建设、标注规范与质量控制仍是关键竞争力。

六、技术路线总结与研发建议

1. 当前高质量研究的主线

从近几年高质量论文看，宫颈 TCT/LBC 智能诊断技术路线已经比较清晰：

TCT/LBC 智能诊断主线
├── 细胞级检测/候选区域提取
│   ├── YOLO / Faster R-CNN / Mask R-CNN
│   └── 注意力增强检测器
├── 切片级/患者级诊断
│   ├── MIL（ABMIL / CLAM / TransMIL）
│   ├── WSI 分类
│   └── TBS 分级与风险分层
├── 表征学习
│   ├── CNN / ViT / Transformer
│   ├── 自监督预训练
│   └── 对比学习
└── 标注成本控制
    ├── 主动学习
    ├── 弱监督 / 半监督
    └── 基础模型辅助标注

2. 对项目的直接建议

（1）任务定义尽量从“整片级辅助诊断”出发
不要只停留在单细胞分类。高质量研究已经明显转向 whole slide / whole cytology slide / TBS 辅助判读。

（2）优先考虑“两阶段路线”
即：异常细胞/候选区域检测 → MIL/WSI 级综合判别。这条路线兼顾可解释性与工程可实施性。

（3）重视标注策略设计
如果院内标注资源有限，可引入主动学习、自监督或弱监督策略，降低对精细标注的依赖。

（4）评价体系不要只报 accuracy
建议同时关注敏感性、特异性、AUC、病理医生辅助增益、阅片时间、外部验证效果等，更符合临床转化要求。

（5）数据建设本身就是核心成果
相比单纯换模型，院内 TCT/WSI 数据集建设、质控、标注标准统一，往往更决定项目上限。

七、推荐阅读顺序

优先级	论文	阅读目的
⭐⭐⭐ 必读	系统综述（AI Review 2023）	快速建立整体认识
⭐⭐⭐ 必读	Nat Commun 2025（Xue 等）	对标当前最强临床级系统
⭐⭐⭐ 必读	Nat Commun 2024（Wang 等）	细胞学分级与临床辅助诊断
⭐⭐⭐ 必读	Nat Commun 2021（Zhu 等）	TBS 分类经典路线
⭐⭐ 重要	Nat Commun 2021（Cheng 等）	WSI 级分析方法框架
⭐⭐ 重要	Cancers 2022（Kanavati 等）	可复现基线模型
⭐⭐ 重要	Frontiers 2023（主动学习）	降低标注成本
⭐⭐ 重要	CMIG 2024（Cell comparative learning）	病理逻辑驱动模型设计
⭐ 扩展	CBM 2024（自监督）	低标注数据策略
⭐ 扩展	MICCAI 2025（弱监督）	前沿探索方向
⭐ 扩展	Scientific Data 2025（数据集）	数据建设与预训练参考