多模态文档解析后处理开源模型：MinerU-Popo方案思路提升RAG性能

余俊晖

235人浏览 · 2026-06-06 16:14:25

余俊晖 · 2026-06-06 16:14:25 发布

目前各类的文档解析方案（VLM-OCR）都是基于【单页】文档进行解析，输出每页文字、表格、图片+坐标框，但存在4类跨页缺点：

段落跨页被分页切割、文本断裂；
大表格分页拆分，上下表身割裂；
多级标题（一级/二级/三级标题）层级混乱、从属关系丢失；
插图和对应正文分离，图文无法绑定。

在RAG场景，需要全书/文档连贯的文档级结构化数据。
MinerU-Popo是一个后处理方案，在不改动原有VLM-OCR模型后对文档级结构进行重构。

方法架构

整体方案针对4类跨页缺点基于Qwen3-VL-4B构造4个任务各自独立数据集进行微调。对于【跨页文本截断、表格截断】，定义成二分类任务；

对于【标题层级重构】，定义成开放层级（1、2、3…n）预测;

【图文关联匹配（图片和图注 / 正文描述分散在不同页面，绑定图文）】，预测文字与其关联的图像或表格。

最终四项任务全部跑完后，所有零散页面元素被组装为文档树结构：
全书(H0)→一级标题H1→二级H2→(段落/完整表格/绑定图片)，直接适配RAG知识库入库。

实验评测

参考文献

MinerU-Popo: Universal Post-Processing Model for Structured Document Parsing，https://arxiv.org/abs/2605.24973

往期相关

多模态文档解析的开源项目模型技术方案都在《文档智能专栏》，如：

…

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

我们如何利用「混沌工程」工具Chaos Blade进行故障演练？

而Chaos Blade作为阿里巴巴开源的混沌工程实验工具，凭借其轻量级、易用性和丰富的故障场景支持，成为故障演练的利器。这种与K8s深度集成的能力，使得在微服务架构下进行服务熔断、节点宕机等演练变得异常简单，有效验证服务网格的容错机制。Chaos Blade支持创建复杂的演练场景。建议将演练结果与监控系统、日志平台的数据进行关联分析，找出系统的薄弱环节，持续优化架构设计。通过定期使用Chaos

AtomGit开源社区

AI 辅助学术写作（五）：模块化论文撰写与开源交付——从草稿到可复现研究包

这两个部分放在最后写，因为它们是对全文的精炼，而不是提前预设的框架。请基于以下信息，撰写一个150-200字的学术摘要。【摘要必须包含的五个要素】1. 研究问题（一句话）：[你的核心研究问题]2. 研究方法（一句话）：[数据来源 + 识别策略]3. 核心发现（两句话）：[主要系数 + 经济含义]4. 异质性/机制（一句话）：[最重要的一个扩展发现]5. 政策含义（一句话）：[对政策制定的启示]【格

AtomGit开源社区

DALI / UMAP / H5

这几个词通常出现在深度学习框架、数据处理库、AI训练平台或代码仓库的功能说明中，表示该系统支持相应的数据处理技术或文件格式。DALI 指的是 NVIDIA DALI（Data Loading Library）。它是 NVIDIA 开发的高性能数据加载与预处理框架，主要用于加速训练过程。例如 ImageNet 训练时，DALI 可以减少 CPU 成为瓶颈的问题。对于大规模视觉训练（ImageNet、