MinerU:66K Star 的高精度文档解析引擎

MinerU 最近在 GitHub 上势头很猛,Star 数已经冲到 6.6 万。这个项目解决的问题很实在:把各种格式的文档,统一转成结构化的 Markdown 或 JSON。

正文顶部截图

它诞生于 InternLM 大模型预训练过程,初衷是解决科学文献中的符号转换问题。开发团队发现,要把 PDF、图片这些非结构化数据喂给 AI,中间缺一个靠谱的解析层。MinerU 就是补这个缺口的。

核心能力:不只是转格式

MinerU 支持 PDF、图片、DOCX、PPTX、XLSX 五种主流输入格式。输出方面提供 Markdown、JSON、以及丰富的中间格式,适配 RAG、Agent 等各种下游场景。

它的解析不是简单把文字扒下来。处理流程包括:去除页眉页脚和页码、按人类阅读顺序重组内容、保留标题层级和列表结构、提取图片和表格、公式转 LaTeX、表格转 HTML。遇到扫描件或乱码 PDF,会自动启用 OCR,支持 109 种语言识别。

最新发布的 3.1.0 版本有几个实质性升级。许可证从 AGPLv3 改成了基于 Apache 2.0 的自定义开源协议,商业使用门槛大幅降低。VLM 主模型升级到 MinerU2.5-Pro-2604-1.2B,解析精度达到业内领先水平。同时原生支持了 PPTX 和 XLSX 解析,不再需要先转成 PDF 再处理。

README区域截图

三种推理后端,按需选择

MinerU 提供三种推理后端:

  • pipeline:兼容性好,纯 CPU 就能跑,OmniDocBench 得分 86+
  • vlm-engine:精度最高,95+ 分,需要 GPU
  • hybrid-engine:兼顾精度和成本,原生文本提取加低幻觉

硬件需求方面,pipeline 最低 4GB 显存或纯 CPU,vlm 后端需要 8GB 显存。内存建议 16GB 起步,32GB 更稳。支持 Windows、Linux、macOS 三个平台。

部署方式很灵活

安装方式包括 pip 安装、源码安装和 Docker 部署。一条命令就能跑起来:

mineru -p <input_path> -o <output_path>

没 GPU 的话加 -b pipeline 参数,纯 CPU 也能正常工作。

除了 CLI,它还内置了 FastAPI 服务和 Gradio WebUI,也支持通过 mineru-router 做多 GPU 负载均衡部署。生态集成方面,提供了 MCP Server,可以在 Cursor、Claude Desktop、Windsurf 里直接调用;也对接了 LangChain、LlamaIndex、Dify、FastGPT 等主流 RAG 框架。

适用场景

如果你是做知识库建设的,这工具能把历史文档快速迁移到 Markdown 体系。如果你在做 RAG 或 Agent 项目,需要把 PDF、PPT 这些非结构化数据转成 AI 可读的格式,MinerU 基本是目前开源方案里最完善的选择之一。

Star History截图

6.6 万 Star 的数据说明市场对这个需求的认可度。文档解析这件事,看起来简单,实际做好很难。MinerU 的迭代速度很快,从年初到现在已经发了多个大版本,License 也更友好了,值得关注。

erU 的迭代速度很快,从年初到现在已经发了多个大版本,License 也更友好了,值得关注。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐