MinerU：66K Star 的高精度文档解析引擎

psipixel87991

349人浏览 · 2026-06-06 17:11:32

psipixel87991 · 2026-06-06 17:11:32 发布

文章目录

MinerU：66K Star 的高精度文档解析引擎

MinerU：66K Star 的高精度文档解析引擎

MinerU 最近在 GitHub 上势头很猛，Star 数已经冲到 6.6 万。这个项目解决的问题很实在：把各种格式的文档，统一转成结构化的 Markdown 或 JSON。

正文顶部截图

它诞生于 InternLM 大模型预训练过程，初衷是解决科学文献中的符号转换问题。开发团队发现，要把 PDF、图片这些非结构化数据喂给 AI，中间缺一个靠谱的解析层。MinerU 就是补这个缺口的。

核心能力：不只是转格式

MinerU 支持 PDF、图片、DOCX、PPTX、XLSX 五种主流输入格式。输出方面提供 Markdown、JSON、以及丰富的中间格式，适配 RAG、Agent 等各种下游场景。

它的解析不是简单把文字扒下来。处理流程包括：去除页眉页脚和页码、按人类阅读顺序重组内容、保留标题层级和列表结构、提取图片和表格、公式转 LaTeX、表格转 HTML。遇到扫描件或乱码 PDF，会自动启用 OCR，支持 109 种语言识别。

最新发布的 3.1.0 版本有几个实质性升级。许可证从 AGPLv3 改成了基于 Apache 2.0 的自定义开源协议，商业使用门槛大幅降低。VLM 主模型升级到 MinerU2.5-Pro-2604-1.2B，解析精度达到业内领先水平。同时原生支持了 PPTX 和 XLSX 解析，不再需要先转成 PDF 再处理。

README区域截图

三种推理后端，按需选择

MinerU 提供三种推理后端：

pipeline：兼容性好，纯 CPU 就能跑，OmniDocBench 得分 86+
vlm-engine：精度最高，95+ 分，需要 GPU
hybrid-engine：兼顾精度和成本，原生文本提取加低幻觉

硬件需求方面，pipeline 最低 4GB 显存或纯 CPU，vlm 后端需要 8GB 显存。内存建议 16GB 起步，32GB 更稳。支持 Windows、Linux、macOS 三个平台。

部署方式很灵活

安装方式包括 pip 安装、源码安装和 Docker 部署。一条命令就能跑起来：

mineru -p <input_path> -o <output_path>

没 GPU 的话加 -b pipeline 参数，纯 CPU 也能正常工作。

除了 CLI，它还内置了 FastAPI 服务和 Gradio WebUI，也支持通过 mineru-router 做多 GPU 负载均衡部署。生态集成方面，提供了 MCP Server，可以在 Cursor、Claude Desktop、Windsurf 里直接调用；也对接了 LangChain、LlamaIndex、Dify、FastGPT 等主流 RAG 框架。