用 MinerU + Agent 工作流，我把 PDF 处理效率提了 10 倍

m0_61134850

619人浏览 · 2026-04-26 07:39:26

m0_61134850 · 2026-04-26 07:39:26 发布

实践分享 · 基于 MinerU + OpenClaw Agent 工作流的文档解析实战，附完整搭建思路

做 RAG、做知识库、做文档分析，绕不开 PDF。但传统的 PDF 解析工具基本上都在处理"文字提取"，遇到表格、公式、多栏排版、扫描件，直接崩。

这篇文章分享的是我基于 MinerU 搭建 Agent 工作流的实践思路。

1. MinerU 是什么？

MinerU 是**上海人工智能实验室（Shanghai AI Lab）**开源的文档解析引擎，GitHub star 数已超 59k。

核心能力一览

PDF / Word / PPT / 图片 / 网页 → 结构化 Markdown / JSON

公式识别 → 输出 LaTeX，不是截图

表格结构化 → 还原合并单元格，输出 Markdown 表格或 HTML

多栏布局自动识别，阅读顺序正确

VLM + OCR 双引擎，支持扫描件和手写体，109 种语言

MinerU2.5-Pro：1.2B 参数，OmniDocBench v1.6 得 95.69 分，超越 GPT-4o 和 Qwen2.5-VL-72B

重点是：它是开源免费的，本地 CPU 跑得了，有 GPU 跑得更快。

2. 典型使用场景

📚 学术论文批量入库

以前：下载 PDF → pdfplumber → 公式全乱 → 手动修 → 崩溃

现在：MinerU 一键解析 → 干净 Markdown → 直接喂 Embedding → 进向量数据库

📊 企业报告智能问答

财报、研报、技术文档，版面复杂，传统方案提取质量差。MinerU 在复杂版面上的表现明显优于 pdfplumber、PyMuPDF 等工具。

🤖 Agent 工作流集成

最前沿的场景。配合 LangChain 有官方 langchain-mineru 集成包，一行代码把 PDF 变成 LangChain Document 对象，直接接 RAG pipeline。

3. 工作流搭建思路

我基于 OpenClaw + MinerU 搭的工作流大致如下：

三个关键设计原则：

MinerU 作为「前置处理」节点，负责把非结构化文档变成 LLM 可以直接读的干净文本
不要让 LLM 直接处理原始 PDF，那是在浪费 token 和精度
对于扫描件，一定开 VLM 模式，pipeline 模式在这里效果差很多

4. 快速上手

pip install mineru
mineru -p your_document.pdf -o ./output

输出目录里会有：

文件	内容
`document.md`	完整 Markdown 正文
`images/`	提取出的图片文件
`document_middle.json`	带坐标的中间格式，可用于二次开发

完整文档：https://github.com/opendatalab/MinerU

5. 与当下 AI 浪潮的关系

从 Kimi K2.6 说起

这两天 Kimi K2.6 开源刷屏，支持 300 个子 Agent 并行，能跑 13 小时连续编码任务。背后的基础设施是什么？就是结构化的文档处理能力。

Agent 做的事越复杂，越需要稳定的知识输入。如果文档解析这一环出了问题，后续所有的推理都是在沙地上建房子。

MinerU 干的就是这个最基础但最容易被忽略的活儿：把文档变成 Agent 能理解的语言。

6. 工具对比

对比维度	传统工具（pdfplumber 等）	MinerU	适用场景
公式识别	截图 / 乱码	✅ LaTeX 输出	学术论文、技术文档
表格还原	结构丢失	✅ 完整还原	财报、数据报告
多栏排版	顺序错乱	✅ 正确识别	杂志、期刊 PDF
扫描件支持	基本不可用	✅ VLM 支持	历史档案、合同扫描件
LangChain 接入	需手动处理	✅ 官方 Loader	RAG pipeline 构建