用 MinerU + Agent 工作流,我把 PDF 处理效率提了 10 倍
实践分享 · 基于 MinerU + OpenClaw Agent 工作流的文档解析实战,附完整搭建思路
做 RAG、做知识库、做文档分析,绕不开 PDF。但传统的 PDF 解析工具基本上都在处理"文字提取",遇到表格、公式、多栏排版、扫描件,直接崩。
这篇文章分享的是我基于 MinerU 搭建 Agent 工作流的实践思路。
1. MinerU 是什么?
MinerU 是**上海人工智能实验室(Shanghai AI Lab)**开源的文档解析引擎,GitHub star 数已超 59k。
核心能力一览
- PDF / Word / PPT / 图片 / 网页 → 结构化 Markdown / JSON
- 公式识别 → 输出 LaTeX,不是截图
- 表格结构化 → 还原合并单元格,输出 Markdown 表格或 HTML
- 多栏布局自动识别,阅读顺序正确
- VLM + OCR 双引擎,支持扫描件和手写体,109 种语言
- MinerU2.5-Pro:1.2B 参数,OmniDocBench v1.6 得 95.69 分,超越 GPT-4o 和 Qwen2.5-VL-72B
重点是:它是开源免费的,本地 CPU 跑得了,有 GPU 跑得更快。
2. 典型使用场景
📚 学术论文批量入库
以前:下载 PDF → pdfplumber → 公式全乱 → 手动修 → 崩溃
现在:MinerU 一键解析 → 干净 Markdown → 直接喂 Embedding → 进向量数据库
📊 企业报告智能问答
财报、研报、技术文档,版面复杂,传统方案提取质量差。MinerU 在复杂版面上的表现明显优于 pdfplumber、PyMuPDF 等工具。
🤖 Agent 工作流集成
最前沿的场景。配合 LangChain 有官方 langchain-mineru 集成包,一行代码把 PDF 变成 LangChain Document 对象,直接接 RAG pipeline。
3. 工作流搭建思路
我基于 OpenClaw + MinerU 搭的工作流大致如下:
三个关键设计原则:
- MinerU 作为「前置处理」节点,负责把非结构化文档变成 LLM 可以直接读的干净文本
- 不要让 LLM 直接处理原始 PDF,那是在浪费 token 和精度
- 对于扫描件,一定开 VLM 模式,pipeline 模式在这里效果差很多
4. 快速上手
pip install mineru
mineru -p your_document.pdf -o ./output
输出目录里会有:
|
文件 |
内容 |
|
|
完整 Markdown 正文 |
|
|
提取出的图片文件 |
|
|
带坐标的中间格式,可用于二次开发 |
完整文档:https://github.com/opendatalab/MinerU
5. 与当下 AI 浪潮的关系
从 Kimi K2.6 说起
这两天 Kimi K2.6 开源刷屏,支持 300 个子 Agent 并行,能跑 13 小时连续编码任务。背后的基础设施是什么?就是结构化的文档处理能力。
Agent 做的事越复杂,越需要稳定的知识输入。如果文档解析这一环出了问题,后续所有的推理都是在沙地上建房子。
MinerU 干的就是这个最基础但最容易被忽略的活儿:把文档变成 Agent 能理解的语言。
6. 工具对比
|
对比维度 |
传统工具(pdfplumber 等) |
MinerU |
适用场景 |
|
公式识别 |
截图 / 乱码 |
✅ LaTeX 输出 |
学术论文、技术文档 |
|
表格还原 |
结构丢失 |
✅ 完整还原 |
财报、数据报告 |
|
多栏排版 |
顺序错乱 |
✅ 正确识别 |
杂志、期刊 PDF |
|
扫描件支持 |
基本不可用 |
✅ VLM 支持 |
历史档案、合同扫描件 |
|
LangChain 接入 |
需手动处理 |
✅ 官方 Loader |
RAG pipeline 构建 |
总结
如果你在做任何涉及文档的 AI 工作流,MinerU 值得试一下。它解决的不是"能不能提取文字"的问题,而是"能不能让 AI 真正读懂文档"的问题。这个区别,在实际项目里会差一个量级的效果。
标签: MinerU RAG PDF解析 AI工作流 LangChain OpenClaw Agent CSDN
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)