实践分享 · 基于 MinerU + OpenClaw Agent 工作流的文档解析实战,附完整搭建思路

做 RAG、做知识库、做文档分析,绕不开 PDF。但传统的 PDF 解析工具基本上都在处理"文字提取",遇到表格、公式、多栏排版、扫描件,直接崩。

这篇文章分享的是我基于 MinerU 搭建 Agent 工作流的实践思路。


1. MinerU 是什么?

MinerU 是**上海人工智能实验室(Shanghai AI Lab)**开源的文档解析引擎,GitHub star 数已超 59k。

核心能力一览

  • PDF / Word / PPT / 图片 / 网页 → 结构化 Markdown / JSON
  • 公式识别 → 输出 LaTeX,不是截图
  • 表格结构化 → 还原合并单元格,输出 Markdown 表格或 HTML
  • 多栏布局自动识别,阅读顺序正确
  • VLM + OCR 双引擎,支持扫描件和手写体,109 种语言
  • MinerU2.5-Pro:1.2B 参数,OmniDocBench v1.6 得 95.69 分,超越 GPT-4o 和 Qwen2.5-VL-72B

重点是:它是开源免费的,本地 CPU 跑得了,有 GPU 跑得更快。


2. 典型使用场景

📚 学术论文批量入库

以前:下载 PDF → pdfplumber → 公式全乱 → 手动修 → 崩溃

现在:MinerU 一键解析 → 干净 Markdown → 直接喂 Embedding → 进向量数据库

📊 企业报告智能问答

财报、研报、技术文档,版面复杂,传统方案提取质量差。MinerU 在复杂版面上的表现明显优于 pdfplumber、PyMuPDF 等工具。

🤖 Agent 工作流集成

最前沿的场景。配合 LangChain 有官方 langchain-mineru 集成包,一行代码把 PDF 变成 LangChain Document 对象,直接接 RAG pipeline。


3. 工作流搭建思路

我基于 OpenClaw + MinerU 搭的工作流大致如下:

三个关键设计原则:

  1. MinerU 作为「前置处理」节点,负责把非结构化文档变成 LLM 可以直接读的干净文本
  2. 不要让 LLM 直接处理原始 PDF,那是在浪费 token 和精度
  3. 对于扫描件,一定开 VLM 模式,pipeline 模式在这里效果差很多

4. 快速上手

pip install mineru
mineru -p your_document.pdf -o ./output

输出目录里会有:

文件

内容

document.md

完整 Markdown 正文

images/

提取出的图片文件

document_middle.json

带坐标的中间格式,可用于二次开发

完整文档:https://github.com/opendatalab/MinerU


5. 与当下 AI 浪潮的关系

从 Kimi K2.6 说起

这两天 Kimi K2.6 开源刷屏,支持 300 个子 Agent 并行,能跑 13 小时连续编码任务。背后的基础设施是什么?就是结构化的文档处理能力

Agent 做的事越复杂,越需要稳定的知识输入。如果文档解析这一环出了问题,后续所有的推理都是在沙地上建房子。

MinerU 干的就是这个最基础但最容易被忽略的活儿:把文档变成 Agent 能理解的语言


6. 工具对比

对比维度

传统工具(pdfplumber 等)

MinerU

适用场景

公式识别

截图 / 乱码

✅ LaTeX 输出

学术论文、技术文档

表格还原

结构丢失

✅ 完整还原

财报、数据报告

多栏排版

顺序错乱

✅ 正确识别

杂志、期刊 PDF

扫描件支持

基本不可用

✅ VLM 支持

历史档案、合同扫描件

LangChain 接入

需手动处理

✅ 官方 Loader

RAG pipeline 构建


总结

如果你在做任何涉及文档的 AI 工作流,MinerU 值得试一下。它解决的不是"能不能提取文字"的问题,而是"能不能让 AI 真正读懂文档"的问题。这个区别,在实际项目里会差一个量级的效果。

标签: MinerU RAG PDF解析 AI工作流 LangChain OpenClaw Agent CSDN

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐