PDF 发票提取技能包:MinerU + Agent Skill,零模型零 GPU 方案
起因
财务拿了几十张发票 PDF 过来,让帮忙把发票数据提出来。
想着 Agent 干这事还不是分分钟——结果试了一圈傻眼了。pymupdf 提取出来排版全乱,表格散了;marker-pdf 装完 3-5GB 模型 Windows 上还跑不起来。折腾半天,不如手动复制粘贴。
这才发现 Agent Skill 生态里 PDF 这块的货基本都是教 AI 怎么调 PyMuPDF、怎么拼 pandoc 命令——面向的是"开发者写代码时操作 PDF",不是"帮我把发票数据提出来"。发票提取、合同解析、财报转表格这些国内办公刚需,反而没什么现成的 skill 能直接用。
所以就想,有没有一个方案——不装模型、不配 GPU、中文 PDF 解析效果好、还能直接给 Agent 读?调研了一圈:
- pymupdf:轻但中文排版乱,表格基本白给
- marker-pdf:效果好但装完 3-5GB 模型,Windows 折腾半天
- MinerU:66k⭐,国产,中文解析业内公认最强,但本地装也要 20GB
最后发现 MinerU 有云 API,免费 1 万页/天,不需要 Token 就能用。测了一张增值税发票,效果比预期的好——表格转 HTML、金额大小写完整提取。于是就有了 pdf-mineru 这个 skill。
一个 Hermes skill,不用 GPU 不用模型
pdf-mineru 是一个 Hermes skill,背后接 MinerU 云 API。MinerU 是上海 AI 实验室的项目(66k⭐),中文文档解析是它最强的点。
用起来很简单:
# 装 CLI
npm install -g mineru-open-api-win32-x64
# 解析发票
mineru-open-api flash-extract invoice.pdf
然后 Agent 就能拿到完整的结构化 Markdown。
不需要 API Key,不需要本地模型,不需要 GPU。 免费额度每天 1 万页。
实测效果
拿一张增值税电子发票测试,关键字段全部正确提取:
| 字段 | 提取结果 |
|---|---|
| 发票号码 | ✅ 完整识别 |
| 开票日期 | ✅ 完整识别 |
| 购买方 / 销售方 | ✅ 完整识别 |
| 金额 / 税额 / 价税合计 | ✅ 数字 + 中文大写 |
| 商品明细 | ✅ 表格转 HTML,多级表头保留 |
表格转成了 HTML,合并单元格没丢,金额大小写都拿到了。这个效果 pymupdf 做不到,marker-pdf 得折腾半天。
支持什么
- 输入: PDF、DOCX、PPTX、XLSX、图片(PNG/JPG/WebP)
- 输出: 结构化 Markdown(表格→HTML,公式→LaTeX,图片带说明)
- 语言: 109 种,中文最优
- 扫描件: 自动 OCR
什么场景能用
| 场景 | 输入 | Agent 提取什么 |
|---|---|---|
| 发票报销 | 电子发票 PDF | 发票号、日期、金额、买卖方 |
| 合同审查 | 合同 PDF/DOCX | 条款、有效期、金额、违约条款 |
| 财报分析 | 上市公司财报 PDF | 利润表、资产负债表 |
| 简历筛选 | 候选人简历 PDF | 工作经历、技能、学历 |
| 批量转档 | Office 文档批量 | 全转 Markdown 喂给 LLM |
PDF 解析方案对比
| Feature | pymupdf | marker-pdf | pdf-mineru |
|---|---|---|---|
| 中文排版 | ★★ | ★★★ | ★★★★★ |
| 表格提取 | 纯文本 | 较准确 | HTML 还原,最佳 |
| 公式 LaTeX | ❌ | ✅ | ✅ 最强 |
| 扫描件 OCR | ❌ | ✅ | ✅ 自动 |
| 安装体积 | ~25MB | ~3-5GB | 0MB(云 API) |
| 免费额度 | 无限 | 无限 | 1 万页/天 |
怎么装
# 1. 装 CLI
npm install -g mineru-open-api-win32-x64
# 2. 装 skill
cp -r pdf-mineru $HERMES_HOME/skills/productivity/pdf-mineru
# 3. 用
mineru-open-api flash-extract invoice.pdf
不需要 API Key。超过 10MB 或 20 页的大文件,去 mineru.net 免费注册 Token 后用 extract 模式。
注意事项
- 文档上传到 mineru.net 解析,完成后不留存
- 敏感文档请自行部署 MinerU 本地版(GitHub 开源)
- CLI 进度输出到 stderr,内容到 stdout,Agent 可以直接读
安全审查报告
╔══════════════════════════════════════════════╗
║ SKILL VETTING REPORT ║
╠══════════════════════════════════════════════╣
║ Skill: pdf-mineru ║
║ Source: GitHub (xing006/pdf-mineru) ║
║ Author: xing006 (Hermes Community) ║
║ License: MIT ║
╠══════════════════════════════════════════════╣
║ RED FLAGS: 无 ║
║ Hermes: 无 ║
╠══════════════════════════════════════════════╣
║ PERMISSIONS NEEDED: ║
║ Files: 读取目标 PDF/DOCX/PPTX/XLSX ║
║ Network: mineru.net API(数据上云) ║
║ Commands: mineru-open-api CLI ║
╠══════════════════════════════════════════════╣
║ RISK LEVEL: 🟢 LOW ║
║ VERDICT: ✅ SAFE ║
╚══════════════════════════════════════════════╝
NOTES:
- 纯 Markdown skill,无混淆代码
- CLI 来自 MinerU 官方 npm 包,MIT 协议
- 文档上传 mineru.net 不留存,也有自部署开源方案
- 无 config.yaml 写入、无 plugin 修改、无凭据窃取风险
项目地址:https://github.com/xing006/pdf-mineru
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)