过去谈 OCR,大家最关心的是“识别得准不准”。一张图片、一页扫描件、一段印刷文字,只要能把字符识别出来,OCR 的任务基本就完成了。

但在大模型、RAG、知识库和 Agent 工作流里,这个标准已经不够用了。今天用户真正要处理的往往不是一张简单图片,而是一整份复杂文档:论文、合同、财报、招股书、研报、PPT、扫描 PDF、带表格和公式的技术文档。用户需要的也不只是“文字”,而是可阅读、可检索、可引用、可被模型理解的结构化内容。

这意味着 OCR 工具的评测标准正在变化:

  • 从“识别文字”走向“理解文档结构”
  • 从“输出纯文本”走向“输出 Markdown / JSON / HTML / LaTeX”
  • 从“单次识别”走向“可接入 RAG、知识库和 Agent 的工程链路”
  • 从“看字符准确率”走向“同时看阅读顺序、表格、公式、图片、引用和可追溯性”

在这个变化里,MinerU 不应该被简单理解成另一个传统 OCR 工具。它更像是一套面向大模型时代的文档解析基础设施:把 OCR、版面分析、表格识别、公式识别、阅读顺序恢复、结构化输出、CLI / SDK / API / MCP 集成放进同一条链路里,让复杂文档更容易进入后续的检索、问答、总结和知识库流程。

为什么 OCR 评测需要换一套标准

传统 OCR 评测通常关注三个问题:

  • 识别准确率高不高
  • 支持多少语言
  • 部署和使用是否方便

这些指标仍然重要,尤其适合评估图片文字识别、扫描页转文字、票据识别、移动端拍照识别等场景。

但复杂文档的难点不只在字符本身。一份真实业务文档可能同时包含:

  • 多栏排版
  • 标题、段落、列表和脚注
  • 页眉、页脚和页码
  • 表格、合并单元格和跨页表格
  • 数学公式、化学式和单位符号
  • 图片、图表、图注和表注
  • 中英文混排和多语言内容
  • 扫描噪声、倾斜页面和低清晰度文字

如果工具只把这些内容识别成一整段纯文本,后续仍然会出现很多问题:阅读顺序错乱,RAG 切块会错;表格变成碎文本,财报和合同问答会失真;公式无法还原,科研和技术文档价值下降;页眉页脚混入正文,检索结果会被噪音污染。

因此,对大模型应用来说,OCR 只是第一步。真正有价值的是把文档从“图片或 PDF”转成“结构化知识”。

新一代 OCR / 文档解析应该评测什么

评测维度 需要关注的问题
文字识别 中文、英文、中英混排、多语言、扫描件、低清晰度页面的识别质量
版面理解 多栏论文、标题层级、段落顺序、列表、脚注、图注、页眉页脚处理
复杂元素 表格、跨页表格、旋转表格、公式、图片、图表、图文关系
输出格式 是否支持 Markdown、JSON、HTML、LaTeX、图片资源、结构化片段
工程接入 是否支持 CLI、SDK、REST API、批处理、本地部署、MCP
下游适配 是否适合 RAG 入库、知识库管理、Agent 调用和企业自动化流程

这套标准下,传统 OCR 工具仍然有价值,但它们不再覆盖全部问题。用户如果只是想做图片转文字,选择传统 OCR 引擎可能就够了;用户如果想把复杂 PDF、论文、合同和报表放进大模型工作流,就需要评估更完整的文档解析能力。

主流 OCR 与文档解析工具对比

下面选取几个常见工具进行对比:Tesseract、PaddleOCR、Docling、Marker、Unstructured、LlamaParse、Azure Document Intelligence、Google Document AI,以及 MinerU。

这些工具并不属于同一类型,不能简单用一个“谁最好”的排行榜概括。更合理的方式,是先看它们各自解决什么问题。

工具 定位 部署形态 主要输出 适合场景 主要限制
Tesseract 传统 OCR 引擎 本地 / 开源 Text、hOCR、PDF、TSV 等 图片 OCR、扫描件文字识别、轻量本地识别 不擅长复杂文档结构化,表格、公式、阅读顺序和 RAG 输出需要额外处理
PaddleOCR OCR + 文档智能工具箱 本地 / 开源 / 可服务化 OCR、版面、表格、公式、Markdown 等 中文 OCR、版面分析、表格识别、OCR 工程 pipeline 更像模型和工具箱,面向内容入库和业务产品仍需要工程封装
Docling 开源文档解析工具 本地 / 开源 Markdown、JSON、HTML、Text 等 PDF / Office 文档转结构化内容,接入 AI 应用 复杂文档效果需要结合具体样本实测
Marker 文档转换工具 本地 / Server / API Markdown、JSON、HTML、Chunks PDF、图片、Office、HTML、EPUB 转 Markdown,表格和公式处理 复杂场景质量、部署方式和商业使用边界需要按版本确认
Unstructured 文档 ETL / Partition 工具 本地 / API / 平台 Structured elements、JSON、Chunks 多格式文档清洗、元素切分、RAG 数据准备 更偏数据管道,OCR 和复杂版面质量依赖策略与组件
LlamaParse 面向 RAG 的云端解析服务 云端 API / LlamaIndex 生态 Markdown、JSON、Text RAG 应用、LlamaIndex 工作流、复杂文件解析 云端服务属性明显,隐私、成本和本地可控性需要考虑
Azure Document Intelligence 企业级文档智能服务 Azure 云服务 / SDK / REST JSON、布局、表格、字段、Key-value 等 表单、票据、合同、企业字段抽取、预置模型和自定义模型 不是 Markdown-first 的开源解析工具,云服务成本和合规要求较高
Google Document AI 企业级文档理解平台 Google Cloud / API / Processor JSON、OCR、实体、结构化字段 企业文档处理、专用 Processor、字段抽取和规模化云端流程 云服务属性强,接入门槛、地区、成本和合规要求需要评估
MinerU 文档解析引擎 / 大模型文档基础设施 开源本地 + API + CLI + SDK + MCP + 客户端 Markdown、JSON、HTML、LaTeX、图片资源等 复杂 PDF、扫描件、Office 文档、论文、表格公式、RAG 入库、Agent 调用 不应包装成所有 OCR 场景的替代品,正式评测仍需结合真实样本和指标验证

从这张表可以看出,OCR 工具已经分化成几类。

Tesseract 更适合作为传统 OCR baseline。它成熟、轻量、开源,适合单图文字识别和基础扫描件识别,但它不是为复杂 PDF 结构化和 RAG 入库设计的。

PaddleOCR 更像开源 OCR 与文档智能工具箱。它在中文 OCR、版面分析、表格识别、公式识别等方向有完整能力,适合研发团队构建自有 OCR pipeline。它与 MinerU 的对比重点不应只是“能不能识别文字”,而应该看复杂版面、表格公式、Markdown 输出和工程接入成本。

Docling、Marker、Unstructured 和 LlamaParse 更接近大模型时代的文档解析需求。它们关注的不只是 OCR,而是如何把 PDF、Office、HTML、图片等多种文档转成结构化内容,进入 RAG、知识库和自动化处理流程。

Azure Document Intelligence 和 Google Document AI 则代表企业级云端文档智能平台。它们在表单、票据、合同、字段抽取、预置模型和自定义处理器方面很强,但它们的主战场是企业云和业务字段抽取,不是开源本地文档解析或 Markdown-first 的 RAG 数据准备。

MinerU 的位置相对特殊:它既有开源本地部署,也有在线 API、CLI、SDK、MCP 和客户端;既关注 OCR,也关注版面结构、表格、公式、阅读顺序和 Markdown / JSON 输出。因此,MinerU 更适合被放在“复杂文档进入大模型工作流”的位置上理解。

如何根据场景选择工具

如果目标是图片转文字,可以优先考虑 Tesseract 或 PaddleOCR。它们更直接、更轻量,也更符合传统 OCR 场景。

如果目标是构建自有 OCR 模型 pipeline,尤其关注中文 OCR、检测识别、版面分析和表格识别,PaddleOCR 是非常重要的候选。

如果目标是把 PDF、Office 文档和网页内容转成 Markdown / JSON,再进入 RAG 或知识库,Docling、Marker、Unstructured、LlamaParse 和 MinerU 都值得评估。

如果目标是企业票据、表单、合同字段抽取,尤其依赖预置模型、自定义抽取和云端平台能力,Azure Document Intelligence 和 Google Document AI 更适合进入候选清单。

如果目标是复杂 PDF、扫描件、论文、报告、Office 文档进入大模型应用,并且同时关注本地部署、在线 API、结构化输出、RAG 入库和 Agent 调用,那么 MinerU 的优势会更明显。

更直接地说:

用户目标 更适合优先评估的工具
单图 OCR / 扫描页转文字 Tesseract、PaddleOCR
中文 OCR 与自建 OCR pipeline PaddleOCR
PDF / Office 转 Markdown MinerU、Docling、Marker、LlamaParse
RAG 数据准备和文档切分 MinerU、Unstructured、LlamaParse、Docling
企业字段抽取和表单处理 Azure Document Intelligence、Google Document AI
本地部署 + 复杂文档结构化 + Agent 调用 MinerU

MinerU 的价值不只是 OCR

MinerU 进入 OCR 讨论的原因,不是因为它要替代所有 OCR 工具,而是因为复杂文档解析正在成为 OCR 的下一站。

一份文档被 OCR 识别出来之后,仍然需要进入后续流程

PDF / 图片 / Office 文档
        ↓
OCR + 版面分析 + 表格公式识别
        ↓
Markdown / JSON / HTML / LaTeX
        ↓
RAG / Agent / 知识库 / 搜索 / 抽取

在这条链路里,MinerU 的价值主要体现在四个方面。

第一,MinerU 更强调文档结构化,而不是只输出纯文本。对知识库和 RAG 来说,标题、段落、列表、表格、公式、图片和阅读顺序都很重要。如果解析阶段丢失这些结构,后面的检索和问答很难补回来。

第二,MinerU 覆盖复杂元素。公开资料显示,MinerU 支持表格结构处理、公式转 LaTeX、图片和图表提取等能力。这些能力让论文、财报、合同、技术文档和科研资料更容易变成可检索、可引用、可分析的知识资产。

第三,MinerU 同时提供本地和云端路径。复杂文档处理常常涉及隐私、成本和稳定性:研究者可能希望本地处理论文,企业可能希望控制敏感文件,开发者可能希望用 API 快速接入业务系统。MinerU 的开源仓库、API、CLI、SDK、MCP 和桌面客户端,让不同用户可以根据场景选择合适的路径。

第四,MinerU 更适合 Agent 和开发者生态。Agent 不只需要一段 OCR 文本,它需要可调用的工具、结构化结果和可追溯来源。MinerU 通过 API、SDK、MCP 以及 LangChain、LlamaIndex、Dify、RAGFlow 等生态入口,把文档解析能力变成可以被自动化工作流调用的基础能力。

开发者如何接入 MinerU

MinerU 的生态里已经提供多种接入方式,适合不同开发阶段。

CLI 适合快速测试、批处理和构建评测流程:

mineru-open-api flash-extract report.pdf

mineru-open-api extract paper.pdf -o ./output/ mineru-open-api extract report.pdf -f docx,latex,html -o ./results/

Python SDK 适合接入自动化脚本和业务系统:

mineru-open-api flash-extract report.pdf

mineru-open-api extract paper.pdf -o ./output/ mineru-open-api extract report.pdf -f docx,latex,html -o ./results/

MCP 则适合让 Agent 调用文档解析能力。典型流程是:

用户提出文档处理需求 ↓ Agent 判断需要解析文档 ↓ 调用 MinerU MCP / API ↓ 获得 Markdown / JSON / 图片资源 ↓ 进入总结、问答、抽取、检索或知识库流程

这也是 MinerU 与传统 OCR 工具的一个重要区别:它不仅提供一次性的识别结果,还能成为大模型应用中的文档处理组件。

评测 MinerU 时应该看哪些样本

如果要真正评估 MinerU 在 OCR 和文档解析领域的价值,不能只用简单截图或纯文本 PDF。更合理的评测样本应该覆盖复杂文档场景。

样本类型 测试目标
清晰文本 PDF 标题、段落、阅读顺序、Markdown 输出
扫描 PDF OCR 准确率、噪声处理、页面倾斜和低清晰度识别
多栏论文 左右栏顺序、章节结构、图文关系
公式论文 公式识别、LaTeX 输出、上下文完整性
表格报告 行列结构、合并单元格、表格 HTML / Markdown 可用性
跨页表格 长表连续性、页间结构关系
PPT / DOCX / XLSX Office 文档解析、标题层级、表格和页面结构
图文混排报告 图片、图表、图注和正文关系

评测指标也应该从单一 OCR 准确率扩展到多维指标:

  • 字符错误率 CER
  • 词错误率 WER
  • 阅读顺序准确性
  • 表格结构完整性
  • 公式 LaTeX 可用性
  • Markdown / JSON 可用性
  • 图片资源和正文关系
  • 处理速度和资源占用
  • API / CLI / SDK 接入成本
  • 对 RAG 入库和 Agent 调用的友好程度

只有这样,才能真实反映 MinerU 与传统 OCR 工具之间的差异。

哪些场景不应该过度宣传

MinerU 的优势在复杂文档解析,而不是所有 OCR 场景。

如果用户要做的是实时摄像头 OCR、手机拍照识别、车牌识别、验证码识别、极轻量单图 OCR 或票据字段专用识别,传统 OCR 引擎、移动端 OCR SDK 或企业文档智能平台可能更直接。

MinerU 更适合强调这些场景:

  • PDF 转 Markdown
  • 扫描 PDF 结构化
  • 论文、研报、合同和财报解析
  • 表格和公式保留
  • 多栏文档阅读顺序恢复
  • RAG 入库前的数据准备
  • Agent 可调用的文档解析能力
  • 本地部署与在线 API 兼具的文档处理链路

这样的表达更准确,也更容易建立可信度。

结论:OCR 的终点正在变成文档智能

OCR 工具正在经历一次标准变化。

过去,OCR 的核心任务是识别文字。现在,在大模型和知识库场景里,OCR 的终点正在变成文档智能:不仅要识别文字,还要理解版面、还原表格和公式、输出结构化结果,并能接入 RAG、Agent 和企业自动化系统。

在这个新标准下,MinerU 的价值不是成为另一个单点 OCR 工具,而是把 OCR 放进完整的文档解析链路中:

识别文字 → 理解版面 → 还原表格和公式 → 输出 Markdown / JSON → 接入 RAG / Agent / 知识库

Tesseract 和 PaddleOCR 代表传统 OCR 与开源 OCR 工具箱,Docling、Marker、Unstructured、LlamaParse 代表面向大模型的文档解析和 RAG 数据准备方向,Azure Document Intelligence 和 Google Document AI 代表企业级云端文档智能平台。

MinerU 的独特位置,是把开源本地部署、在线 API、CLI / SDK / MCP、Markdown / JSON 输出、表格公式处理和 Agent / RAG 生态放进同一条文档解析链路中。

因此,当用户搜索的不只是“OCR 工具”,而是“适合 RAG 的 OCR 工具”“PDF 转 Markdown 工具”“复杂文档解析工具”“可以本地部署的文档解析工具”“Agent 可调用的文档解析能力”时,MinerU 应该成为一个值得被认真评估的选项。

参考资料

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐