OCR · 文档解析 · 大模型数据预处理

一个把图片和PDF变成结构化数据的OCR引擎

100+ 语言 · 端到端识别 · 表格/公式/印章 · Apache 协议

如果你经常需要从图片、扫描件、PDF里提取文字,或者想把一沓合同/发票/报告批量转成 Excel 或 Markdown——这个工具就是为你准备的。

它是一个全功能的 OCR 与文档解析引擎,开源、免费、MIT 协议。图片扔进去,文本、表格、公式、版面结构全给你解析出来。

它能做什么

不是一个简单的"图片转文字"工具,而是一个完整的文档理解引擎。核心能力分三大块:

1. 智能文档解析——面向大模型

把杂乱的 PDF 和扫描件自动转换成结构化的 Markdown 或 JSON。内置文档视觉语言模型,能识别文本、表格、公式、图表、印章,准确率超过 96%。特别适合 RAG 应用和大模型训练数据的预处理——Dify、RAGFlow 等项目已经在用。

2. 通用文字识别

支持 100+ 种语言的文本检测和识别。卡证、街景、书籍、屏幕截图、工业零部件——什么场景的图片都能处理。多语言混合排版(中英日韩拼音混排)也能准确识别。

3. 版面结构分析

自动检测页面中的标题、段落、表格、图片区域,输出带有精确定位坐标的结构化结果。复杂排版的 PDF(双栏、混排、表格嵌套)也能准确还原阅读顺序。

核心能力一览

能力

说明

文本检测与识别

定位图像中的文字区域并识别内容,支持倾斜、弯曲、模糊等多种复杂情况

多语言支持

覆盖 100+ 种语言,包括中英日韩法德俄阿拉伯文以及藏文、孟加拉语等

表格识别

自动检测并解析表格结构,输出 HTML / Excel 格式,支持跨页表格合并

公式识别

识别数学公式并输出 LaTeX 格式,论文、教材、试卷数字化必备

印章识别

检测并提取合同、文件中的印章信息,包括圆形章、椭圆章等

版面分析

识别标题、正文、页眉页脚、图片区域,还原文档阅读顺序

古籍/生僻字

针对古籍、手写体、生僻字有专门优化,文化遗产数字化场景适用

图表识别

识别图表并转换为可编辑的表格数据

文档格式互转

Word / Excel / PPT 等常见办公文档转 Markdown

输出格式

Markdown / JSON / DOCX / HTML / TXT,按需选择

模型规格

不同场景对精度和效率的要求不同,提供了多套模型方案:

模型

定位

适用场景

文档视觉语言模型
0.9B 参数

端到端文档解析,图片/PDF → Markdown/JSON

RAG 数据预处理、文档数字化

PP-OCRv5
检测+识别

通用文字检测和识别,极致高效

卡证识别、街景文字、批量 OCR

PP-StructureV3
版面+表格

版面分析 + 表格识别 + 结构还原

合同/发票/报告结构化提取

💡 选型建议:日常文字识别用 PP-OCRv5,速度最快;需要完整文档解析(版面还原+表格+公式)用文档 VLM 模型;合同/发票/报告提取用 PP-StructureV3。

怎么用

三行代码开始识别,不需要深度学习背景:

命令行方式

# 安装
pip install paddleocr

# 图片文字识别
paddleocr --image_dir ./image.jpg --lang ch

# PDF 转 Markdown(含表格、公式)
paddleocr --image_dir ./document.pdf --pipeline structure_v3

Python SDK

from paddleocrimportPaddleOCR

ocr=PaddleOCR(lang='ch')
result=ocr.ocr('image.jpg')

forlineinresult[0]:
  print(line[1][0]) # 识别结果

在线体验

不想装环境?官方提供在线体验中心,上传图片或 PDF 直接看结果,零配置上手。

部署与集成

方式

说明

Python 包

pip install 即用,3 行代码出结果,适合开发集成

HTTP 服务

一键部署 Docker 镜像,任意语言通过 REST API 调用

C++ SDK

本地 C++ 部署方案,性能与 Python 一致,适合系统集成

浏览器端

JavaScript SDK,纯前端运行,无需后端服务

ONNX 导出

导出为标准 ONNX 格式,用 TensorRT / OpenVINO 等加速推理

硬件支持

NVIDIA GPU / Intel CPU / 苹果 M 系列 / 各类 AI 加速器均可

适用场景

场景

怎么用

卡证识别

身份证、营业执照、护照、银行卡——拍照即识别,结构化输出

合同/发票提取

批量扫描合同和发票 → 自动提取关键字段 → 写入 Excel 或数据库

文档数字化

纸质档案/图书扫描 → 版面还原 → Markdown/JSON 存档

大模型数据预处理

PDF/扫描件 → 结构化文本 → 喂给 RAG 系统或训练大模型

古籍数字化

古籍扫描件 → 文字识别 + 生僻字处理 → 可检索的数字文本

试卷批改

手写试卷 → 公式识别 → 自动批改与错题分析

多语言翻译

外文资料扫描 → OCR 提取 → 接入翻译 API → 双语对照输出

性能亮点

指标

表现

文档解析精度

OmniDocBench v1.6 达到 96.3%,超越多数闭源方案

语言支持

109 种语言,含中文、英文、日文、阿拉伯文、藏文等

模型体积

VLM 模型仅 0.9B 参数,识别模型 2M 参数,极致轻量

推理速度

支持多 GPU 并行推理,单卡可同时处理多张图片

跨平台

Windows / Linux / macOS 全支持,Python 3.8-3.12

生态集成

被 Dify、RAGFlow、Cherry Studio 等 6000+ 项目采用

与传统 OCR 的区别

对比维度

传统 OCR

这个引擎

识别能力

纯文本

文本 + 表格 + 公式 + 印章 + 图表

输出格式

TXT 文本流

结构化 Markdown / JSON / DOCX

版面理解

无序输出

保留阅读顺序和层级结构

表格处理

丢失结构

识别为可编辑的 HTML/Excel

场景适应

扫描件专用

扫描件/拍照/街景/屏幕截图通吃

环境要求

项目

要求

操作系统

Windows 10+ / Linux / macOS 12+

Python

3.8 - 3.12

硬件

CPU 可跑;GPU(NVIDIA / Apple Silicon)加速推理

协议

Apache 2.0,商业使用友好

常见问题

收费吗?

不收费。Apache 2.0 开源协议,商用也没问题。

需要联网吗?

不需要。模型本地运行,图片不离开你的服务器。

中文效果如何?

中文是核心优化方向,准确率业界领先。支持简体、繁体、竖排文字。

能处理手写体吗?

能。对手写文字、古籍、生僻字有专项优化。

能处理多页 PDF 吗?

能。支持自动跨页表格合并和分层标题识别。

能集成到我的产品里吗?

可以。提供 Python SDK / C++ SDK / HTTP API / JS SDK 多种方式。

典型应用场景

下面这些场景是这个引擎最擅长解决的问题,照着抄作业就行:

场景

输入

处理方式

输出

合同/发票批量提取

扫描件/照片

版面分析 + 文字识别 + 关键字段正则匹配

Excel 汇总表 / 数据库入库

RAG 文档预处理

PDF / Word / PPT

统一转 Markdown + 表格保留结构

LLM 可读的结构化文档

卡证实名认证

身份证/护照/营业执照照片

卡证检测 + 文字识别 + 结构化提取

姓名/身份证号/有效期等字段

图书/档案数字化

纸质书籍/档案扫描件

批量 OCR + 版面还原 + 章节索引

全文可搜索的数字文档

试卷/作业批改

手写试卷扫描

手写体识别 + 公式转 LaTeX + 答案比对

分数 + 错题分析报告

产品详情提取

电商截图/商品标签照片

通用文字检测 + 关键信息提取

商品名/规格/价格/条码

古籍/文献研究

古籍扫描件

生僻字识别 + 竖排文字处理

可检索、可引用的数字化文本

适合谁?不适合谁?

✅ 特别适合
· 需要从发票、合同、表格里批量提取数据的财务/法务/行政人员
· 做 RAG、文档问答、知识库产品的 AI 应用开发者
· 需要把纸质档案、书籍、古籍数字化的图书馆/档案馆/研究机构
· 需要身份证、营业执照等卡证自动录入的业务系统
· 需要给视频截图、街景照片、屏幕截图加文字识别能力的应用
· 不想被年度授权费绑架、想用开源方案替代商业 OCR 的团队

⚠️ 不太适合
· 需要高精度手写英文连笔字识别的场景——中文手写很好,英文连笔不是强项
· 对实时视频流中文字识别的延迟要求在 100ms 以内的场景——更适合离线批处理
· 完全不需要任何技术背景、只想装一个 App 拍照就能用的纯 C 端用户

📊 如果你刚好卡在中间:有编程基础但不想折腾环境,先用在线体验中心试试效果;需要集成但不想管部署,直接用官方 HTTP API 或 Docker 镜像一行命令启动服务。

全功能 OCR 与文档解析引擎 —— 让图片和 PDF 里的信息可编辑、可检索、可分析

如果觉得有用,欢迎 点赞 · 在看 · 转发 📄

感兴趣的可以逛逛 www.ppcodes.cn,我会不定期分享一些项目搭建踩坑经验和行业观察。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐