一个开源 OCR 引擎，支持 100+ 语言，能识别表格、公式、印章，而且完全免费

星光一影

616人浏览 · 2026-06-06 15:29:31

星光一影 · 2026-06-06 15:29:31 发布

OCR · 文档解析 · 大模型数据预处理

一个把图片和PDF变成结构化数据的OCR引擎

100+ 语言 · 端到端识别 · 表格/公式/印章 · Apache 协议

如果你经常需要从图片、扫描件、PDF里提取文字，或者想把一沓合同/发票/报告批量转成 Excel 或 Markdown——这个工具就是为你准备的。

它是一个全功能的 OCR 与文档解析引擎，开源、免费、MIT 协议。图片扔进去，文本、表格、公式、版面结构全给你解析出来。

它能做什么

不是一个简单的"图片转文字"工具，而是一个完整的文档理解引擎。核心能力分三大块：

1. 智能文档解析——面向大模型

把杂乱的 PDF 和扫描件自动转换成结构化的 Markdown 或 JSON。内置文档视觉语言模型，能识别文本、表格、公式、图表、印章，准确率超过 96%。特别适合 RAG 应用和大模型训练数据的预处理——Dify、RAGFlow 等项目已经在用。

2. 通用文字识别

支持 100+ 种语言的文本检测和识别。卡证、街景、书籍、屏幕截图、工业零部件——什么场景的图片都能处理。多语言混合排版（中英日韩拼音混排）也能准确识别。

3. 版面结构分析

自动检测页面中的标题、段落、表格、图片区域，输出带有精确定位坐标的结构化结果。复杂排版的 PDF（双栏、混排、表格嵌套）也能准确还原阅读顺序。

核心能力一览

能力	说明
文本检测与识别	定位图像中的文字区域并识别内容，支持倾斜、弯曲、模糊等多种复杂情况
多语言支持	覆盖 100+ 种语言，包括中英日韩法德俄阿拉伯文以及藏文、孟加拉语等
表格识别	自动检测并解析表格结构，输出 HTML / Excel 格式，支持跨页表格合并
公式识别	识别数学公式并输出 LaTeX 格式，论文、教材、试卷数字化必备
印章识别	检测并提取合同、文件中的印章信息，包括圆形章、椭圆章等
版面分析	识别标题、正文、页眉页脚、图片区域，还原文档阅读顺序
古籍/生僻字	针对古籍、手写体、生僻字有专门优化，文化遗产数字化场景适用
图表识别	识别图表并转换为可编辑的表格数据
文档格式互转	Word / Excel / PPT 等常见办公文档转 Markdown
输出格式	Markdown / JSON / DOCX / HTML / TXT，按需选择

模型规格

不同场景对精度和效率的要求不同，提供了多套模型方案：

模型	定位	适用场景
文档视觉语言模型 0.9B 参数	端到端文档解析，图片/PDF → Markdown/JSON	RAG 数据预处理、文档数字化
PP-OCRv5 检测+识别	通用文字检测和识别，极致高效	卡证识别、街景文字、批量 OCR
PP-StructureV3 版面+表格	版面分析 + 表格识别 + 结构还原	合同/发票/报告结构化提取

💡 选型建议：日常文字识别用 PP-OCRv5，速度最快；需要完整文档解析（版面还原+表格+公式）用文档 VLM 模型；合同/发票/报告提取用 PP-StructureV3。

怎么用

三行代码开始识别，不需要深度学习背景：

命令行方式

# 安装
pip install paddleocr

# 图片文字识别
paddleocr --image_dir ./image.jpg --lang ch

# PDF 转 Markdown（含表格、公式）
paddleocr --image_dir ./document.pdf --pipeline structure_v3

Python SDK

from paddleocrimportPaddleOCR

ocr=PaddleOCR(lang='ch')
result=ocr.ocr('image.jpg')

forlineinresult[0]:
print(line[1][0]) # 识别结果

在线体验

不想装环境？官方提供在线体验中心，上传图片或 PDF 直接看结果，零配置上手。

部署与集成

方式	说明
Python 包	pip install 即用，3 行代码出结果，适合开发集成
HTTP 服务	一键部署 Docker 镜像，任意语言通过 REST API 调用
C++ SDK	本地 C++ 部署方案，性能与 Python 一致，适合系统集成
浏览器端	JavaScript SDK，纯前端运行，无需后端服务
ONNX 导出	导出为标准 ONNX 格式，用 TensorRT / OpenVINO 等加速推理
硬件支持	NVIDIA GPU / Intel CPU / 苹果 M 系列 / 各类 AI 加速器均可

适用场景

场景	怎么用
卡证识别	身份证、营业执照、护照、银行卡——拍照即识别，结构化输出
合同/发票提取	批量扫描合同和发票 → 自动提取关键字段 → 写入 Excel 或数据库
文档数字化	纸质档案/图书扫描 → 版面还原 → Markdown/JSON 存档
大模型数据预处理	PDF/扫描件 → 结构化文本 → 喂给 RAG 系统或训练大模型
古籍数字化	古籍扫描件 → 文字识别 + 生僻字处理 → 可检索的数字文本
试卷批改	手写试卷 → 公式识别 → 自动批改与错题分析
多语言翻译	外文资料扫描 → OCR 提取 → 接入翻译 API → 双语对照输出

性能亮点

指标	表现
文档解析精度	OmniDocBench v1.6 达到 96.3%，超越多数闭源方案
语言支持	109 种语言，含中文、英文、日文、阿拉伯文、藏文等
模型体积	VLM 模型仅 0.9B 参数，识别模型 2M 参数，极致轻量
推理速度	支持多 GPU 并行推理，单卡可同时处理多张图片
跨平台	Windows / Linux / macOS 全支持，Python 3.8-3.12
生态集成	被 Dify、RAGFlow、Cherry Studio 等 6000+ 项目采用

与传统 OCR 的区别

对比维度	传统 OCR	这个引擎
识别能力	纯文本	文本 + 表格 + 公式 + 印章 + 图表
输出格式	TXT 文本流	结构化 Markdown / JSON / DOCX
版面理解	无序输出	保留阅读顺序和层级结构
表格处理	丢失结构	识别为可编辑的 HTML/Excel
场景适应	扫描件专用	扫描件/拍照/街景/屏幕截图通吃

环境要求

项目	要求
操作系统	Windows 10+ / Linux / macOS 12+
Python	3.8 - 3.12
硬件	CPU 可跑；GPU（NVIDIA / Apple Silicon）加速推理
协议	Apache 2.0，商业使用友好

常见问题

收费吗？	不收费。Apache 2.0 开源协议，商用也没问题。
需要联网吗？	不需要。模型本地运行，图片不离开你的服务器。
中文效果如何？	中文是核心优化方向，准确率业界领先。支持简体、繁体、竖排文字。
能处理手写体吗？	能。对手写文字、古籍、生僻字有专项优化。
能处理多页 PDF 吗？	能。支持自动跨页表格合并和分层标题识别。
能集成到我的产品里吗？	可以。提供 Python SDK / C++ SDK / HTTP API / JS SDK 多种方式。

典型应用场景

下面这些场景是这个引擎最擅长解决的问题，照着抄作业就行：

场景	输入	处理方式	输出
合同/发票批量提取	扫描件/照片	版面分析 + 文字识别 + 关键字段正则匹配	Excel 汇总表 / 数据库入库
RAG 文档预处理	PDF / Word / PPT	统一转 Markdown + 表格保留结构	LLM 可读的结构化文档
卡证实名认证	身份证/护照/营业执照照片	卡证检测 + 文字识别 + 结构化提取	姓名/身份证号/有效期等字段
图书/档案数字化	纸质书籍/档案扫描件	批量 OCR + 版面还原 + 章节索引	全文可搜索的数字文档
试卷/作业批改	手写试卷扫描	手写体识别 + 公式转 LaTeX + 答案比对	分数 + 错题分析报告
产品详情提取	电商截图/商品标签照片	通用文字检测 + 关键信息提取	商品名/规格/价格/条码
古籍/文献研究	古籍扫描件	生僻字识别 + 竖排文字处理	可检索、可引用的数字化文本

适合谁？不适合谁？

✅ 特别适合
· 需要从发票、合同、表格里批量提取数据的财务/法务/行政人员
· 做 RAG、文档问答、知识库产品的 AI 应用开发者
· 需要把纸质档案、书籍、古籍数字化的图书馆/档案馆/研究机构
· 需要身份证、营业执照等卡证自动录入的业务系统
· 需要给视频截图、街景照片、屏幕截图加文字识别能力的应用
· 不想被年度授权费绑架、想用开源方案替代商业 OCR 的团队

⚠️ 不太适合
· 需要高精度手写英文连笔字识别的场景——中文手写很好，英文连笔不是强项
· 对实时视频流中文字识别的延迟要求在 100ms 以内的场景——更适合离线批处理
· 完全不需要任何技术背景、只想装一个 App 拍照就能用的纯 C 端用户

📊 如果你刚好卡在中间：有编程基础但不想折腾环境，先用在线体验中心试试效果；需要集成但不想管部署，直接用官方 HTTP API 或 Docker 镜像一行命令启动服务。

全功能 OCR 与文档解析引擎 —— 让图片和 PDF 里的信息可编辑、可检索、可分析

如果觉得有用，欢迎点赞 · 在看 · 转发 📄

感兴趣的可以逛逛 www.ppcodes.cn，我会不定期分享一些项目搭建踩坑经验和行业观察。