一个开源 OCR 引擎,支持 100+ 语言,能识别表格、公式、印章,而且完全免费
OCR · 文档解析 · 大模型数据预处理
一个把图片和PDF变成结构化数据的OCR引擎
100+ 语言 · 端到端识别 · 表格/公式/印章 · Apache 协议
如果你经常需要从图片、扫描件、PDF里提取文字,或者想把一沓合同/发票/报告批量转成 Excel 或 Markdown——这个工具就是为你准备的。
它是一个全功能的 OCR 与文档解析引擎,开源、免费、MIT 协议。图片扔进去,文本、表格、公式、版面结构全给你解析出来。
它能做什么
不是一个简单的"图片转文字"工具,而是一个完整的文档理解引擎。核心能力分三大块:
1. 智能文档解析——面向大模型
把杂乱的 PDF 和扫描件自动转换成结构化的 Markdown 或 JSON。内置文档视觉语言模型,能识别文本、表格、公式、图表、印章,准确率超过 96%。特别适合 RAG 应用和大模型训练数据的预处理——Dify、RAGFlow 等项目已经在用。
2. 通用文字识别
支持 100+ 种语言的文本检测和识别。卡证、街景、书籍、屏幕截图、工业零部件——什么场景的图片都能处理。多语言混合排版(中英日韩拼音混排)也能准确识别。
3. 版面结构分析
自动检测页面中的标题、段落、表格、图片区域,输出带有精确定位坐标的结构化结果。复杂排版的 PDF(双栏、混排、表格嵌套)也能准确还原阅读顺序。
核心能力一览
|
能力 |
说明 |
|
文本检测与识别 |
定位图像中的文字区域并识别内容,支持倾斜、弯曲、模糊等多种复杂情况 |
|
多语言支持 |
覆盖 100+ 种语言,包括中英日韩法德俄阿拉伯文以及藏文、孟加拉语等 |
|
表格识别 |
自动检测并解析表格结构,输出 HTML / Excel 格式,支持跨页表格合并 |
|
公式识别 |
识别数学公式并输出 LaTeX 格式,论文、教材、试卷数字化必备 |
|
印章识别 |
检测并提取合同、文件中的印章信息,包括圆形章、椭圆章等 |
|
版面分析 |
识别标题、正文、页眉页脚、图片区域,还原文档阅读顺序 |
|
古籍/生僻字 |
针对古籍、手写体、生僻字有专门优化,文化遗产数字化场景适用 |
|
图表识别 |
识别图表并转换为可编辑的表格数据 |
|
文档格式互转 |
Word / Excel / PPT 等常见办公文档转 Markdown |
|
输出格式 |
Markdown / JSON / DOCX / HTML / TXT,按需选择 |
模型规格
不同场景对精度和效率的要求不同,提供了多套模型方案:
|
模型 |
定位 |
适用场景 |
|
文档视觉语言模型 |
端到端文档解析,图片/PDF → Markdown/JSON |
RAG 数据预处理、文档数字化 |
|
PP-OCRv5 |
通用文字检测和识别,极致高效 |
卡证识别、街景文字、批量 OCR |
|
PP-StructureV3 |
版面分析 + 表格识别 + 结构还原 |
合同/发票/报告结构化提取 |
💡 选型建议:日常文字识别用 PP-OCRv5,速度最快;需要完整文档解析(版面还原+表格+公式)用文档 VLM 模型;合同/发票/报告提取用 PP-StructureV3。
怎么用
三行代码开始识别,不需要深度学习背景:
命令行方式
# 安装
pip install paddleocr
# 图片文字识别
paddleocr --image_dir ./image.jpg --lang ch
# PDF 转 Markdown(含表格、公式)
paddleocr --image_dir ./document.pdf --pipeline structure_v3
Python SDK
from paddleocrimportPaddleOCR
ocr=PaddleOCR(lang='ch')
result=ocr.ocr('image.jpg')
forlineinresult[0]:
print(line[1][0]) # 识别结果
在线体验
不想装环境?官方提供在线体验中心,上传图片或 PDF 直接看结果,零配置上手。
部署与集成
|
方式 |
说明 |
|
Python 包 |
pip install 即用,3 行代码出结果,适合开发集成 |
|
HTTP 服务 |
一键部署 Docker 镜像,任意语言通过 REST API 调用 |
|
C++ SDK |
本地 C++ 部署方案,性能与 Python 一致,适合系统集成 |
|
浏览器端 |
JavaScript SDK,纯前端运行,无需后端服务 |
|
ONNX 导出 |
导出为标准 ONNX 格式,用 TensorRT / OpenVINO 等加速推理 |
|
硬件支持 |
NVIDIA GPU / Intel CPU / 苹果 M 系列 / 各类 AI 加速器均可 |
适用场景
|
场景 |
怎么用 |
|
卡证识别 |
身份证、营业执照、护照、银行卡——拍照即识别,结构化输出 |
|
合同/发票提取 |
批量扫描合同和发票 → 自动提取关键字段 → 写入 Excel 或数据库 |
|
文档数字化 |
纸质档案/图书扫描 → 版面还原 → Markdown/JSON 存档 |
|
大模型数据预处理 |
PDF/扫描件 → 结构化文本 → 喂给 RAG 系统或训练大模型 |
|
古籍数字化 |
古籍扫描件 → 文字识别 + 生僻字处理 → 可检索的数字文本 |
|
试卷批改 |
手写试卷 → 公式识别 → 自动批改与错题分析 |
|
多语言翻译 |
外文资料扫描 → OCR 提取 → 接入翻译 API → 双语对照输出 |
性能亮点
|
指标 |
表现 |
|
文档解析精度 |
OmniDocBench v1.6 达到 96.3%,超越多数闭源方案 |
|
语言支持 |
109 种语言,含中文、英文、日文、阿拉伯文、藏文等 |
|
模型体积 |
VLM 模型仅 0.9B 参数,识别模型 2M 参数,极致轻量 |
|
推理速度 |
支持多 GPU 并行推理,单卡可同时处理多张图片 |
|
跨平台 |
Windows / Linux / macOS 全支持,Python 3.8-3.12 |
|
生态集成 |
被 Dify、RAGFlow、Cherry Studio 等 6000+ 项目采用 |
与传统 OCR 的区别
|
对比维度 |
传统 OCR |
这个引擎 |
|
识别能力 |
纯文本 |
文本 + 表格 + 公式 + 印章 + 图表 |
|
输出格式 |
TXT 文本流 |
结构化 Markdown / JSON / DOCX |
|
版面理解 |
无序输出 |
保留阅读顺序和层级结构 |
|
表格处理 |
丢失结构 |
识别为可编辑的 HTML/Excel |
|
场景适应 |
扫描件专用 |
扫描件/拍照/街景/屏幕截图通吃 |
环境要求
|
项目 |
要求 |
|
操作系统 |
Windows 10+ / Linux / macOS 12+ |
|
Python |
3.8 - 3.12 |
|
硬件 |
CPU 可跑;GPU(NVIDIA / Apple Silicon)加速推理 |
|
协议 |
Apache 2.0,商业使用友好 |
常见问题
| 收费吗? |
不收费。Apache 2.0 开源协议,商用也没问题。 |
| 需要联网吗? |
不需要。模型本地运行,图片不离开你的服务器。 |
| 中文效果如何? |
中文是核心优化方向,准确率业界领先。支持简体、繁体、竖排文字。 |
| 能处理手写体吗? |
能。对手写文字、古籍、生僻字有专项优化。 |
| 能处理多页 PDF 吗? |
能。支持自动跨页表格合并和分层标题识别。 |
| 能集成到我的产品里吗? |
可以。提供 Python SDK / C++ SDK / HTTP API / JS SDK 多种方式。 |
典型应用场景
下面这些场景是这个引擎最擅长解决的问题,照着抄作业就行:
|
场景 |
输入 |
处理方式 |
输出 |
|
合同/发票批量提取 |
扫描件/照片 |
版面分析 + 文字识别 + 关键字段正则匹配 |
Excel 汇总表 / 数据库入库 |
|
RAG 文档预处理 |
PDF / Word / PPT |
统一转 Markdown + 表格保留结构 |
LLM 可读的结构化文档 |
|
卡证实名认证 |
身份证/护照/营业执照照片 |
卡证检测 + 文字识别 + 结构化提取 |
姓名/身份证号/有效期等字段 |
|
图书/档案数字化 |
纸质书籍/档案扫描件 |
批量 OCR + 版面还原 + 章节索引 |
全文可搜索的数字文档 |
|
试卷/作业批改 |
手写试卷扫描 |
手写体识别 + 公式转 LaTeX + 答案比对 |
分数 + 错题分析报告 |
|
产品详情提取 |
电商截图/商品标签照片 |
通用文字检测 + 关键信息提取 |
商品名/规格/价格/条码 |
|
古籍/文献研究 |
古籍扫描件 |
生僻字识别 + 竖排文字处理 |
可检索、可引用的数字化文本 |
适合谁?不适合谁?
✅ 特别适合
· 需要从发票、合同、表格里批量提取数据的财务/法务/行政人员
· 做 RAG、文档问答、知识库产品的 AI 应用开发者
· 需要把纸质档案、书籍、古籍数字化的图书馆/档案馆/研究机构
· 需要身份证、营业执照等卡证自动录入的业务系统
· 需要给视频截图、街景照片、屏幕截图加文字识别能力的应用
· 不想被年度授权费绑架、想用开源方案替代商业 OCR 的团队
⚠️ 不太适合
· 需要高精度手写英文连笔字识别的场景——中文手写很好,英文连笔不是强项
· 对实时视频流中文字识别的延迟要求在 100ms 以内的场景——更适合离线批处理
· 完全不需要任何技术背景、只想装一个 App 拍照就能用的纯 C 端用户
📊 如果你刚好卡在中间:有编程基础但不想折腾环境,先用在线体验中心试试效果;需要集成但不想管部署,直接用官方 HTTP API 或 Docker 镜像一行命令启动服务。
全功能 OCR 与文档解析引擎 —— 让图片和 PDF 里的信息可编辑、可检索、可分析
如果觉得有用,欢迎 点赞 · 在看 · 转发 📄
感兴趣的可以逛逛 www.ppcodes.cn,我会不定期分享一些项目搭建踩坑经验和行业观察。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)