Tesseract OCR安装与简单使用
tesseract
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
项目地址:https://gitcode.com/gh_mirrors/te/tesseract
免费下载资源
·
Tesseract OCR安装与简单使用
1.下载Tesseract OCR
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
2.安装Tesseract OCR
-
双击安装程序,进入安装界面。
-
接受协议,下一步。
-
选择用户
-
选择组件
-
如果电脑配置够好、网速够快,可以之间勾选”Additional language data(download)“,下载全部额外的语言数据。
-
直接全选的话,后面下载语言包需要很长时间,导致安装进度缓慢。可以点击“Additional language data(download)”旁边的”+“号,选择几种需要的语言包。
-
-
设置安装目录。点击”Next“。
-
点击”Install“。
-
等待安装完成。
-
安装完成。点击”Finish“。
-
将目录添加到系统环境变量Path
-
查看版本信息
tesseract -v
- 查看已下载的语言包。
tesseract --list-langs
3.文字识别程序编写
- 安装pytesseract模块
pip install pytesseract
- 示例1:
from PIL import Image
import pytesseract
# 添加tesseract的路径
pytesseract.pytesseract.tesseract_cmd = r'D:\software\Tesseract-OCR\tesseract.exe'
"""
image_to_string():如果识别英文或数字可以不必额外参数,如果识别其他语言则需要加上lang参数
lang='chi_sim'表示要识别的是中文简体
没有识别出来时,返回空白
"""
text = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(text)
test.jpg:
识别效果:
-
示例2:
test2.jpg:
识别效果:
-
示例3
test4.png:
识别效果:
参考文章:
GitHub 加速计划 / te / tesseract
11
3
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:3 个月前 )
bc490ea7
Don't check for a directory, because a symbolic link is also allowed.
Signed-off-by: Stefan Weil <sw@weilnetz.de>
5 个月前
2991d36a - 5 个月前
更多推荐
已为社区贡献9条内容
所有评论(0)