1.安装

在GitHub上搜索下载tesseract-ocr-setup-4.00.00dev.exe安装文件

双击安装,一路next>>,需注意要选择语言包,math,english必选,chinese-simple或其他语言包随意

2.配置环境变量

在电脑--属性--高级系统设置--环境变量--系统变量--Path--(加入包含tesseract.exe的目录)

出现TesseractNotFound错误可能是这个原因导致

3.更改pytesseract.py文件配置

这个修改在pycharm中比较方便,按住ctrl键,点击需查看源码的方法,即可调出源码。

用image_to_string()方法调出源码,将tesseract_cmd=‘tesseract.exe’的路径改成tesseract.exe文件的绝对路径,反斜杠需要在前面加r,正斜杠也可。

重新定义一个变量config_string=‘--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"’

找到三个方法:image_to_string()   

        run_tesseract()   
        run_and_get_output() 
将里面的config=‘’改成config=config_string

GitHub 加速计划 / te / tesseract
11
3
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:4 个月前 )
014b9d00 - 1 天前
13c966b7 - 3 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐