win7环境下tesseract-ocr的安装与配置
tesseract
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
项目地址:https://gitcode.com/gh_mirrors/te/tesseract
免费下载资源
·
1.安装
在GitHub上搜索下载tesseract-ocr-setup-4.00.00dev.exe安装文件
双击安装,一路next>>,需注意要选择语言包,math,english必选,chinese-simple或其他语言包随意
2.配置环境变量
在电脑--属性--高级系统设置--环境变量--系统变量--Path--(加入包含tesseract.exe的目录)
出现TesseractNotFound错误可能是这个原因导致
3.更改pytesseract.py文件配置
这个修改在pycharm中比较方便,按住ctrl键,点击需查看源码的方法,即可调出源码。
用image_to_string()方法调出源码,将tesseract_cmd=‘tesseract.exe’的路径改成tesseract.exe文件的绝对路径,反斜杠需要在前面加r,正斜杠也可。
重新定义一个变量config_string=‘--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"’
找到三个方法:image_to_string()
run_tesseract()
run_and_get_output()
将里面的config=‘’改成config=config_string
GitHub 加速计划 / te / tesseract
11
3
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:4 个月前 )
014b9d00 - 1 天前
13c966b7 - 3 天前
更多推荐
已为社区贡献1条内容
所有评论(0)