首先下载tesseract-ocr安装包,附链接:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下载完成后记住安装位置,后面要配置环境变量。简要描述配置环境变量,与Java配置环境变量类似,复制安装路径

C:Program Files(x86)Tesseract-OCR 把这个路径添加到系统变量Path里面,键入命令:tesseract -v可以查看安装版本确认是否安装成功;

此时还不能识别中文,需要下载简体中文包https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata

把下载的语言包放到安装路径tessdata目录下

再次配置环境变量 新建系统变量TESSDATA_PREFIX 变量值仍为安装路径C:Program Files (x86)Tesseract-OCR

二:识别图片

选择一张图片并建立一个txt文件用于存放识别结果

进入到存放图片的目录

在命令行界面键入命令

格式: tesseract 图片名称 生成的结果文件的名称 字库

例如:tesseract test.jpg result -l chi_sim

打开result.txt即可查看识别结果

GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 4 个月前
2991d36a - 4 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐