linux python安装tesseract进行图片识别
tesseract
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
项目地址:https://gitcode.com/gh_mirrors/te/tesseract
免费下载资源
·
1、安装python3的环境(博客里有)
2、安装编译器
yum install gcc-c++
3、安装依赖
yum install -y automake autoconf libtool gcc gcc-c++
yum install -y libpng-devel libjpeg-devel libtiff-devel
4、安装leptonica(链接:https://pan.baidu.com/s/1Idnshb4j7sobaPVwEAwAXQ&shfl=sharepset 提取码:z1yb)
tar xvzf leptonica-1.72.tar.gz
cd leptonica-1.72/
./configure
make
make install
5、安装tesseract(链接:https://pan.baidu.com/s/1ND2Pedv4eiHWHQBYxBjj3A&shfl=sharepset 提取码:4upt )
解压以后会看到三个语言包和tesseract-3.04.00.taz.gz的文件
5.1、解压tesseract-3.04.00.taz.gz
./autogen.sh
CPPFLAGS="-I/usr/local/include" LDFLAGS="-L/usr/local/lib" ./configure
make
make install
5.2、把三个语言包放到解压后tesseract文件的tessdata文件
6、设置环境变量
1.打开配置文件
vi ~/.bash_profile
2.添加环境变量
export TESSDATA_PREFIX=/usr/local/tesseract-3.04.00/tessdata
3.保存
source ~/.bash_profile
4.重启
reboot
7、demo(准备一张验证码图片放到.py文件的同级目录)
import urllib.request
from PIL import Image
import pytesseract
im = Image.open("captcha.jpg")
image = pytesseract.image_to_string(im)
print(image)
8、注:
直接在linux下载压缩包很慢,可以在window环境下载好以后上传到linux。
linux文件上传下载
8.1、安装lrzsz
命令是:yum install lrzsz
rz是上传
sz 文件名 是下载
8.2 解压命令
解压.tar.gz文件
tar -zxvf 文件名
解压.zip
安装:yum install unzip
命令:unzip 文件名
遇到的坑,leptonica和tesseract版本不对应死活跑不起来
window提取验证码信息传送门https://blog.csdn.net/qq_41564405/article/details/102467732
GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7
Don't check for a directory, because a symbolic link is also allowed.
Signed-off-by: Stefan Weil <sw@weilnetz.de>
3 个月前
2991d36a - 4 个月前
更多推荐
已为社区贡献1条内容
所有评论(0)