python数字识别库tesseract_python-使用内置库pytesseract实现图片验证码的识别

weixin_39970855

1099人浏览 · 2020-12-18 02:38:30

weixin_39970855 · 2020-12-18 02:38:30 发布

环境准备：

1、安装Tesseract模块

git文档地址：https://digi.bib.uni-mannheim.de/tesseract/

百度网盘下载地址：

链接：https://pan.baidu.com/s/16RoJ19WynWOKI4Zpr0bKzA

提取码：5hst

下载后右击安装即可

2、配置环境变量：

编辑系统变量里面 path，添加下面的安装路径：D:\Program Files\Tesseract-OCR(填写自己的实际安装路径)

3、安装python的第三方库：

pip install pillow #一个python的图像处理库，pytesseract依赖

pip install pytesseract

4、修改pytesseract.py文件，指定tesseract.exe安装路径

编辑pytesseract.py文件(此步骤必须做，否则运行代码时会报错)：

tesseract_cmd = 'D:\Program Files\Tesseract-OCR'

代码实现

验证码识别方法之一，简单验证码，代码可直接使用

import requests

from PIL import Image

import pytesseract

# 验证码地址

url = "http://cloud.xxxx.com/checkCode?0.7337270680854053"

response = requests.get(url).content

#将图片写入文件

with open('test.png','wb') as f:

f.write(response)

#识别验证码

#第一步：通过内置模块PIL打开文件

image = Image.open('test.png')

image = image.convert('L') #转化为灰度图

threshold = 160 #设定的二值化阈值

table = [] #table是设定的一个表，下面的for循环可以理解为一个规则，小于阈值的，就设定为0，大于阈值的，就设定为1

for i in range(256):

if i < threshold:

table.append(0)

else:

table.append(1)

image = image.point(table,'1') #对灰度图进行二值化处理，按照table的规则(也就是上面的for循环)

image.show()

result = pytesseract.image_to_string(image) #对去噪后的图片进行识别

print('图片内容为:',result)

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 浪潮终章奏凯！GitCode & 文心大模型 & 智源研究院 AI 应用开发大赛圆满落幕

AtomGit开源社区

AI 重塑开源协作：AtomGit 开源实践交流分论坛在京顺利举行

AtomGit开源社区

腾讯混元 HunyuanVideo 1.5 登陆 AtomGit！消费级显卡也能玩转电影级视频生成

AtomGit开源社区

所有评论(0)

查看更多评论

weixin_39970855

@weixin_39970855

已为社区贡献2条内容