主要看到很多人写识别码的,自己照做各种失败对于我这个python的小白人士来说太困难,找了各种文章看了好久还是不成功,反复调试最终成功

经过总结特写此文章献给那些还在坑里的同学

期望本文可以带给初学者一些学习的兴趣和信心

1.首先准备环境:

python版本:2.7/3.6

操作系统:windows系统

2.准备工具

tesseract-ocr(百度网盘地址:https://pan.baidu.com/s/1OL0g1MBzeijD23JN0UGC0Q)

Pycharm(下载地址:http://www.jetbrains.com/pycharm/download/#section=windows)

3.安装相关python包(作者使用的是py2.7)

pip install Pillow

pip install pytesseract

4.使tesseract-ocr与python关联,从而使python能够调用Tesseract-OCR程序识别验证码/文字:

C:\python27\Lib\site-packages\pytesseract\pytesseract.py

修改pytesseract.py文件中第24行将tesseract_cmd指向Tesseract-OCR的tesseract.exe

原内容:


修改后内容:

注:新手一定要注意/与\的区分

5.打开Pycharm写程序:


在此需要告诉新手的其中aaa.jpg是存放在py脚本的目录下,lang=‘chi_sim’代表中文识别,如果不加无法识别中文

6.运行脚本可以看到结果

特别提醒:如果步骤完全正确,但是运行报错,请卸载pytesseract重新安装问题就会解决(卸载命令pip uninstall pytesseract

福利:python IDE的清屏一直是很让人头疼的一件事,特此文末送上python插件。

百度网盘下载地址:https://pan.baidu.com/s/17ooYaJACLrxKRzCz1MJrXA

技术支持:zsh583943218(微信,注明技术求助)

GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 4 个月前
2991d36a - 4 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐