Python+pytesseract+Tesseract-OCR图片文字识别（只适合新手）

消灭八哥

28228人浏览 · 2018-03-28 09:56:00

消灭八哥 · 2018-03-28 09:56:00 发布

主要看到很多人写识别码的，自己照做各种失败对于我这个python的小白人士来说太困难，找了各种文章看了好久还是不成功，反复调试最终成功

经过总结特写此文章献给那些还在坑里的同学

期望本文可以带给初学者一些学习的兴趣和信心

1.首先准备环境：

python版本：2.7/3.6

操作系统：windows系统

2.准备工具：

tesseract-ocr（百度网盘地址：https://pan.baidu.com/s/1OL0g1MBzeijD23JN0UGC0Q）

Pycharm（下载地址：http://www.jetbrains.com/pycharm/download/#section=windows）

3.安装相关python包（作者使用的是py2.7）

pip install Pillow

pip install pytesseract

4.使tesseract-ocr与python关联，从而使python能够调用Tesseract-OCR程序识别验证码/文字：

C:\python27\Lib\site-packages\pytesseract\pytesseract.py

修改pytesseract.py文件中第24行将tesseract_cmd指向Tesseract-OCR的tesseract.exe

原内容：

修改后内容：

注：新手一定要注意/与\的区分

5.打开Pycharm写程序：

在此需要告诉新手的其中aaa.jpg是存放在py脚本的目录下，lang=‘chi_sim’代表中文识别，如果不加无法识别中文

6.运行脚本可以看到结果

特别提醒：如果步骤完全正确，但是运行报错,请卸载pytesseract重新安装问题就会解决（卸载命令pip uninstall pytesseract）

福利：python IDE的清屏一直是很让人头疼的一件事，特此文末送上python插件。

百度网盘下载地址：https://pan.baidu.com/s/17ooYaJACLrxKRzCz1MJrXA

技术支持：zsh583943218（微信，注明技术求助）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，