【树莓派】利用tesseract进行汉字识别
tesseract
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
项目地址:https://gitcode.com/gh_mirrors/te/tesseract
免费下载资源
·
【树莓派】利用tesseract进行汉字识别
安装tesseract库
安装tesseract库和它的python封装:
sudo apt install tesseract-ocr --fix-missing
sudo apt install libtesseract-dev
sudo pip install pytesseract
可以到tesseract的Github中下载训练好的中文数据模型
也可以通过百度网盘下载。
地址:https://pan.baidu.com/s/1uuSTBNo3byJib4f8eRSIFw
提取码:8v8u
将下载好的chi_sim.traineddata复制到/usr/share/tesseract-ocr/4.00/tessdata/目录下
sudo cp chi_sim.traineddata /usr/share/tesseract-ocr/4.00/tessdata
识别图像中的汉字
将用于测试的图片test.png保存在桌面。
新建一个test.py文件,输入
from PIL import Image
from pytesseract import *
img0 = Image.open('/home/pi/Desktop/test.png')
mychars = image_to_string(img0,'chi_sim').strip()
print(mychars)
GitHub 加速计划 / te / tesseract
15
3
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:4 个月前 )
014b9d00 - 20 天前
13c966b7 - 23 天前
更多推荐
已为社区贡献1条内容
所有评论(0)