使用具有OpenCV和Tesseract的Raspberry Pi光学字符识别(OCR)
了解如何使用Tesseract和OpenCV通过Raspberry Pi相机从PDF等图像中提取文本
在本教程中,我将向您展示如何使用光学字符识别通过Raspberry Pi相机和Raspberry Pi从图像中提取文本。 Pi相机将捕获图像,并使用OpenCV和Tesseract从图像中提取文本。
视频演示
截图
什么是光学字符识别?
光学字符识别(OCR)是指从图像(打印或手写)或PDF格式的文档中电子提取文本的过程。此过程也称为文本识别。
什么是Tesseract?
Tesseract是最初由惠普在1985年至1994年之间开发的工具,在1996年进行了一些更改,以移植到Windows,并在1998年进行了一些C ++化。Tesseract在2005年被HP开源,并且Google一直在进一步开发 自2006年以来。
Tesseract识别并读取图像中显示的文本。它可以读取所有图像类型-png,jpeg,gif,tiff,bmp等。它还广泛用于处理扫描文档中的所有内容。
Tesseract具有Unicode(UTF-8)支持,并且可以立即识别100多种语言。为了将Tesseract集成到C ++或Python代码中,我们必须使用Tesseract的API。
如何在Raspberry Pi上安装Tesseract
首先,您需要通过键入以下命令来确保您的Raspberry Pi是最新的:
sudo apt-get update
sudo apt-get upgrade
这些命令会将Raspberry Pi上已安装的软件包更新为最新版本。
然后在终端中键入以下命令以在Raspberry Pi上安装OpenCV所需的软件包:
之后,键入以下命令以在Raspberry Pi上安装适用于Python 3的OpenCV 3。
注意:Pip3意味着将为Python 3安装OpenCV。
sudo pip3 install opencv-contrib-python libwebp6
接下来,通过键入以下命令安装Tesseract库:
sudo apt install tesseract-ocr
通过键入以下命令来安装命令行Tesseract工具:
sudo apt install libtesseract-dev
最后,通过键入以下内容为Tesseract安装Python封装包:
sudo pip install pytesseract
检查安装
让我们仔细检查一下新安装的软件包上的版本。
要检查是否已安装OpenCV,请尝试通过键入以下命令导入OpenCV:
Python3
import cv2
如果没有错误弹出,则表明安装成功。
cv2.version
要检查Tesseract的安装,请在终端中键入以下命令:
tesseract --version
如果正确安装,则终端应显示与下图所示类似的输出。
Python代码
将此Python代码复制并保存到扩展名为.py的文本文件中。
</>…
现在,使用命令python filename.py运行此代码。
详情参阅 - 亚图跨际
更多推荐
所有评论(0)