了解如何使用Tesseract和OpenCV通过Raspberry Pi相机从PDF等图像中提取文本

在本教程中,我将向您展示如何使用光学字符识别通过Raspberry Pi相机和Raspberry Pi从图像中提取文本。 Pi相机将捕获图像,并使用OpenCV和Tesseract从图像中提取文本。

视频演示

截图

什么是光学字符识别?

光学字符识别(OCR)是指从图像(打印或手写)或PDF格式的文档中电子提取文本的过程。此过程也称为文本识别。

什么是Tesseract?

Tesseract是最初由惠普在1985年至1994年之间开发的工具,在1996年进行了一些更改,以移植到Windows,并在1998年进行了一些C ++化。Tesseract在2005年被HP开源,并且Google一直在进一步开发 自2006年以来。

Tesseract识别并读取图像中显示的文本。它可以读取所有图像类型-png,jpeg,gif,tiff,bmp等。它还广泛用于处理扫描文档中的所有内容。

Tesseract具有Unicode(UTF-8)支持,并且可以立即识别100多种语言。为了将Tesseract集成到C ++或Python代码中,我们必须使用Tesseract的API。

如何在Raspberry Pi上安装Tesseract

首先,您需要通过键入以下命令来确保您的Raspberry Pi是最新的:

sudo apt-get update
sudo apt-get upgrade

这些命令会将Raspberry Pi上已安装的软件包更新为最新版本。

然后在终端中键入以下命令以在Raspberry Pi上安装OpenCV所需的软件包:

之后,键入以下命令以在Raspberry Pi上安装适用于Python 3的OpenCV 3。

注意:Pip3意味着将为Python 3安装OpenCV。

sudo pip3 install opencv-contrib-python libwebp6

接下来,通过键入以下命令安装Tesseract库:

sudo apt install tesseract-ocr

通过键入以下命令来安装命令行Tesseract工具:

sudo apt install libtesseract-dev

最后,通过键入以下内容为Tesseract安装Python封装包:

sudo pip install pytesseract

检查安装

让我们仔细检查一下新安装的软件包上的版本。

要检查是否已安装OpenCV,请尝试通过键入以下命令导入OpenCV:

Python3

import cv2

如果没有错误弹出,则表明安装成功。

cv2.version

要检查Tesseract的安装,请在终端中键入以下命令:

tesseract --version

如果正确安装,则终端应显示与下图所示类似的输出。

Python代码

将此Python代码复制并保存到扩展名为.py的文本文件中。

</>…

现在,使用命令python filename.py运行此代码。

详情参阅 - 亚图跨际

GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 4 个月前
2991d36a - 4 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐