在开始从源代码构建 tesseract 4.1.1 之前,您需要安装一些依赖项。首先,您必须安装该leptonica库,它是一个面向教学的开源库,其中包含广泛用于图像处理和图像分析应用程序的软件。要了解有关 的更多信息leptonica,请参阅 Leptonica 的网站:

http://www.leptonica.org/

要安装leptonica,请使用以下命令:

sudo apt-get install -y libleptonica-dev

从这个列表中,您很可能不会有以下依赖项。

您的 Ubuntu 系统附带gcc提供 C++11 支持,因此它已经存在。您可以使用以下命令安装上述依赖项:

sudo apt-get update -y 
sudo apt-get install automake 
sudo apt-get install -y pkg-config 
sudo apt-get install -y libsdl-pango-dev 
sudo apt-get install -y libicu-dev 
sudo apt-get install -y libcairo2-dev 
sudo apt-get install bc

最后一个库bc是在您的机器上运行 tesseract 4 所需的额外依赖项。

现在您必须克隆 tesseract 存储库。嘿!但停在那里!首先,转到以下存储库:

打开名为VERSION的文件,您将看到写入5.0.0-alpha,这意味着将使用此存储库中的 makefile 安装的 tesseract 版本将是5.0.0-alpha。但这不是 tesseract 的稳定版本,在创建本文时稳定版本是4.1.1

现在要找到下载 tesseract 最新稳定版本的链接,在右侧栏中,您会找到标题为“Releases”的部分,其中您将看到4.1.1 Release

下载并完成解压缩操作后,已创建名为tesseract-4.1.1的文件夹。cd使用命令进入该目录。

我们将使用自动工具(LINUX/UNIX , msys…) 这样做。

您需要从tesseract-4.1.1目录运行以下命令来安装 tesseract:

./autogen.sh 
./configure 
make 
sudo make install 
sudo ldconfig 
#make training 
#sudo make training-install

其中ldconfig是一个动态链接库管理命令为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfig ldconfig  命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态 链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件.缓存文件默认为  /etc/ld.so.cache,此文件保存已排好序的动态链接库名字列表.

要检查 tesseract 是否已成功安装,请运行以下命令:

tesseract --version

 

GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:1 个月前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 2 个月前
2991d36a - 3 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐