tesseract如何在Linux下卸载,Linux下安装tesseract-ocr

榕十三

909人浏览 · 2021-05-05 05:44:06

榕十三 · 2021-05-05 05:44:06 发布

1、安装相应lib

# yum install libpng12-dev

# yum install libjpeg62-dev

# yum install libtiff5-dev

# yum install libtool

# yum install gcc

# yum install g++

# yum install automake

2、下载和安装leptonica

# wget http://www.leptonica.org/source/leptonica-1.71.tar.gz

解压

# tar -zxvf leptonica-1.71.tar.gz

解压后进入leptonica-1.71目录

# cd leptonica-1.71

编译安装

# ./configure

# make

# make install

leptonica即安装编译成功。

3、下载和安装tesseract

解压

# tar -zxvf tesseract-3.04.00.tar.gz

进入目录

# cd cd tesseract-3.04.00

编译安装

# ./autogen.sh

# ./configure

# make

# make install

# ldconfig

tesseract即安装编译成功。

4、安装中英文语言包

下载chi_sim.traineddata、eng.traineddata、eng.traineddata.part三个文件，并把它们放到tessdata文件夹中。

# cp chi_sim.traineddata /usr/local/share/tessdata

# cp eng.traineddata /usr/local/share/tessdata

# cp eng.traineddata.part /usr/local/share/tessdata

到现在基本的安装编译工作已经完成。

5、测试

# cd tesseract-3.04.00

# cd testing

发现一个名为phototest.tif的文件，这个文件其实就是一张图片，这个图片中有几句英文语句，我们的测试就是基于这张图片，也就是识别出这张图片中的英文语句。

于是在testing目录下输入下面指令：

# cd testing

# tesseract phototest.tif result -l eng

再查看testing目录下的文件，发现多了一个result.txt，这个result.txt就是我们对刚刚的phototest.tif文件的识别结果，打看查看。

跟刚刚图片中的内容完全一致，可以说识别率是很高的。到此我们的tesseract-ocr技术就已经可以使用了，由于我们导入了中文语言包chi_sim.traineddata，因此它还可以用来提取图片中的汉字，就这么简单就可以使用OCR技术来为你的程序服务了。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，