Ubuntu系统linux下安装pytesseract和tesseract-ocr

tesseract

tesseract-ocr/tesseract: 是一个开源的光学字符识别（OCR）引擎，适用于从图像中提取和识别文本。特点是可以识别多种语言，具有较高的识别准确率，并且支持命令行和API调用。

项目地址：https://gitcode.com/gh_mirrors/te/tesseract

免费下载资源

CaoMei_HuaCha

3516人浏览 · 2018-12-11 11:15:05

CaoMei_HuaCha · 2018-12-11 11:15:05 发布

******首先说明：这个工具我尝试了三天，一开始用的时候还不会报错，只是识别出来的东西不是正常的文字，后来又安装了一些东西，会报错，Tesseract-OCR有关的一些错误，这时候就知道是这个工具没有安装好，然后不断的测试，直到，可以成功识别文字为止。

安装pytesseract就直接pip install pytesseract就好了，重要的是ocr

========================================================分割线

ubuntu 16.04:

默认安装的OCR引擎版本是3.04,因此需要安装4.0版本的，则需要:

sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update

# 安装OCR引擎
sudo apt-get install tesseract-ocr
# 安装训练数据(equ为数学公式包)
sudo apt-get install tesseract-ocr-eng tesseract-ocr-chi-sim  tesseract-ocr-equ

# 可选安装Leptonica
sudo apt-get install liblept5  libleptonica-dev

traineddata存放路径: $TESSDATA_PREFIX/testdata

3.04版本 ./usr/share/tesseract-ocr/tessdata/

4.0版本 /usr/share/tesseract-ocr/4.00/tessdata/

============================================================分割线

1. 在ubuntu下可以自动安装

sudo apt-get install tesseract-ocr

2.编译安装
a.编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)

yum install gcc gcc-c++ make

b.安装tesseract-ocr编译必须的包

yum/apt-get install autoconf automake libtool

c.增加图像解析需要的包，可以按照指定的格式选择包
yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

ubuntu
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev

d.下载 leptonica 包: http://www.leptonica.org/source/leptonica-1.71.tar.gz
wget http://www.leptonica.org/source/leptonica-1.71.tar.gz
tar -zxvf ...
./configure
make
make install

需要注意，leptonica的版本问题

3.01 requires at least v1.67 of Leptonica.
3.02 requires at least v1.69 of Leptonica. (Both available in Ubuntu 12.04 Precise Pangolin.)
3.03 requires at least v1.70 of Leptonica. (Both available in Ubuntu 14.04 Trusty Tahr.)

如果版本不一致，会出现问题如下：

Tesseract Open Source OCR Engine v3.02.02 with Leptonica
Error in findTiffCompression: function not present
Error in pixReadStreamTiff: function not present
Error in pixReadStream: tiff: no pix returned
Error in pixRead: pix not read
Unsupported image type.

e.下载 tesseract-3.02 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.02.02.tar.gz

wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
./autogen.sh
./configure
make
make install
ldconfig

f.下载 tesseract-3.02 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz，解压后将 tesseract-ocr/tessdata 下的所有文件全部拷贝到 /usr/local/share/tessdata 下。

参考：https://blog.csdn.net/yoara/article/details/42392659#

参考：https://www.cnblogs.com/hupeng1234/p/7136442.html

GitHub 加速计划 / te / tesseract

60.1 K

9.29 K

下载

最近提交(Master分支：2 个月前 )

bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 4 个月前

2991d36a - 4 个月前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m