获取Tesseract源码的方式有很多。可以直接从repo获取,也可以下载压缩包。不过编译的时候往往也会出现各种奇怪的问题。这里介绍如何简单的配置和编译源码。

参考原文:How to Build Tesseract OCR Library on Windows

编译Tesseract

下载

安装

安装过程中勾选Tesseract development files

编译

在安装目录中找到vs2008到工程目录:

找到所有编译相关的库:

打开Visual Studio 2008(没有的可以去官网下载express版本),导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:libtesseract302d.dll ,libtesseract302.dll

在README中注意这段话:

?
1
2
3
4
5
6
Dependencies and Licenses
=========================
  
Leptonica is required. (www.leptonica.com). Tesseract no longer compiles
without Leptonica.
Libtiff is no longer required as a direct dependency.

Tesseract依赖Leptonica库,所以再看下Leptonica是怎么编译的。

编译Leptonica

Leptonica是C语言编写的一个图像处理库,支持JPEG, PNG, TIFF,GIF。

下载

编译

把三个包解压,并按照下面的结构组建编译环境:

?
1
2
3
4
5
6
7
BuildFolder\
  
   include\
  
   leptonica-1.68\
  
   lib\

BuildFolder\leptonica-1.68 contents:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
config\                    Not used for Windows builds
prog\                      Regression tests, examples, utilities
src\                       Source files for liblept
vs2008\                    Visual Studio 2008 specific files
  DLL Debug\                 liblept DLL Debug build output
  DLL Release\               liblept DLL Release build output
  LIB Debug\                 liblept LIB Debug build output
  LIB Release\               liblept LIB Release build output
  prog_projects\             Projects for prog programs
   ioformats_reg\             Sample project for prog\ioformats_reg.exe
    DLL Debug\                 DLL Debug build output for sample project
    DLL Release\               DLL Release build output for sample project
    LIB Debug\                 LIB Debug build output for sample project
    LIB Release\               LIB Release build output for sample project
    ioformats_reg.vcproj       The ioformats_reg project file
  leptonica.sln              The Leptonica solution file
  leptonica.vcproj           The Leptonica project file

打开Visual Studio 2008,导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:liblept168d.dllliblept168.dll

参考

Leptonica
Leptonica & Visual Studio 2008
Tesseract-ocr

GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:24 天前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 2 个月前
2991d36a - 2 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐