OCR之Tesseract在VS2010中的使用

tesseract

tesseract-ocr/tesseract: 是一个开源的光学字符识别（OCR）引擎，适用于从图像中提取和识别文本。特点是可以识别多种语言，具有较高的识别准确率，并且支持命令行和API调用。

项目地址：https://gitcode.com/gh_mirrors/te/tesseract

免费下载资源

youngyang525

10230人浏览 · 2014-03-01 20:02:41

youngyang525 · 2014-03-01 20:02:41 发布

一，下载lib和dll

可以从这里 http://code.google.com/p/tesseract-ocr/downloads/list 下载

tesseract-ocr-setup-3.02.02.exe

Windows installer of tesseract-ocr 3.02.02 (including English language data) Featured

然后进行安装，如此可以方便地省去好多配置细节：如修改环境变量【如果不采用环境变量方式，则需要对于每个工程目录建立tessdata文件夹，并且里面放置所需要的chi_sim.traineddata等语言包】，也不再需要下载tesseract-3.02.02-win32-lib-include-dirs.zip，更方便以后训练出自己的 traineddata 文件

需要注意的是，安装目录下lib里面 libtesseract302d.dll 是针对VS2008的，需要用一个vs2010编译出的替换下来才可以在VS2010下正常使用。

另外还需要将 liblept168.dll 和 liblept168d.dll两个文件一并下载放到lib里面。 (我的资源库有这几个文件)

二，修改环境变量Path

在环境变量Path中增加指向安装目录下lib的路径，比如C:\Program Files\Tesseract-OCR\lib ，以便exe运行时能找到所需要的dll

三，工程中属性中增加路径

在自己的工程属性中VC++目录下增加包含目录和库目录，以便VS2010查找文件。例如

包含目录下新增：C:\Program Files\Tesseract-OCR\include\tesseract

库目录下新增： C:\Program Files\Tesseract-OCR\lib

四，增加语言训练包

直接将语言训练包放置在安装目录 tessdata文件夹下就好，比如将tesseract-ocr-3.02.chi_sim.tar.gz中的chi_sim.traineddata 文件直接抽取出来放在 C:\Program Files\Tesseract-OCR\tessdata 下面，就可以支持中文简体字符的识别啦。当然，自己训练出来的 traineddata 文件也是要放在这里的才生效。

测试代码：

#include "stdafx.h"  
#pragma comment(lib, "libtesseract302.lib")
#pragma comment(lib, "liblept.lib")
#include "tesseract\baseapi.h"  
#include "tesseract\strngs.h"  


int _tmain(int argc, _TCHAR* argv[])  
{  
	const char * image = "image.jpg";  

	tesseract::TessBaseAPI  api;  
	api.Init(NULL, "eng", tesseract::OEM_DEFAULT);  
	api.SetVariable( "tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" );  

	STRING text_out;  
	if (!api.ProcessPages(image, NULL, 0, &text_out))  
	{  
		return 0;  
	}  

	printf(text_out.string());   

	return 0;  
}

测试图片

测试结果

注意要添加：

#pragma comment(lib, "libtesseract302.lib")
#pragma comment(lib, "liblept.lib")

否则编译链接工程时，会出现错误！！！！！

GitHub 加速计划 / te / tesseract

60.1 K

9.29 K

下载

最近提交(Master分支：2 个月前 )

bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 4 个月前

2991d36a - 4 个月前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m