tesseract字库训练踩到的坑

tesseract

tesseract-ocr/tesseract: 是一个开源的光学字符识别（OCR）引擎，适用于从图像中提取和识别文本。特点是可以识别多种语言，具有较高的识别准确率，并且支持命令行和API调用。

项目地址：https://gitcode.com/gh_mirrors/te/tesseract

免费下载资源

www.365codemall.com

3844人浏览 · 2019-08-12 17:02:19

www.365codemall.com · 2019-08-12 17:02:19 发布

推荐博客 https://blog.csdn.net/sylsjane/article/details/83751297 写的超级详细

推荐博客https://blog.csdn.net/qq_37674858/article/details/80340914 对于中文字库训练写的不错

推荐博客 https://www.cnblogs.com/yanjj/p/7998980.html 有关于字库合并的操作

花费了两天时间，修正了20张图片，进行识别库训练时·，他么的各种报错，各种坑，都快吐血了。。。。

1 缺少icuuc63.dll

64位的版本存在的问题，换成32位就不报这个错误了

2 生成tr文件报错

Error:Assert failed:in file ../../../../../src/ccmain/applybox.cpp, line 317

多张图片用jTessBoxEditor合成一张 tif 格式的图片，可能会报这个错，换成VietOCR.NET 合成图片之后，可以正常生成tr 文件，这他么都是什么问题？？？如果还是不能生成tr 文件，重新换张图片试试

合成图片以后，先别着急着去修正识别不准确的，先试一下看看能不能成功生成tr文件，不能等你吭哧吭哧的花费了几天时间，修正了几十张图片，结果不能成功生成tr文件，那不得哭死。。。。

生成box 文件 tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox

如果使用中文字库生成box 文件，则命令如下

tesseract.exe num.font.exp0.tif num.font.exp0 -l chi_sim batch.nochop makebox

生成的box文件为num.font.exp0.box，box文件为Tesseract识别出的字符及其坐标。

生成tr 文件 tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train

生成字符集 unicharset_extractor num.font.exp0.box

生成 num.unicharset 文件 shapeclustering -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr

执行下面命令，会生成 inttemp、pffmtable、shapetable三个文件。

mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr

执行下面命令，会生成 normproto 文件。

cntraining num.font.exp0.tr

重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

这里修改为num.inttemp、num.pffmtable、num.shapetable和num.normproto

rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable

合并训练文件：

执行下面命令，会生成num.traineddata文件。

combine_tessdata num.

GitHub 加速计划 / te / tesseract

60.1 K

9.29 K

下载

最近提交(Master分支：23 天前 )

bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 2 个月前

2991d36a - 2 个月前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m