推荐博客 https://blog.csdn.net/sylsjane/article/details/83751297 写的超级详细

推荐博客https://blog.csdn.net/qq_37674858/article/details/80340914 对于中文字库训练写的不错

推荐博客 https://www.cnblogs.com/yanjj/p/7998980.html 有关于字库合并的操作

 

花费了两天时间,修正了20张图片,进行识别库训练时·,他么的各种报错,各种坑,都快吐血了。。。。

1   缺少icuuc63.dll

64位的版本存在的问题,换成32位就不报这个错误了

 2 生成tr文件报错

Error:Assert failed:in file ../../../../../src/ccmain/applybox.cpp, line 317

多张图片用jTessBoxEditor合成一张 tif 格式的图片,可能会报这个错,换成VietOCR.NET 合成图片之后,可以正常生成tr 文件,这他么都是什么问题??? 如果还是不能生成tr 文件,重新换张图片试试

合成图片以后,先别着急着去修正识别不准确的,先试一下看看能不能成功生成tr文件,不能等你吭哧吭哧的花费了几天时间,修正了几十张图片,结果不能成功生成tr文件,那不得哭死。。。。

 

生成box 文件 tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox 

如果使用中文字库生成box 文件, 则命令如下 

    tesseract.exe num.font.exp0.tif num.font.exp0 -l chi_sim batch.nochop  makebox

生成的box文件为num.font.exp0.box,box文件为Tesseract识别出的字符及其坐标。

生成tr 文件   tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train

生成字符集     unicharset_extractor num.font.exp0.box

生成  num.unicharset 文件   shapeclustering -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr

执行下面命令,会生成 inttemp、pffmtable、shapetable三个文件。

mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr

执行下面命令,会生成 normproto 文件。

cntraining num.font.exp0.tr

重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

这里修改为num.inttemp、num.pffmtable、num.shapetable和num.normproto

rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable

合并训练文件:

执行下面命令,会生成num.traineddata文件。

combine_tessdata num.

 

GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:23 天前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 2 个月前
2991d36a - 2 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐