tesseract训练手写体

weixin_30347335

573人浏览 · 2019-08-08 11:15:00

weixin_30347335 · 2019-08-08 11:15:00 发布

前面的步骤都一样，从第4步开始

4、使用tesseract生成.box文件：

tesseract eng.handwriting.exp0.tif eng.handwriting.exp0 -l eng -psm 7 batch.nochop makebox

5、矫正一下识别有问题的字符

6、生成font_properties文件：

只要字符部分，不要语言部分，也不要exp【数字】这里

echo handwriting 0 0 0 0 0 >font_properties

7、使用tesseract生成.tr训练文件:

tesseract eng.handwriting.exp0.tif eng.handwriting.exp0 nobatch box.train

成功生成一个tr文件

8、生成字符集文件：

unicharset_extractor eng.handwriting.exp0.box

9、生成shape文件：

shapeclustering -F font_properties -U unicharset -O eng.handwriting.exp0.unicharset eng.handwriting.exp0.tr

会生成 shapetable 和 zwp.unicharset 两个文件。

10、生成聚字符特征文件：

会生成 inttemp、pffmtable、shapetable和eng.handwriting.exp0.unicharset四个文件。

mftraining -F font_properties -U unicharset -O eng.handwriting.exp0.unicharset eng.handwriting.exp0.tr

11、生成字符正常化特征文件：会生成 normproto 文件。

cntraining eng.handwriting.exp0.tr

12、文件重命名：

重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

这里修改为zwp.inttemp、zwp.pffmtable、zwp.shapetable和zwp.normproto

rename normproto eng.normproto
rename inttemp eng.inttemp 
rename pffmtable eng.pffmtable
rename shapetable eng.shapetable

13、合并训练文件：

执行下面命令，会生成handwritingEng.traineddata文件。

combine_tessdata eng.

转载于:https://www.cnblogs.com/jnhs/p/11320042.html

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

SCI论文快速写作指南：沁言学术实用方法

在SCI论文写作领域，尤其针对CSDN社区内的计算机科学、AI和算法优化研究者，高效方法的应用已成为提升投稿成功率的关键。AI工具的整合能显著优化从检索到润色的流程。本文基于公开调研数据和用户案例，剖析SCI写作难点，并以沁言学术为例，探讨实用方法与技术机制。重点在于算法深度与效率insights，旨在为CSDN用户提供可操作的指导，帮助科研人员加速SCI论文产出。

GitCode 开源社区

仓颉共学创作营正式启动！邀您共探新兴技术，解锁仓颉创作红利

GitCode 开源社区

高校科研团队文献协作工具推荐

在高校科研团队中，尤其针对CSDN社区内的计算机科学、AI和大数据领域，文献协作是推动项目进展的核心。传统方法往往因信息孤岛和版本冲突而低效，AI工具的引入能优化这一流程。本文基于公开调研数据和用户案例，剖析协作痛点，并以沁言学术为例，探讨其功能机制与应用策略。重点在于技术深度与团队insights，旨在为CSDN用户提供可借鉴的路径，帮助科研团队提升文献协作效率。