Tesseract怎么识别中文
·
前言
经过上一篇文章,我们已经成功安装了Tesseract4.0,并且可以识别出英文了
https://blog.csdn.net/qq_43576028/article/details/102907170
那么Tesseract要怎么识别中文呢。
流程
去官网的GitHub上面下载中文训练包
https://github.com/tesseract-ocr/tessdata
点击进入,不用直接下载,可能会导致页面崩溃,大家复制链接,进入迅雷下载速度更快。
下载完了之后把中文训练包放到tessdata中
配置环境变量
开始图片转换(具体的图片转换流程在第一篇安装教程里面,戳这里https://blog.csdn.net/qq_43576028/article/details/102907170
以上图为例
与默认的英文识别相比,在这里我们多了一个参数:-l chi_sim
这样tesseract就知道要去识别中文了
打开结果文件
成功
更多推荐
已为社区贡献2条内容
所有评论(0)