使用tesseract进行图像识别

在最近的工作中,遇到一个图像识别的问题。在探索一番opencv失败之后,无奈因为上线时间点的关系只能转用google的图像识别tesseract工具。

这次记录安装记录以防止日后用到。

先上结果:

brew install tesseract
brew install tesseract-lang

就这两条就可以愉快地使用

tesseract 2.jpg -l chi_sim

踩到的坑:

  1. 由于是在公司安装,github下载很慢。所以一开始就没装语言,手动去github上开了代理下了master的语言包。使用tesseract --list-langs列出来是有中文包的,但是进行图像识别时又提示不能加载中文语言包。还尝试设置export LANG=C结果也不行。
  2. 还有tess4j,但在文档中看到没有支持macosx。一直也没有运行成功。

opencv安装的坑:

  1. ant没有安装,cmake之后没有显示java的module
  2. 在添加了user_library_path后System.loadLibrary(NATIVE_LIBRARY_NAME)成功,但是调用报not link到native的错。试了2,3,4三个版本也没有解决。这个坑以后再来填。
GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 4 个月前
2991d36a - 4 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐