Error opening data file X:\xxxx\Tesseract-OCR\tessdata/tessdata/chi_sim.traineddata Please make
tesseract
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
项目地址:https://gitcode.com/gh_mirrors/te/tesseract
免费下载资源
·
Tesseract 使用中文语言包出错
Error 详情
Error opening data file D:\software\Tesseract-OCR\tessdata/tessdata/chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory.
Failed loading language ‘tessdata/chi_sim’
Tesseract couldn’t load any languages!
Could not initialize tesseract.
显然上面提示已经说明了需要配置字库环境变量
设置环境变量
TESSDATA_PREFIX
安装地址\Tesseract-OCR\tessdata
设置好环境变量后,语言包的选择只需要直接输入语言包名称即可-l chi_sim
tesseract test.png result -l chi_sim
测试图片
输出结果
摘 要 ; 为 高 效 精 砥 地 提 取 存 代 于 五 联 网 中 的 灿 宠 主 题 网 页 文 本 信 息 , 引 人 本 余义 , 提 出 一 种 新 的 烟 害 主 题 秀 蚊
策 略 。 绑 出 本 体 语义 支 挂 的 灿 宠 主 题 爬 虫 概 架 和 诗 程 , 改 进 本 体 概 念 语 义相 作 度 计 算 方 法 , 利 用 语 义 相 余 度 计 算
主 题 语 义吊 量 , 通 过 HTML 位 霓 加 权 获 朔 网 页 文 本 特 征 向 量 , 并 选 行 主 题 相 关 度 计 算 。 设 计 URL 铸 文 本 主 题 相 关
度 计 算 方 法 , 分 析 URL 链 接 任 兆 度 , 优 化 爬 行 队 列 。 选 取 地震 灿 宠 和 氖 象 灾 害 2 个 主 题 送 行 测 试 与 分 枪 , 实 验 维 素
表 明 , 该 答 畦 能 有 效 提 高 穗 定 性 和 爬 淅 宏 。
关 辐 词 ; 主 题 爬 虱 ; 本 仰 ; 诱 义 林似 度 ; 向 最 空 间 模 垣 ; 林关 度 计 算 ; 铸 文 本
```
GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7
Don't check for a directory, because a symbolic link is also allowed.
Signed-off-by: Stefan Weil <sw@weilnetz.de>
4 个月前
2991d36a - 4 个月前
更多推荐
已为社区贡献8条内容
所有评论(0)