0.我的环境:

win7 32bits

python 3.5

pycharm 5.0

1.相关库

安装pillow:

pip install pillow

安装tesseract:

自带了英文语言包,如果需要中文语言包往下找即可。

或者在安装的时候,在选项lang处,点选chi-sim即可。

安装完毕后,会儿自动加入系统环境变量中。

安装pytesseract:

pip install pytesseract

2.修改pytesseract.py原文件

# tesseract_cmd = 'tesseract'

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

#如果不修改,会报错:FileNotFoundError: [WinError 2] 系统找不到指定的文件。

#f = open(output_file_name)

f = open(output_file_name, encoding='utf-8')

#如果不修改,会儿报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xyy in position xxx: illegal multibyte sequence

3.小程序,测试一下

#coding:utf-8

#Test one page

import pytesseract

from PIL import Image

def processImage():

image = Image.open('test.png')

#背景色处理,可有可无

image = image.point(lambda x: 0 if x < 143 else 255)

newFilePath = 'raw-test.png'

image.save(newFilePath)

content = pytesseract.image_to_string(Image.open(newFilePath), lang='eng')

#中文图片的话,是lang='chi_sim'

print(content)

processImage()

【图片识别】java 图片文字识别 ocr (转)

http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...

java 图片文字识别 ocr

最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为java使用的demo 在此之前,使用这个工具需要在本地安装OCR工具: 下面一个是一定要安装的 ...

Python图像处理之图片文字识别(OCR)

OCR与Tesseract介绍   将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同 ...

如何大批量的识别图片上的文字,批量图片文字识别OCR软件系统

软件不需要安装,直接双击打开就可以用,废话不多说直接上图好了,方便说明问题 批量图片OCR(批量名片识别.批量照片识别等)识别,然后就下来研究了一下,下面是成果 使用步骤:打开单个图片识别,导入文件夹 ...

Python人工智能之图片识别,Python3一行代码实现图片文字识别

1.Python人工智能之图片识别,Python3一行代码实现图片文字识别 2.tesseract-ocr安装包和中文语言包 注意:

小试Office OneNote 2010的图片文字识别功能(OCR)

原文:小试Office OneNote 2010的图片文字识别功能(OCR) 自Office 2003以来,OneNote就成为了我电脑中必不可少的软件,它集各种创新功能于一身,可方便的记录下各种类型 ...

一篇文章搞定百度OCR图片文字识别API

一篇文章搞定百度OCR图片文字识别API https://www.jianshu.com/p/7905d3b12104

【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 18—Photo OCR 应用实例&colon;图片文字识别

Lecture 18—Photo OCR 应用实例:图片文字识别 18.1 问题描述和流程图 Problem Description and Pipeline 图像文字识别需要如下步骤: 1.文字侦测 ...

&lbrack;C13&rsqb; 应用实例:图片文字识别&lpar;Application Example&colon; Photo OCR&rpar;

应用实例:图片文字识别(Application Example: Photo OCR) 问题描述和流程图(Problem Description and Pipeline) 图像文字识别应用所作的事是 ...

随机推荐

css 强制 中文、英文 换行

.livechat-text a { display: block; word-break:break-all; /* 英文换行 */ white-space:normal; /* 中文换行 */ } ...

Hive集成HBase&semi;安装pig

Hive集成HBase 配置 将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉 cd /opt/hive/lib/ ls hbase-0.94.2*  rm -rf ...

java - Stack栈和Heap堆的区别

首先分清楚Stack,Heap的中文翻译:Stack—栈,Heap—堆.         在中文里,Stack可以翻译为“堆栈”,所以我直接查找了计算机术语里面堆和栈开头的词语:        堆存储 ...

C&num;中方法的声明

C#中方法的声明(四要素) 访问修饰符 :public,private(方法的默认访问修饰符) 返回值类型:void 和 非void 方法名称    : 规范是方法名称取动词,每个单词的首字母大写. ...

Exception&amp&semi;Error

Java异常处理 1:什么是异常 异常(Exception)也叫异常.在Java编程语言中,异常就是程序在运行过程中由于硬件设备问题.软件设计错误.缺陷等导致的程序错误. 1.1:想打开的文件不存在 ...

一模 (6) day1

第一题: 题目大意: 一个n的全排列A[i]是单峰的,当且仅当存在某个x使得A[1]A[x+1]>...>A[n]. 试求 n 的单峰 ...

【转】 Java虚拟机内存的堆区(heap),栈区(stack)和静态区(static&sol;method)

JAVA的JVM的内存可分为3个区:堆(heap).栈(stack)和方法区(method) 堆区:1.存储的全部是对象,每个对象都包含一个与之对应的class的信息.(class的目的是得到操作指令 ...

sqlserver查询编辑器编辑数据

1.我想编辑这几行的sortid,方式可以直接写sql,但是还有一种更简洁的方法,如下: 2.用这种方式可以直接修改,比较方便. 3.总结:要做一件事情,可能有很多种方法.而且很有可能有简单的方法,如 ...

jquery fadeIn用法

$("#msgSpan").fadeIn("slow"); setTimeout('$("#msgSpan").hide("slo ...

flask中jinjia2模板使用详解2

接上文 注释的使用 在jinjia2模板中,使用{# #}进行代码注释,如下所示 运行后发现,注释不会被render出来 去掉空行 两种方法可以去掉jinjia2模板中的空白行,一是设置jinjia2 ...

GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 4 个月前
2991d36a - 4 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐