tesseract 二值化 去验证码干扰线
tesseract
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
项目地址:https://gitcode.com/gh_mirrors/te/tesseract
免费下载资源
·
公司要求爬一个系统的数据,最近这个系统验证码图片增加了干扰线,遂找资料研究了下。
原图片:
去杂线效果:
参考博客在这里,非常感谢:参考链接←
/**
* 利用tesseract识别验证码
*/
public String tens(InputStream image) {
String result = "";
try {
BufferedImage imagetmp = ImageIO.read(image);
//写入本地生成图片,测试效果用
//ImageIO.write(imagetmp, "png", new File("D:\\last.png"));
int width=imagetmp.getWidth();
int height = imagetmp.getHeight();
//二值化
BufferedImage grayImage = new BufferedImage(imagetmp.getWidth(), imagetmp.getHeight(), BufferedImage.TYPE_BYTE_BINARY);
for (int i = 0; i <width; i++) {
for (int j = 0; j < height; j++) {
int rgb = imagetmp.getRGB(i, j);
grayImage.setRGB(i, j, rgb);
}
}
//去除干扰线条
for(int y = 1; y < height-1; y++){
for(int x = 1; x < width-1; x++){
boolean flag = false ;
if(isBlack(grayImage.getRGB(x, y))){
//左右均为空时,去掉此点
if(isWhite(grayImage.getRGB(x-1, y)) && isWhite(grayImage.getRGB(x+1, y))){
flag = true;
}
//上下均为空时,去掉此点
if(isWhite(grayImage.getRGB(x, y+1)) && isWhite(grayImage.getRGB(x, y-1))){
flag = true;
}
//斜上下为空时,去掉此点
if(isWhite(grayImage.getRGB(x-1, y+1)) && isWhite(grayImage.getRGB(x+1, y-1))){
flag = true;
}
if(isWhite(grayImage.getRGB(x+1, y+1)) && isWhite(grayImage.getRGB(x-1, y-1))){
flag = true;
}
if(flag){
grayImage.setRGB(x,y,-1);
}
}
}
}
//ImageIO.write(grayImage, "png", new File("D:\\after.png"));
//识别验证码
ITesseract instance = new Tesseract();
instance.setDatapath(billDetailsPro.getTesseractPath());
result = instance.doOCR(grayImage);
} catch (Exception e) {
log.error("验证码识别异常..",e);
}
return result.replace(" ", "").replace("\n", "");
}
public boolean isBlack(int colorInt) {
Color color = new Color(colorInt);
if (color.getRed() + color.getGreen() + color.getBlue() <= 300) {
return true;
}
return false;
}
public boolean isWhite(int colorInt) {
Color color = new Color(colorInt);
if (color.getRed() + color.getGreen() + color.getBlue() > 300) {
return true;
}
return false;
}
GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7
Don't check for a directory, because a symbolic link is also allowed.
Signed-off-by: Stefan Weil <sw@weilnetz.de>
4 个月前
2991d36a - 4 个月前
更多推荐
已为社区贡献1条内容
所有评论(0)