公司要求爬一个系统的数据,最近这个系统验证码图片增加了干扰线,遂找资料研究了下。
原图片:
在这里插入图片描述
去杂线效果:
在这里插入图片描述

参考博客在这里,非常感谢:参考链接←


    /**
     * 利用tesseract识别验证码
     */
    public String tens(InputStream image) {
        String result = "";
        try {
            BufferedImage imagetmp = ImageIO.read(image);
            
            //写入本地生成图片,测试效果用
            //ImageIO.write(imagetmp, "png", new File("D:\\last.png"));
            
            int width=imagetmp.getWidth();
            int height = imagetmp.getHeight();
            //二值化
            BufferedImage grayImage = new BufferedImage(imagetmp.getWidth(), imagetmp.getHeight(), BufferedImage.TYPE_BYTE_BINARY);
            for (int i = 0; i <width; i++) {
                for (int j = 0; j < height; j++) {
                    int rgb = imagetmp.getRGB(i, j);
                    grayImage.setRGB(i, j, rgb);
                }
            }

            //去除干扰线条
        for(int y = 1; y < height-1; y++){
            for(int x = 1; x < width-1; x++){
                boolean flag = false ;
                if(isBlack(grayImage.getRGB(x, y))){
                    //左右均为空时,去掉此点
                    if(isWhite(grayImage.getRGB(x-1, y)) && isWhite(grayImage.getRGB(x+1, y))){
                        flag = true;
                    }
                    //上下均为空时,去掉此点
                    if(isWhite(grayImage.getRGB(x, y+1)) && isWhite(grayImage.getRGB(x, y-1))){
                        flag = true;
                    }
                    //斜上下为空时,去掉此点
                    if(isWhite(grayImage.getRGB(x-1, y+1)) && isWhite(grayImage.getRGB(x+1, y-1))){
                        flag = true;
                    }
                    if(isWhite(grayImage.getRGB(x+1, y+1)) && isWhite(grayImage.getRGB(x-1, y-1))){
                        flag = true;
                    }
                    if(flag){
                        grayImage.setRGB(x,y,-1);
                    }
                }
            }
        }

            //ImageIO.write(grayImage, "png", new File("D:\\after.png"));

			//识别验证码
            ITesseract instance = new Tesseract();
            instance.setDatapath(billDetailsPro.getTesseractPath());
            result = instance.doOCR(grayImage);
        } catch (Exception e) {
            log.error("验证码识别异常..",e);
        }
        return result.replace(" ", "").replace("\n", "");
    }

    public  boolean isBlack(int colorInt) {
        Color color = new Color(colorInt);
        if (color.getRed() + color.getGreen() + color.getBlue() <= 300) {
            return true;
        }
        return false;
    }

    public boolean isWhite(int colorInt) {
        Color color = new Color(colorInt);
        if (color.getRed() + color.getGreen() + color.getBlue() > 300) {
            return true;
        }
        return false;
    }

GitHub 加速计划 / te / tesseract
60.1 K
9.29 K
下载
tesseract-ocr/tesseract: 是一个开源的光学字符识别(OCR)引擎,适用于从图像中提取和识别文本。特点是可以识别多种语言,具有较高的识别准确率,并且支持命令行和API调用。
最近提交(Master分支:2 个月前 )
bc490ea7 Don't check for a directory, because a symbolic link is also allowed. Signed-off-by: Stefan Weil <sw@weilnetz.de> 4 个月前
2991d36a - 4 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐