`
san_yun
  • 浏览: 2652453 次
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

使用tesseract-ocr破解网站验证码

 
阅读更多

原文:使用tesseract-ocr破解网站验证码

 

首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码
http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/

当然,看了之后才知道,原来是调用了三方库tesseract-ocr……
http://code.google.com/p/tesseract-ocr/

尽管如此,本着邓爷爷的“不管白猫黑猫,能抓住老鼠的就是好猫”的原则,趁着假期也开始了“文字识别”的初级研究

HP的tesseract最近被Google支持并开支持英文字母和数字,据说辨识程度是世界排名第三的;更难能可贵的是,提供多国语言包下载(包括中文,精度不咋的倒是真的……),并自带训练工具。

安装完并跑过自带例子之后,首先想到的应用自然是用于验证码分析

 

 

按照说明,送入tesseract的图片的质量直接影响识别的效果,因此,简单的预处理是不可或缺的

1.首先灰度化,灰度值=0.3R+0.59G+0.11B:

 

 

 
for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = srcImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        int gray = (int) (0.3 * color.getRed() + 0.59
            * color.getGreen() + 0.11 * color.getBlue());
        Color newColor = new Color(gray, gray, gray);
        srcImg.setRGB(x, y, newColor.getRGB());
    }
}

 结果如图:


2.其次是灰度反转:

 

for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = buffImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        Color newColor = new Color(255 - color.getRed(), 255 - color
            .getGreen(), 255 - color.getBlue());
        buffImg.setRGB(x, y, newColor.getRGB());
    }
}

 

结果如图:


3.再次是二值化,取图片的平均灰度作为阈值,低于该值的全都为0,高于该值的全都为255:

for (int y = minY; y < height; y++) {
    for (int x = minX; x < width; x++) {
        int rgb = buffImg.getRGB(x, y);
        Color color = new Color(rgb); // 根据rgb的int值分别取得r,g,b颜色。
        int value = 255 - color.getBlue();
        if (value > average) {
            Color newColor = new Color(0, 0, 0);
            buffImg.setRGB(x, y, newColor.getRGB());
        } else {
            Color newColor = new Color(255, 255, 255);
            buffImg.setRGB(x, y, newColor.getRGB());
        }
    }
}

 结果如图:


看看效果还凑合,就省却尺寸调整、中值滤波以及噪点去除等步骤了。

以上完成图片预处理工作;Tesseract没有开放api,纯命令行调用:

List<String> cmd = new ArrayList<String>(); // 存放命令行参数的数组
cmd.add(tessPath + "\\tesseract");
cmd.add("");
cmd.add(outputFile.getName()); // 输出文件位置
cmd.add(LANG_OPTION); // 字符类别
cmd.add("eng"); // 英文,找到tessdata里对应的字典文件。
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());

cmd.set(1, tempImage.getName()); // 把图片文件位置放在第一个位置

pb.command(cmd); // 执行命令行
pb.redirectErrorStream(true); // 通知进程生成器是否合并标准错误和标准输出,把进程错误保存起来。
Process process = pb.start(); // 开始执行进程

int w = process.waitFor(); // 当前进程停止,直到process停止执行,返回执行结果.

 

结果输出表示一切正常

当然,真正要用好tesseract-ocr,还需用到其强大地训练工具,就是后话了……

另外,关于文字识别,除去作为破解验证码的反制手段之外,我们是否也有相关的应用呢?

分享到:
评论

相关推荐

    tesseract-ocr-w64-setup-v5.0.1.20220118.exe免费的哦

    在爬取网页时,遇到图片形式的验证码,Tesseract OCR能帮助解析这些验证码,从而突破网站的防护机制。此外,OCR技术还能应用于PDF文档的处理,如将包含大量文本的PDF转换成可编辑的Word文档,这在数据整理、文档编辑...

    tesseract-ocr的简体中文训练数据

    tesseract-ocr的简体中文语言训练数据,来自google官网,可以用于中文的图片验证码识别,对于比较标准的字体还是有不错的识别率的

    使用tesseract-ocr破解验证码详解.rar

    使用tesseract-ocr破解验证码详解.rar

    tesseract-ocr-setup-3.05.01.exe

    **Tesseract OCR简介** Tesseract OCR(Optical Character Recognition,光学字符识别)是一款开源的文本识别引擎,由HP公司于1985年开发,并在2005年被Google接管并持续维护至今。它的主要功能是将图像中的印刷体...

    tesseract-ocr-setup-3.05.01+4个汉字语言包

    - 图片验证码识别:tesseract-ocr在处理复杂的图片验证码时,能帮助自动化脚本或工具识别验证码中的文字,常用于网络爬虫或者自动化测试。 - 扫描文档转电子文本:对于大量的纸质文档,可以通过扫描并使用...

    tesseract-ocr-w64-setup-v5.0.0.20190623-可用版.rar

    通过先将验证码图片下载下来,然后使用Tesseract OCR识别出其中的文字,从而实现自动化登录或其他需要验证码的场景。 **注意事项** 1. 在使用Tesseract OCR前,确保已经正确安装了对应版本,并添加到系统环境变量...

    使用tesseract-ocr破解验证码详解.pdf

    在本教程中,我们将详细介绍如何在Windows环境下安装和使用Tesseract OCR来破解验证码。 首先,我们需要下载并安装Tesseract OCR。你可以访问官方网站或者通过第三方资源获取安装包。这里我们以`tesseract-ocr-...

    tesseract-ocr-4.0

    在Python环境中,我们通常使用`pytesseract`库来调用Tesseract OCR引擎。`pytesseract`是一个Python封装,它提供了一个简单易用的接口来与Tesseract进行交互。 **四、PyTesseract的使用** 1. **安装**:在Python...

    tesseract-ocr4.00.00dev.rar

    **Tesseract OCR 4.00.00dev:图像内容识别与验证码解析的强大工具** Tesseract OCR(Optical Character Recognition)是由Google维护的一个开源OCR引擎,最初由HP开发,后被Google收购并进一步发展。这个工具的...

    Tesseract-OCR(tessdata)训练库 挂低价自己用

    验证码识别是Tesseract OCR的一个常见应用,特别是在自动化测试和反爬虫策略中。使用`tess4j`可以方便地将Tesseract集成到Java程序中,以识别验证码图像中的字符。要实现这一功能,开发者需要: 1. 安装并配置...

    tesseract-ocr 验证码识别 32位 最新版 4.1

    tesseract-ocr 验证码识别 32位 最新版 4.1 tesseract-ocr 验证码识别 32位 最新版 4.1 tesseract-ocr 验证码识别 32位 最新版 4.1 tesseract-ocr 验证码识别 32位 最新版 4.1

    tesseract-ocr-w64-setup-v4.0.0

    **使用Tesseract OCR的步骤:** 1. **安装**:下载对应操作系统的安装包,如"Tesseract-ocr-w64-setup-v4.0.0.exe",按照提示进行安装。 2. **命令行使用**:通过命令行输入`tesseract image.jpg output.txt`,将...

    tesseract-ocr-setup-3.01-1图像识别工具

    使用Tesseract OCR时,用户需要通过命令行界面输入相应的指令,如`tesseract image.png output.txt`,其中`image.png`是待识别的图像文件,`output.txt`则是识别结果将保存的文本文件。Tesseract会尝试分析图像中的...

    tesseract-ocr 和 jTessBoxEditor 软件

    描述中提到,经过训练后,tesseract-ocr对数字验证码的识别率可达100%。这得益于其强大的机器学习算法,可以通过训练模型来提高对特定类型文本的识别准确性。 3. **训练数据** `numzs.traineddata` 文件是训练...

    Python图像识别Tesseract-OCR.zip

    在爬虫应用中,Tesseract-OCR常用于识别网站上的验证码,从而突破登录限制。但是,要注意的是,频繁的验证码识别可能会被网站视为恶意行为,因此在实际使用时要遵循网站的使用协议,尊重网站的规则。 总结一下,...

    tesseract-ocr-setup-3.01 验证码识别

    在本场景中,我们讨论的是"tesseract-ocr-setup-3.01"版本,这是一个用于验证码识别的工具。** 验证码(CAPTCHA)是一种防止机器自动操作的安全机制,通常用于网站登录和其他在线服务中。传统的验证码是人类容易...

    【图片验证码提取工具】tesseract-ocr下载

    **Tesseract OCR:一款强大的图片验证码提取工具** Tesseract OCR(Optical Character Recognition,光学字符识别)是由Google维护的一款开源OCR引擎,最初由HP公司于1985年开发。这款工具专门用于识别图像中的文本...

    图片文字OCR识别-tesseract-ocr压缩包

    在爬虫技术中,Tesseract OCR也常被用作处理无法通过常规方式解析的文本信息,例如网页上的图片验证码。 **OCR技术基础** OCR(Optical Character Recognition)是一种计算机技术,它能识别图像中的字符并将其转换...

    Tesseract-OCR.zip

    在使用Tesseract OCR之前,首先需要下载并安装Tesseract OCR的执行文件(tesseract.exe),通常是一个可执行的二进制文件。你可以从官方网站或者通过包管理器(如Homebrew或Scoop)获取对应操作系统的版本。在...

Global site tag (gtag.js) - Google Analytics