识别验证码，你有几分成功率？

aoingl

浏览: 87035 次
性别:
来自: 北京

最近访客更多访客>>

crane.ding

stephenworld

liuzhiwei666

dengnanyi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

OCR 验证码黑客

现在验证码几乎在任何一个网站的交互界面中都存在，目的当然是为了防止恶意程序的攻击。如果我们想获取到验证码，就需要从这个验证码的图片中分析出来到底是什么字符。这就需要 OCR 技术。

Optical character recognition(OCR) 是指从扫描的图片或者手写的输入转换成相应的字符的技术。大家用到最多的是手机上的手写功能，或者手写板。有 2 个 OCR 项目大家用的比较多： 1. Tesseract OCR 2. Asprise OCR ，其中 Tesseract OCR 是开源的， Asprise 是商业的。另外，我还发现了一个基于纯 java 实现的 OCR 项目： Java OCR , 目前还只是 Alpha 版本。我们来弄几张验证码的图片测试下每个软件的识别率是多少：

						准确率
Tesseract OCR	ZYQQD	SGW	HRK	SGW	WPT	0%
Asprise OCR	-	-	-	-	-	0%
Java OCR	-	-	-	-	-	0%
0.jpg						准确率
Tesseract OCR	3284	0985	7791	1411	8986	100%
Asprise OCR	3284	0985	7791	1411	8986	100%
Java OCR	3284	0985	7791	1411	8986	100%

从上面的图表我们看出，针对干扰过的验证码，三个软件都没能识别出来，而针对比较简单的规则数字组成的验证码，三个软件的识别率都高达 100%。我们细分析下两组验证码之间的不同：

在第一组验证码中：

每个字符都有倾斜，而且倾斜角度不同

每个字符的大小有稍微的不同

字符中间没有空隙

有另外一道干扰的黑线不规则的穿过其中的几个字符

每个字符的字体稍微不同

在第二组验证码中：

字符间有很大的空隙

字符都加粗

字体大小统一

字体一样

从实验结果上看，如果想提高识别率的话，图片应尽量向第二组的图片靠拢。那为什么第二组的图片识别率高呢？我们看下 OCR 的原理。

OCR 原理

OCR 在扫描目标图片的时候，需要加载 Trained Image，分割目标图片中的文字到单个字符[1]，然后遍历每个 Trained Image 里的字符图片，从而推测出图片里字符是什么。

加载 Trained Image

OCR 程序之所以能够识别出图片中的字符，是要有个图片库进行比对的，这个图片库一般被称为 Trained Image, 一般都允许用户自己定义新的 Trained Image。每个 Trained Image 里都有很多字符，基本都是按照行列分布，格式一般为 PCX 格式。每个 Trained Imge 都有自己的元数据，说明哪个区间里的图片对应哪个字符。程序加载 Trained Image 的时候，会先分析有多少行，然后逐行扫描，再分析有多少列，然后精确到一个区间坐标： [(x1, y1), (x,y2)]，其中 x 为行， y 为列。然后根据元数据把该区间对应的字符和区间里的图片对应起来。研究了下 Java OCR 加载 Trained Image 的时候，是通过分析一行里所有的像素点的值是否有都大于一个浅色值 128 来判定当前行是行间隙还是行中间，同理适用于列扫描。下面这张图片是个典型的 Trained Image：

扫描目标图片

加载 Trained Image 后， OCR 程序会根据同样的原理分割目标图片中的文字到单个字符[2]，然后逐个比对 Trained Image 里的字符图片，找到最匹配的字符。一般匹配的时候，会比较图片的长宽比率差是否在容忍范围内；上下左右四个方向的空白区域宽度差是否在容忍范围内；目标图片的大小是否和 Trained Image 相差太大等等。

从原理上看，识别的准确度在于三点：