近来,一个朋友请我帮他在某个网站投票。投票程序设立了验证码,并且限制每个IP每天只能投一票。我是在debian sarge 3.1下面通过ADSL拨号上网的,IP限制可以通过重新拨号轻松搞定。网上有人说使用代理也可以,但是我找了很久,发现网上列出的大部分代理服务器都已 经无法访问。好了,下面的问题主要就是识别验证码和自动投票了。
网上有很多关于验证码识别的方法和思路,不过大部分都是在windows下面运行的。在linux下面有一个很有名的图片处理软件叫imagemagick。这个软件支持非常多的图片格式已经更多的图片处理方法,请看这里的图片效果:
我 的思路是,首先找到含有验证码的图片,把背景、杂色、条纹等干扰因素去掉,并把图片转化为黑白象素,以便于处理。然后分析图片上每个文字的位置,精确的把 整个图片分割成包含每个文字的小图片。我关注的这个投票网站上的验证码是有0到9这十个数字构成了,我就用GIMP——是的,GIMP是linux下面不 可多得的图像处理软件——打开验证码图片,把十个数字一一截取下来,并且分别命名为0.jpg到9.jpg。截取的时候一定要注意,每个文字最好留一点边 框,并且在截取后的小图片上要居中,这样更利于排除干扰,提高识别率。为了提高准确率,我把用GIMP把验证码放大到1600倍以后对每个象素进行处理。 等要识别图片上验证码的时候,使用相同的位置截取图片上的文字,然后和刚才保存的十个小图片一一对比,与之差异最小的那个图片的序号就是该位置上的文字 了。ImageMagick在命令行下面运行,支持MAE,MSE,PSE,PSNR,RMSE等多种比较方式。根据图片中干扰的情况,选择一种最合适的 方式,或者用多种方式逐步处理以后进行比较,验证码就可以轻松识别了。
至于识别验证码后进行自动灌水就很简单了。linux下面有一个更强大的工具curl,它可以通过HTTP,FTP,HTTPS等多种方式访问远程服务器,自动上传或下载数据。首先用curl查看其HTTP头信息
1 * About to connect() to xxxx.com port 80
2 * Trying xxx.xxx.xxx.xxx... * connected
3 * Connected to xxxx.com (xxx.xxx.xxx.xxx) port 80
4 > GET / HTTP/1.1
5 User-Agent: curl/7.13.1 (debian-linux-gnu) libcurl/7.13.1 OpenSSL/0.9.7e zlib/1.2.2.2 libidn/0.5.13
6 Host: xxxx.com
7 Pragma: no-cache
8 Accept: */*
9
10 < HTTP/1.1 302 Moved Temporarily
11 < Via: 1.1 PROXY
12 < Connection: Keep-Alive
13 < Proxy-Connection: Keep-Alive
14 < Transfer-Encoding: chunked
15 < Date: Tue, 04 Jul 2006 05:55:16 GMT
16 < Location: http://xxxx.com/queryVote.do?type=netvotes&Group=1
17 < Content-Type: text/html;charset=gb2312
18 < Server: WebLogic Server 8.1 SP2 Fri Dec 5 15:01:51 PST 2003 316284
19 < Set-Cookie: JSESSIONID=EqCEDyCC2JGex2sLoT231l6NP38OStZaFf9zLSHUxb2MxrqLBE1i!1559900188; path=/
java 代码
- <html></html>22 <head></head>23 "Content-Type" content="text/html; charset=gb2312">24 25 26 "#FFFFFF">27 ...28 29 3031
32 * Connection #0 to host xxxx.com left intact
33 * Closing connection #0
34
从第19行中可以看出,改站点使用了JSESSION这个cookie。查看投票页面的源代码,我发现投票时使用了POST方法,有五个表单项目需要提交。我把这些都记录下来,构成一个POST字符串就可以了。
上面所说的很罗嗦,还是看我写的代码吧(源网址被改成了xxxx.com)
1 #!/bin/bash
2
3 #exec 1> curl.log
4
5 function parse
6 {
7 ret=
8 file=$1
9 convert $file.jpeg -crop 9x13+1+2 $file-a.jpeg
10 convert $file.jpeg -crop 9x13+10+2 $file-b.jpeg
11 convert $file.jpeg -crop 9x13+19+2 $file-c.jpeg
12 convert $file.jpeg -crop 9x13+28+2 $file-d.jpeg
13 for pic in {a,b,c,d}
14 do
15 dB=1000000000 # a very high value
16 value=10
17 for num in {0,1,2,3,4,5,6,7,8}
18 do
19 curr=`compare -metric PSE $file-$pic.jpeg xj-$num.jpeg null: | awk '{print $1}'`
20 small=`echo "$curr < $dB" | bc`
21 if [ $small -eq 1 ]; then
22 value=$num
23 dB=$curr
24 fi
25 done
26 ret=$ret$value
27 done
28 rm -fr $file-[abcd].jpeg
29 echo $ret
30 }
31
32
33 hit=0
34 for((i=1;i<10000;i++))
35 do
36 pon dsl-provider > /dev/null 2> curl.log
37 sleep 3
38 curl -s \
39 -c cookie \
40 -j \
41 -A "Mozilla/4.0" \
42 http://xxxx.com/MakeEXPWD > code.jpeg
43 code=$(parse code)
44 curl -s \
45 -b cookie \
46 -d "tid=35" \
47 -d "name=jerry$(date +%s)" \
48 -d "certify=310902790504054" \
49 -d "tele=23493451" \
50 -d "authcode=$code" \
51 -d "send=%20" \
52 -e http://xxxx.com/VoteForm.jsp?tID=35 \
53 -A "Mozilla/4.0" \
54 http://xxxx.com/vote.do | grep -q '投票成功'
55 if [ $? -eq 0 ]; then
56 hit=$(($hit + 1))
57 echo -n -e "Total: $i, Hit $hit, Last: $code\r"
58 else true
59 fi
60 rm -fr code.jpeg
61 poff dsl-provider > /dev/null 2> curl.log
62 done
63 exit 0
64
代码中第三行表示把整个程序的输出重定向到文件,可以用于无人值守的批量运行时。如果程序中有很多输入,这样做就可以不必逐一对每个输出的重定向了。
下 面是parse函数,用于对获取到的图片进行识别。分析时,首先截取图片的预定区域,并与准备好的小图片逐一比较,取参数中的最值,其对应的小图片就是该 位置的文字了。比较时使用到了浮点运算,这是bash的弱势所在,所以要用bc进行高精度计算。比较两个图片所用的compare命令支持很复杂的参数和 诸如MAE,MSE,PSE,PSNR,RMSE等多种方式,这里只是用了其中一种。
函数之后就是程序的主循环部分。每次循环时都把adsl断线并重新拨号。从拨号成功到数据能够正常传输之间可能有一段延误时间,所以要sleep一会儿。
下面的第一个curl有两个作用:首先,它从目标网站获取含有验证码的图片;另外,它还取得了当前连接的cookie,并且初始化服务器端的session。其中的-j参数表示每次拨号都抛弃以前的cookie。
第 二个curl使用了刚才取得的cookie,使用post方法向目标站点提交投票数据。其中的name是投票人的姓名,投票程序规定相同的名字只能投一 票,所以我干脆把用时间来表示了。在投票以后的返回页面中检查“投票成功”四个字,如果有则表示本次投票已成功,计数器加一。第55行的$?就表示上一个 命令的返回值:找到关键词时返回0。
每次操作结束以后都要把临时文件删除,同时更新状态行。echo命令加上-n参数表示输出信息后不换行;再加上一个控制字符\r,可以不断更新当前的提示行,而不是一行一行的输出程序运行结果,这样看起来更简洁一些。
分享到:
相关推荐
DCM与PFC融合的CRM混合模式创新实践,DCM CRM混合模式PFC ,DCM; CRM混合模式; PFC,DCM与PFC的混合模式在CRM系统中的应用
基于Dijkstra算法的路径规划Matlab代码:读取黑白色地图并实现图像上的路径规划示例,读取黑白色地图,在图片上进行路径规划matlab代码 路径规划算法基于读图识别的Dijkstra算法 随意设置坐标,规划路径 示例如下 ,读取地图; 路径规划算法; Dijkstra算法; 坐标设置; 规划路径,基于Dijkstra算法的Matlab黑白色地图路径规划代码
matlab实现LSTM时序预测完整程序+数据
968a658a40c897eb4452d8718cf0f8e6.part6
Matlab Simulink下的LLC开关电源仿真技术探究与实践,Matlab Simulink仿真,LLC开关电源仿真 ,核心关键词:Matlab Simulink仿真; LLC开关电源仿真; 电源仿真,Matlab Simulink下的LLC开关电源仿真研究
matlab实现RF时序预测完整程序+数据
FLAC3D水力切顶角度研究:水力压裂代码的实践与参考指南,FLAC3d不同水力切顶角度,水力压裂代码,可以做参考 ,FLAC3d; 水力切顶角度; 水力压裂代码; 参考;,FLAC3d水力压裂角度控制与代码解析
基于分层滤波技术的冲击噪声检测与去除算法.pdf
"COMSOL模拟技术:等离子体与热流耦合的深度探索",comsol等离子体,热流耦合 ,comsol等离子体; 热流耦合; 仿真模拟; 物理建模,"COMSOL等离子体热流耦合模拟"
基于SSA与DBN的多输入单输出预测模型:麻雀优化算法在Matlab环境下的实现与效果评估,麻雀优化算法SSA结合DBN做多输入单输出预测模型,要求数据是excel替数据就可以用。 程序语言是matlab,需求最低版本为2020及以上。 程序可以出真实值和预测值对比图,线性拟合图,可打印多种评价指标。 PS:以下效果图为测试数据的效果图,主要目的是为了显示程序运行可以出的结果图,具体预测效果以个人的具体数据为准。 2.由于每个人的数据都是独一无二的,因此无法做到可以任何人的数据直接替就可以得到自己满意的效果。 3.程序后无原理讲解。 ,核心关键词:麻雀优化算法SSA; DBN多输入单输出预测模型; Matlab; 2020版及以上; 真实值和预测值对比图; 线性拟合图; 评价指标; 数据替换; 独一无二的数据; 无原理讲解。,基于SSA-DBN的Excel数据多输入单输出预测模型(Matlab 2020+版)
LDPC编译码技术:信道编译码实现、规格与算法可定制的探索,LDPC编译码实现 信道编译码 LDPC码编译码极其识别 编码规格DVBS2 IEEE802.11n IEEE802.16e 译码算法 置信传播 和积算法 最小和 可定制 ,LDPC编译码实现; 信道编译码; LDPC码识别; 编码规格(DVBS2; IEEE802.11n; IEEE802.16e); 译码算法(置信传播; 和积算法; 最小和); 可定制。,LDPC编译码技术:实现、规格与算法详解
基于三菱PLC的3×4立体仓库组态监控系统设计与实现,6#基于三菱PLC组态王3×4立体仓库组态监控系统 ,基于三菱PLC; 组态王; 立体仓库; 3×4组态监控系统; 立体仓库组态监控,基于三菱PLC的立体仓库组态监控系统
冻融循环数值仿真:基于Comsol的真水热力三场耦合分析降雨边坡稳定性周期性变化及热膨胀效应的达西定律应用,冻融循 环数值仿真 comsol 真水热力三场耦合 采用达西定律与热膨胀接口,可分析降雨边坡在冻融到解冻过程的稳定性周期性变化 ,冻融循环;数值仿真;Comsol;真水热力三场耦合;达西定律;热膨胀接口;降雨边坡稳定性;周期性变化,"冻融循环仿真研究:真水热力三场耦合与周期性稳定性分析"
声发射定位图:MATLAB制作的长方体三维立体展示技术,2D与3D个性化呈现解析,声发射定位图(长方体),MATLAB制作,2D 3D个性化展示。 ,声发射定位图; 长方体模型; MATLAB制作; 2D 3D展示; 个性化展示,MATLAB制作声发射定位图:2D/3D个性化展示长方体图
高斯光束生成与传输模拟的Matlab计算方法研究,高斯光束生成传输matlab计算 ,高斯光束; 生成; 传输; MATLAB计算;,高斯光束生成与传输的Matlab计算
,500kW储能变流器(PCS) 采用T型三电平模块,结构三维、控制电路、驱动电路,全部的BOM,型式试验报告等全部资料。 没有程序源码,本交付的资料与本描述一致,未提及的可能没有。
基于多范数约束的分布式鲁棒优化模型:Matlab编程实现与优化策略探究,基于综合范数的两阶段分布鲁棒优化模型 采用matlab编程的基于场景概率驱动的两阶段分布鲁棒优化模型采用列和约束生成算法(C&CG)进行求解,采用 1-范数和∞-范数对分布鲁棒优化的模糊集进行构建,采用拉丁超立方抽样+kmeans进行场景生成及削减,程序运行可靠,思路清晰,有详细参考资料,可在此基础上进行拓展优化。 ,关键词:综合范数;两阶段分布鲁棒优化模型;Matlab编程;场景概率驱动;列和约束生成算法(C&CG);1-范数;∞-范数;拉丁超立方抽样;kmeans;程序运行可靠;思路清晰。,综合范数下的两阶段分布鲁棒优化模型与优化求解研究
基于Xilinx XC7A35T开发平台的高精度时间数字转换(TDC)系统:基于Carry4进位链的71.4ps分辨率TOF测距代码实现,xilinx xc7a35t 开发平台,基于Carry4进位链高精度时间数字转(TDC)代码,分辨率71.4ps#tof测距 ,核心关键词:xilinx xc7a35t;开发平台;Carry4进位链;高精度时间数字转换(TDC);分辨率71.4ps;#tof测距。,基于Xilinx XC7A35T平台的TDC高精度测距代码
基于ATP仿真建模的雷击过电压研究:直流500kV至1100kV输电线路的过电压特性分析,直流500kV,660kV,800kV,1100kV输电线路雷击过电压ATP仿真建模。 ,直流500kV; 660kV; 雷击过电压; ATP仿真建模; 输电线路; 800kV; 1100kV。,雷击过电压ATP仿真建模:超高压输电线路研究
今年春节狠狠充了一把,后悔充了这么多,一气之下买了个退款教程吓一吓王者,真退款了又不愿意,现在分享给大家