新浪微博验证码的破解方法【代码】

有次帮某人发spam，找人来填调查。写了个自动评论的脚本，但是发出一定数量的评论之后就会遭遇验证码，于是决定破解之。思路也是一般的转化切割比对，成功率不是很高，不过重试几次也是可以用的。虽然已经控制好了频率，不过最后还是被管理员发现了，直接封了帐号（好在是临时注册的），再注册再封，后来干脆封IP，于是不得不给我的vps换了个ip（也好在是免费的），杯具。闲话休说，言归正题。首先是需要取得验证码的样本，以作训练特征之用。而要取得验证码，首先要模拟登录的请求： usr = 'xx' psw = 'oo' resp = urllib2.urlopen('https:// ...

2014-01-15 09:31
浏览 977
评论(0)

如何识别高级的验证码

一、验证码的基本知识　　1. 验证码的主要目的是强制人机交互来抵御机器自动化攻击的。　　2. 大部分的验证码设计者并不得要领，不了解图像处理，机器视觉，模式识别，人工智能的基本概念。　　3. 利用验证码，可以发财，当然要犯罪：比如招商银行密码只有6位，验证码形同虚设，计算机很快就能破解一个有钱的账户，很多帐户是可以网上交易的。　　4. 也有设计的比较好的，比如Yahoo,Google,Microsoft等。而国内Tencent的中文验证码虽然难，但算不上好。

2014-01-15 09:24
浏览 538
评论(0)

Apache Hadoop生态系统

Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的Apache下的开源项目，以供后续分析研究。 Apache Hadoop Hadoop是一个大数据处理框架，它可用于从单台到数以千计的服务器集群的存储和计算服务。HadoopDistributed File System (HDFS) 提供了能够跨越多台计算机的大数据存储服务，而MapReduce则提供了一个并行处理的框架。它们的思想源自Google的MapReduce和Google File System(GFS)论文。详细参见：http://hadoop.apache.or ...

2014-01-13 16:43
浏览 4619
评论(2)

Nutch 教程

介绍 Apache Nutch是一个用Java编写的开源网络爬虫。通过它，我们就能够自动地找到网页中的超链接，从而极大地减轻了维护工作的负担，例如检查那些已经断开了的链接，或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架，通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是，关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。 Apache Nutch对于Solr已经支持得很好，这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网 ...

2014-01-12 14:31
浏览 297
评论(0)

Linux获取网页源码的几种方法

第一个为利用linux下的工具来获取网页源码，我用的是Wget，也可以使用Curl，curl的话更加的灵活，可以设置很多参数; //通过Wget来获取网页 string GetHtmlByWget(string url) { //获取待下载网页文件名 string fileName = url.substr((int)url.find_last_of("/") + 1); if(fileName != "") { string strCom = "wget -q "; //wget命令 ...

2013-12-21 16:06
浏览 519
评论(0)

Nutch笔记

1、记得在加入url的时候要在url后面加/，不然就采不到下一层的网页了。 2、记得run nutch in eclipese 的时候，要把.job加到build path和三个site添加到conf下。

2013-12-17 09:57
浏览 182
评论(0)

Nutch笔记

1、记得在加入url的时候要在url后面加/，不然就采不到下一层的网页了。 2、记得run nutch in eclipese 的时候，要把.job加到build path和三个site添加到conf下。

2013-12-17 09:57
浏览 121
评论(0)

在eclipse上执行Nutch报错com.google.common.util.concurrent.ThreadFactoryBuilder

在eclipse上执行Nutch报错： Error: java.lang.ClassNotFoundException: com.google.common.util.concurrent.ThreadFactoryBuilder at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355) at java.security.AccessController.doPrivileged(Native Method) ...

2013-12-16 11:18
浏览 355
评论(0)

在eclipse上执行Nutch报错com.google.common.util.concurrent.ThreadFactoryBuilder

在eclipse上执行Nutch报错： Error: java.lang.ClassNotFoundException: com.google.common.util.concurrent.ThreadFactoryBuilder at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355) at java.security.AccessController.doPrivileged(Native Method) ...

2013-12-16 11:18
浏览 448
评论(0)

Nutch读取网页字段

一、Nutch的一些读取命令 1.查看crawldb数据库 查看url地址总数和它的状态及评分：bin/nutch readdb url/crawldb/ -stats 查看每个url地址的详细内容，导出数据：bi ...

2013-12-14 14:10
浏览 304
评论(0)

Nutch Crawl执行过程解析

为了研究怎么解决recrawl的问题,今天仔细观察了一下nutch crawl的每一步具体发生了什么。 ==============准备工作====================== (Windows下需要cygwin) 从SVN check out代码； cd到crawler目录； ==============inject========================== $ bin/nutch inject crawl/crawldb urls Injector: starting Injector: crawlDb: crawl/crawldb I ...

2013-12-11 18:47
浏览 389
评论(0)

Nutch的抓取工作问题

现在碰到的棘手问题是，要对Nutch的fetch结果content进行媒介（天涯,网易等等）分类，比如：data/segements/content/part-00000/天涯data/segements/content/part-00000/网易。。。我的想法是在fetch的outpath进行构造，但貌似行不通。。。还有另一种方案，就是按Nutch的原格式，把数据都存储在同一个part-00000中，然后对采集回来的网页内容进行加标签标识，如：<tianya>...(网页源码)...</tianya>。。。感觉这种方案比较好。还有一个问题是，nutch的输出文 ...

2013-12-11 16:09
浏览 323
评论(0)

Webdriver中关于driver.navigate().to()和driver.get()使用的区别

最近用一个实际的web项目在学习Webdriver，关于新建一个备份任务的过程，先是有一个父页上button弹开一个子页，总共有4个子页，必须前一个页上的必填信息录完，才能在这个页面触发下一个子页。如果在baseUrl1第一个子页录完信息，第一个子页有重命名校验和必填项校验。进入baseUrl2第2个子页，用driver.navigate().to(baseUrl2)，直接跳转到第2个页，不受第一个子页的约束，直接导航到第2个页面的输入。这样会导致什么问题，第一个子页的信息是没有经过校验就进入下一个子页。这样，除了上面的重命名没有校验外，另外信息是否已经进入后台保存也是没 ...

2013-12-06 16:54
浏览 335
评论(0)

java工具代码

/*根据指定的格式获取当前系统时间*/ SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); long start = System.currentTimeMillis(); System.out.println(sdf.format(start));

2013-12-06 09:27
浏览 173
评论(0)

Nutch 源码分析 (1)

org.apache.nutch.crawl.Crawl类的主函数如下所示： // 应该知道，Nutch查找文件系统是基于Linux系统的机制的，所以提供启动的命令与Linux的Shell命令很相似。 public static void main(String args[]) throws Exception { if (args.length < 1) { // 检查� ...

2013-12-03 17:50
浏览 471
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

新浪微博验证码的破解方法【代码】

如何识别高级的验证码

Apache Hadoop生态系统

Nutch 教程

Linux获取网页源码的几种方法

Nutch笔记

Nutch笔记

在eclipse上执行Nutch报错com.google.common.util.concurrent.ThreadFactoryBuilder

在eclipse上执行Nutch报错com.google.common.util.concurrent.ThreadFactoryBuilder

Nutch读取网页字段

Nutch Crawl执行过程解析

Nutch的抓取工作问题

Webdriver中关于driver.navigate().to()和driver.get()使用的区别

java工具代码

Nutch 源码分析 (1)

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>