`
cocoIT
  • 浏览: 51009 次
  • 性别: Icon_minigender_1
  • 来自: 福建
文章分类
社区版块
存档分类
最新评论
文章列表
有次帮某人发spam,找人来填调查。写了个自动评论的脚本,但是发出一定数量的评论之后就会遭遇验证码,于是决定破解之。 思路也是一般的转化切割比对,成功率不是很高,不过重试几次也是可以用的。 虽然已经控制好了频率,不过最后还是被管理员发现了,直接封了帐号(好在是临时注册的),再注册再封,后来干脆封IP, 于是不得不给我的vps换了个ip(也好在是免费的),杯具。 闲话休说,言归正题。 首先是需要取得验证码的样本,以作训练特征之用。而要取得验证码,首先要模拟登录的请求: usr = 'xx' psw = 'oo' resp = urllib2.urlopen('https:// ...
一、验证码的基本知识   1. 验证码的主要目的是强制人机交互来抵御机器自动化攻击的。   2. 大部分的验证码设计者并不得要领,不了解图像处理,机器视觉,模式识别,人工智能的基本概念。   3. 利用验证码,可以发财,当然要犯罪:比如招商银行密码只有6位,验证码形同虚设,计算机很快就能破解一个有钱的账户,很多帐户是可以网上交易的。   4. 也有设计的比较好的,比如Yahoo,Google,Microsoft等。而国内Tencent的中文验证码虽然难,但算不上好。
Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的Apache下的开源项目,以供后续分析研究。 Apache Hadoop Hadoop是一个大数据处理框架,它可用于从单台到数以千计的服务器集群的存储和计算服务。HadoopDistributed File System (HDFS) 提供了能够跨越多台计算机的大数据存储服务,而MapReduce则提供了一个并行处理的框架。它们的思想源自Google的MapReduce和Google File System(GFS)论文。详细参见:http://hadoop.apache.or ...
介绍 Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是,关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。 Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网 ...
第一个为利用linux下的工具来获取网页源码,我用的是Wget,也可以使用Curl,curl的话更加的灵活,可以设置很多参数; //通过Wget来获取网页 string GetHtmlByWget(string url) { //获取待下载网页文件名 string fileName = url.substr((int)url.find_last_of("/") + 1); if(fileName != "") { string strCom = "wget -q "; //wget命令 ...
1、记得在加入url的时候要在url后面加/,不然就采不到下一层的网页了。 2、记得run nutch in eclipese 的时候,要把.job加到build path和三个site添加到conf下。
1、记得在加入url的时候要在url后面加/,不然就采不到下一层的网页了。 2、记得run nutch in eclipese 的时候,要把.job加到build path和三个site添加到conf下。
在eclipse上执行Nutch报错: Error: java.lang.ClassNotFoundException: com.google.common.util.concurrent.ThreadFactoryBuilder at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355) at java.security.AccessController.doPrivileged(Native Method) ...
在eclipse上执行Nutch报错: Error: java.lang.ClassNotFoundException: com.google.common.util.concurrent.ThreadFactoryBuilder at java.net.URLClassLoader$1.run(URLClassLoader.java:366) at java.net.URLClassLoader$1.run(URLClassLoader.java:355) at java.security.AccessController.doPrivileged(Native Method) ...
一、Nutch的一些读取命令 <wbr><wbr><wbr><wbr><wbr></wbr></wbr></wbr></wbr></wbr> 1.查看crawldb数据库 <wbr>查看url地址总数和它的状态及评分:bin/nutch readdb url/crawldb/ -stats<wbr></wbr></wbr> <wbr>查看每个url地址的详细内容,导出数据:bi ...
为了研究怎么解决recrawl的问题,今天仔细观察了一下nutch crawl的每一步具体发生了什么。 ==============准备工作====================== (Windows下需要cygwin) 从SVN check out代码; cd到crawler目录; ==============inject========================== $ bin/nutch inject crawl/crawldb urls Injector: starting Injector: crawlDb: crawl/crawldb I ...
现在碰到的棘手问题是,要对Nutch的fetch结果content进行媒介(天涯,网易等等)分类,比如:data/segements/content/part-00000/天涯data/segements/content/part-00000/网易 。。。我的想法是在fetch的outpath进行构造,但貌似行不通。。。 还有另一种方案,就是按Nutch的原格式,把数据都存储在同一个part-00000中,然后对采集回来的网页内容进行加标签标识,如:<tianya>...(网页源码)...</tianya>。。。感觉这种方案比较好。 还有一个问题是,nutch的输出文 ...
最近用一个实际的web项目在学习Webdriver,关于新建一个备份任务的过程,先是有一个父页上button弹开一个子页,总共有4个子页,必须前一个页上的必填信息录完,才能在这个页面触发下一个子页。 如果在baseUrl1第一个子页录完信息,第一个子页有重命名校验和必填项校验。 进入baseUrl2第2个子页,用driver.navigate().to(baseUrl2),直接跳转到第2个页,不受第一个子页的约束,直接导航到第2个页面的输入。 这样会导致什么问题,第一个子页的信息是没有经过校验就进入下一个子页。这样,除了上面的重命名没有校验外,另外信息是否已经进入后台保存也是没 ...
/*根据指定的格式获取当前系统时间*/ SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); long start = System.currentTimeMillis(); System.out.println(sdf.format(start));
org.apache.nutch.crawl.Crawl类的主函数如下所示: // 应该知道,Nutch查找文件系统是基于Linux系统的机制的,所以提供启动的命令与Linux的Shell命令很相似。 public static void main(String args[]) throws Exception { if (args.length < 1) { // 检查 ...
Global site tag (gtag.js) - Google Analytics