- 浏览: 51009 次
- 性别:
- 来自: 福建
最新评论
-
joyhen:
感谢,要学的东西好多啊
Apache Hadoop生态系统 -
java大风车:
fffffffffffffffffffffffffffff
Apache Hadoop生态系统
文章列表
有次帮某人发spam,找人来填调查。写了个自动评论的脚本,但是发出一定数量的评论之后就会遭遇验证码,于是决定破解之。
思路也是一般的转化切割比对,成功率不是很高,不过重试几次也是可以用的。
虽然已经控制好了频率,不过最后还是被管理员发现了,直接封了帐号(好在是临时注册的),再注册再封,后来干脆封IP,
于是不得不给我的vps换了个ip(也好在是免费的),杯具。
闲话休说,言归正题。
首先是需要取得验证码的样本,以作训练特征之用。而要取得验证码,首先要模拟登录的请求:
usr = 'xx' psw = 'oo'
resp = urllib2.urlopen('https:// ...
- 2014-01-15 09:31
- 浏览 977
- 评论(0)
一、验证码的基本知识
1. 验证码的主要目的是强制人机交互来抵御机器自动化攻击的。
2. 大部分的验证码设计者并不得要领,不了解图像处理,机器视觉,模式识别,人工智能的基本概念。
3. 利用验证码,可以发财,当然要犯罪:比如招商银行密码只有6位,验证码形同虚设,计算机很快就能破解一个有钱的账户,很多帐户是可以网上交易的。
4. 也有设计的比较好的,比如Yahoo,Google,Microsoft等。而国内Tencent的中文验证码虽然难,但算不上好。
- 2014-01-15 09:24
- 浏览 538
- 评论(0)
Hadoop从诞生至今已经发展成为一个大数据相关的庞大的软件生态系统。这里收集整理了跟Hadoop相关的Apache下的开源项目,以供后续分析研究。
Apache Hadoop
Hadoop是一个大数据处理框架,它可用于从单台到数以千计的服务器集群的存储和计算服务。HadoopDistributed File System (HDFS) 提供了能够跨越多台计算机的大数据存储服务,而MapReduce则提供了一个并行处理的框架。它们的思想源自Google的MapReduce和Google File System(GFS)论文。详细参见:http://hadoop.apache.or ...
- 2014-01-13 16:43
- 浏览 4619
- 评论(2)
介绍
Apache Nutch是一个用Java编写的开源网络爬虫。通过它,我们就能够自动地找到网页中的超链接,从而极大地减轻了维护工作的负担,例如检查那些已经断开了的链接,或是对所有已经访问过的网页创建一个副本以便用于搜索。接下来就是Apache Solr所要做的。Solr是一个开源的全文搜索框架,通过Solr我们能够搜索Nutch已经访问过的网页。幸运的是,关于Nutch和Solr之间的整合在下方已经解释得相当清楚了。
Apache Nutch对于Solr已经支持得很好,这大大简化了Nutch与Solr的整合。这也消除了过去依赖于Apache Tomcat来运行老的Nutch网 ...
- 2014-01-12 14:31
- 浏览 297
- 评论(0)
第一个为利用linux下的工具来获取网页源码,我用的是Wget,也可以使用Curl,curl的话更加的灵活,可以设置很多参数;
//通过Wget来获取网页
string GetHtmlByWget(string url)
{
//获取待下载网页文件名
string fileName = url.substr((int)url.find_last_of("/") + 1);
if(fileName != "")
{
string strCom = "wget -q "; //wget命令 ...
- 2013-12-21 16:06
- 浏览 519
- 评论(0)
1、记得在加入url的时候要在url后面加/,不然就采不到下一层的网页了。
2、记得run nutch in eclipese 的时候,要把.job加到build path和三个site添加到conf下。
- 2013-12-17 09:57
- 浏览 182
- 评论(0)
1、记得在加入url的时候要在url后面加/,不然就采不到下一层的网页了。
2、记得run nutch in eclipese 的时候,要把.job加到build path和三个site添加到conf下。
- 2013-12-17 09:57
- 浏览 121
- 评论(0)
在eclipse上执行Nutch报错:
Error: java.lang.ClassNotFoundException: com.google.common.util.concurrent.ThreadFactoryBuilder
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
...
- 2013-12-16 11:18
- 浏览 355
- 评论(0)
在eclipse上执行Nutch报错:
Error: java.lang.ClassNotFoundException: com.google.common.util.concurrent.ThreadFactoryBuilder
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
...
- 2013-12-16 11:18
- 浏览 448
- 评论(0)
一、Nutch的一些读取命令
<wbr><wbr><wbr><wbr><wbr></wbr></wbr></wbr></wbr></wbr>
1.查看crawldb数据库
<wbr>查看url地址总数和它的状态及评分:bin/nutch readdb url/crawldb/ -stats<wbr></wbr></wbr>
<wbr>查看每个url地址的详细内容,导出数据:bi ...
- 2013-12-14 14:10
- 浏览 304
- 评论(0)
为了研究怎么解决recrawl的问题,今天仔细观察了一下nutch crawl的每一步具体发生了什么。
==============准备工作======================
(Windows下需要cygwin)
从SVN check out代码;
cd到crawler目录;
==============inject==========================
$ bin/nutch inject crawl/crawldb urls
Injector: starting
Injector: crawlDb: crawl/crawldb
I ...
- 2013-12-11 18:47
- 浏览 389
- 评论(0)
现在碰到的棘手问题是,要对Nutch的fetch结果content进行媒介(天涯,网易等等)分类,比如:data/segements/content/part-00000/天涯data/segements/content/part-00000/网易 。。。我的想法是在fetch的outpath进行构造,但貌似行不通。。。
还有另一种方案,就是按Nutch的原格式,把数据都存储在同一个part-00000中,然后对采集回来的网页内容进行加标签标识,如:<tianya>...(网页源码)...</tianya>。。。感觉这种方案比较好。
还有一个问题是,nutch的输出文 ...
- 2013-12-11 16:09
- 浏览 323
- 评论(0)
最近用一个实际的web项目在学习Webdriver,关于新建一个备份任务的过程,先是有一个父页上button弹开一个子页,总共有4个子页,必须前一个页上的必填信息录完,才能在这个页面触发下一个子页。
如果在baseUrl1第一个子页录完信息,第一个子页有重命名校验和必填项校验。
进入baseUrl2第2个子页,用driver.navigate().to(baseUrl2),直接跳转到第2个页,不受第一个子页的约束,直接导航到第2个页面的输入。
这样会导致什么问题,第一个子页的信息是没有经过校验就进入下一个子页。这样,除了上面的重命名没有校验外,另外信息是否已经进入后台保存也是没 ...
- 2013-12-06 16:54
- 浏览 335
- 评论(0)
/*根据指定的格式获取当前系统时间*/
SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
long start = System.currentTimeMillis();
System.out.println(sdf.format(start));
- 2013-12-06 09:27
- 浏览 173
- 评论(0)
org.apache.nutch.crawl.Crawl类的主函数如下所示:
// 应该知道,Nutch查找文件系统是基于Linux系统的机制的,所以提供启动的命令与Linux的Shell命令很相似。
public static void main(String args[]) throws Exception {
if (args.length < 1) { // 检查 ...
- 2013-12-03 17:50
- 浏览 471
- 评论(0)