`
wwkevin811
  • 浏览: 6576 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论
文章列表
主要分析利用HTTP协议爬取爬取网页)    本身是研究搜索引擎地,对开源的NUTCH很感兴趣。但是网上的代码对于NUTCH的分析都十分有限,我希望能尽我的力量把NUTCH里的代码尽我所能分析给大家。 本文主要从一个爬虫系统最底层的爬虫如何爬行一个网页做一个分析。这个是比较底层的,如果之前对NUTCH没有详细使用过或者看过一些代码的。可以先去网上看一些使用NUTCH的流程。再看我这里的分析,可能会更加清楚些。   (PS:Nutch的官方http://lucene.apache.org/nutch/,much more details)   OK:话归正题.nutch里通过fecher这 ...
以上是Hadoop的基本流程,如果需要详细连接可以登入http://hadoop.apache.org阅读更加详细地资料。这里我对其先介绍下简要地。等下结合nutch里如何使用这些实现并行计算地。 Hadoop主要分为2个部分,一个是分布式文件系统,一 ...
Nutch0.9代码详细分析之2 主要分析网页爬取之后的页面处理       前一次主要介绍了Nutch爬取网页的流程,在爬取完网页后返回一个ProtocalOutput对象,对爬行回来的信息进行了封装,包括ProtocalStatus返回的HTTP状态码,Content网页的主体内容等信息信息。在Fetcher中,如果我们继续往下看,会看到nutch根据不同的ProtocalStatus返回的状态码进行相应页面主体内容的分析处理。主要的代码如下,分析见注释 fetcherThread.run()的方法主体框架: try {     boolean redirecting;//一个url的使 ...
Global site tag (gtag.js) - Google Analytics