Heritrix源码分析
收藏

之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打造成自己想要的爬虫。

分享到: Sina Tec

最近更新文章

Heritrix3.1.1 新特性,新功能

        本博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744866        本人新浪微博:http://weibo.com/guoyunwb         趁周末看了下Heritrix,这里发现改动还是很大.虽然自己已经不怎么写爬虫,但长期关注一样一直在发展的东西,的确是一件很幸福的事情,让自己可以获益不少.这里整理下, ...
 
guoyunsky 评论(1) 有8098人浏览 2012-12-10 11:47

Heritrix3.0教程(六) 载入种子的四种方式

     本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744456        本人新浪微博:http://weibo.com/guoyunwb          Heritrix3.0新特性一大亮点就是,相比以前版本载入种子更灵活(甚至你可以动态载入种子),同时可以载入N个种子.以前版本载入种子是全部加载到内存,而一旦种子过多,那 ...
 
guoyunsky 评论(2) 有6148人浏览 2012-12-10 09:48

Heritrix3.0教程(五) 配置文件crawler-beans.cxml介绍

          本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744461         本人新浪微博:http://weibo.com/guoyunwb          可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml 是,crawler-bea ...
 
guoyunsky 评论(0) 有7791人浏览 2012-12-09 14:17

Heritrix3.0教程(四) CrawlJob控制台界面(一) 大概介绍

        本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1744459        本人新浪微博:http://weibo.com/guoyunwb       我觉得Heritrix很直观的 ...
 
guoyunsky 评论(1) 有7838人浏览 2012-12-09 14:11

Heritrix3.0教程(三) 开始抓取

      本人新浪微博:http://weibo.com/guoyunwb       本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744456        上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行 ...
 
guoyunsky 评论(4) 有26166人浏览 2012-12-09 14:02

Heritrix3.0教程(二) 下载安装与运行

          本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1744454         本人新浪微博:http://weibo.com/guoyunwb        Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Her ...
 
guoyunsky 评论(0) 有22034人浏览 2012-12-09 13:56

Heritrix3.0教程(一) Heritrix 3.0新特性新功能介绍

    本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744452      本人新浪微博:http://weibo.com/guoyunwb       Heritrix3.0新特性很给力.从性能,功能,灵活配置和灵活控制上都改进很大,可以说更适合垂直抓取了      一.英文原文,点击查看           1. Ability ...
 
guoyunsky 评论(0) 有9159人浏览 2012-12-09 13:53

Heritrix源码分析(十五) 各种问题总结

本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/802721      欢迎加入Heritrix群(QQ): 109148319 , 10447185           开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heri ...
guoyunsky 评论(10) 有6930人浏览 2010-11-04 13:55

Heritrix源码分析(十四) 如何让Heritrix不间断的抓取

     欢迎加入Heritrix群(QQ):109148319        近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落。今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取,目前他是写个定时器,定时检查Heritrix是否停止,如果停止了则重新初始化Heritrix,让Heritrix ...
guoyunsky 评论(4) 有6139人浏览 2010-05-10 21:20

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

      本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650744       欢迎加入Heritrix群(QQ):109148319         上一篇博客主要介绍了CrawlController的各个属性,博客地址:http://guoyunsky.iteye.com/blog/650744 ,以及三个特殊的属性 ...
guoyunsky 评论(4) 有5523人浏览 2010-04-22 17:58

Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)

      本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/650694              欢迎加入Heritrix群(QQ):109148319       CrawlController的确是Heritrix的大脑,在Heritrix中拥有无上的权利!可以控制Heritrix的启动、暂停、停止,也定时进行数据统计 ...
guoyunsky 评论(0) 有5085人浏览 2010-04-22 17:29

Heritrix源码分析(十一) Heritrix中的URL--CandidateURI和CrawlURI以及如何增加自己的属性

                  本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649889          欢迎加入Heritrix群(QQ):1091483 ...
guoyunsky 评论(0) 有6447人浏览 2010-04-21 22:20

Heritrix源码分析(十) Heritrix中的Http Status Code(Http状态码)

                   本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/649737        欢迎加入Heritrix群(QQ):109148319         以前在做Web开发的时候就接触过一些HttpStatus Code,比如404,500.后来接触Heritrix之后才知道HttpStatus ...
guoyunsky 评论(0) 有6692人浏览 2010-04-21 18:29

Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL

             本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396        欢迎加入Heritrix群(QQ):109148319       ...
guoyunsky 评论(1) 有7963人浏览 2010-04-15 11:09

Heritrix源码分析(八) Heritrix8个处理器(Processor)介绍

             本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/643367       欢迎加入Heritrix群(QQ):109148319         Heritrix采用多线程去抓取数据,每次运行基本都要经过以下8个处理器处理(种子URL、先决条件URL除外),如此形成一整个流程。下面就大概介绍下每个处理 ...
guoyunsky 评论(2) 有7220人浏览 2010-04-14 09:13

Heritrix源码分析(七) Heritrix总体介绍

             本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642794          欢迎加入Heritrix群(QQ):109148319     ...
guoyunsky 评论(1) 有6282人浏览 2010-04-13 14:32

Heritrix源码分析(六) Heritrix的文件结构分析

       本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642618        欢迎加入Heritrix群(QQ):109148319          每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heri ...
guoyunsky 评论(1) 有6449人浏览 2010-04-13 11:41

Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动

     本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/642550        欢迎加入Heritrix群(QQ):109148319         在Heritrix注释里说Heritrix有三种启动方式,但我感觉只有两种:一种是通过tomcat或者JBOSS或者Jetty等Web容器,还有一种自然就是不通过Web直 ...
guoyunsky 评论(7) 有7349人浏览 2010-04-13 11:01

Heritrix源码分析(四) 各个类说明(二)

     本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/632191        欢迎加入Heritrix群(QQ):109148319    9.org.archive.crawler.fetcher 序号 类 说明 1 FetchDNS 获取DNS数据,如IP 2 FetchFTP 获取F ...
guoyunsky 评论(0) 有7670人浏览 2010-04-04 11:34

Heritrix源码分析(四) 各个类说明(一)

           本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/630347     欢迎加入Heritrix群(QQ):109148319           Heritrix的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用,由于里面Heritrix组件分明,很多组件没 ...
guoyunsky 评论(2) 有7876人浏览 2010-04-01 20:42
  • 专栏创建者:guoyunsky
  • 创建时间:2011-11-29 13:53:32
  • 专栏文章数:23篇
  • 专栏被浏览:206273 次

本专栏热门文章

最新评论

大神,请教一个问题,Hertrix 和 Nutch 有没有提供对于 需要登录的网站的网页抓取的支持,比 ...
louningfeng 评论了 Heritrix3.1.1 新特性,新功能
期待后续佳作。。。
不要叫我杨过 评论了 Heritrix3.0教程(六) 载入种子的四种方式
MyHeritrixController这个类怎么写?
liudb2011 评论了 Heritrix3.0教程(六) 载入种子的四种方式
...
markos_xju 评论了 Heritrix源码分析(五) 如何让Heritrix ...
你好。请问一下。我这里,点击完“build”后,再点击“launch”就出现异常了。Exception ...
koubi1986 评论了 Heritrix3.0教程(三) 开始抓取
你好,我按照上面的代码进行修改后,出现了错误2014-03-03 10:02:26.227 严重 th ...
lyj57 评论了 Heritrix源码分析(十四) 如何让Heritrix ...
zhrb 写道抓取到这个warc文件有什么用呢?以前的heritrix可以按照目录的形式来存放所有文件 ...
古叶斋 评论了 Heritrix3.0教程(三) 开始抓取
你好!有没有类似的用java代码控制爬取工作暂停或继续的代码啊?
lyj57 评论了 Heritrix源码分析(五) 如何让Heritrix ...
launch的时候包异常 求大神解答An error occuredCause: java.lang. ...
zqcj6291151 评论了 Heritrix3.0教程(三) 开始抓取
你好!请问如何更改heritrix的界面啊?
lyj57 评论了 Heritrix源码分析(十四) 如何让Heritrix ...
Global site tag (gtag.js) - Google Analytics