最新文章列表

Heritrix配置及扩展

二、Heritrix功能概要 Heritrix做为一个爬虫框架,它抽像并实现了一组爬虫的基础组件,不同类型的使用者可以替换不同的组件来实现期望的功能,如最大利用带去镜像站点、集中搜索特定主题、对已爬过的网页持续更新等,甚至可以加入不同的协议。 1.Heritrix的主要组件 概括的说,herittrix有三大组件: 范围组件(Scope):范围组件是一组DecideRule对象按指定先后顺序组装 ...
lsh2366254 评论(0) 有1045人浏览 2014-07-18 10:57

org.archive.crawler.restlet.JobResource

1、build :validateConfiguration() 2、launch:launch()    new Thread start ,CrawlController.requestCrawlStart()    getFrontier().run(); 3、pause:getCrawlController().requestCrawlPause() 4、unpause:getCrawlCo ...
shareHua 评论(0) 有775人浏览 2012-12-09 23:30

How to install heritrix3

Use svn, checkout the project from the sourceforget.net on https: / / archive-crawler.svn.sourceforge.net/svnroot/archive-crawler/trunk/heritrix3 Especially if you're customizing Heritrix (as seems t ...
shareHua 评论(0) 有910人浏览 2012-12-09 12:11

Heritrix3.1.0RC1使用Cookie不能自动登录问题的一个解决办法

改FetchHTTP类,   1、在innerProcess方法中的代码 this.http.executeMethod(customConfigOrNull, method); 之前增加: populateCookies(method);   2、增加私有方法如下: private void populateCookies(HttpMethodBase method) { ...
wiflish 评论(2) 有2443人浏览 2011-10-18 10:19

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics