最新文章列表

Heritrix配置及扩展

二、Heritrix功能概要 Heritrix做为一个爬虫框架,它抽像并实现了一组爬虫的基础组件,不同类型的使用者可以替换不同的组件来实现期望的功能,如最大利用带去镜像站点、集中搜索特定主题、对已爬过的网页持续更新等,甚至可以加入不同的协议。 1.Heritrix的主要组件 概括的说,herittrix有三大组件: 范围组件(Scope):范围组件是一组DecideRule对象按指定先后顺序组装 ...
lsh2366254 评论(0) 有1029人浏览 2014-07-18 10:57

org.archive.crawler.restlet.JobResource

1、build :validateConfiguration() 2、launch:launch()    new Thread start ,CrawlController.requestCrawlStart()    getFrontier().run(); 3、pause:getCrawlController().requestCrawlPause() 4、unpause:getCrawlCo ...
shareHua 评论(0) 有762人浏览 2012-12-09 23:30

How to install heritrix3

Use svn, checkout the project from the sourceforget.net on https: / / archive-crawler.svn.sourceforge.net/svnroot/archive-crawler/trunk/heritrix3 Especially if you're customizing Heritrix (as seems t ...
shareHua 评论(0) 有892人浏览 2012-12-09 12:11

Heritrix3.1.0RC1使用Cookie不能自动登录问题的一个解决办法

改FetchHTTP类,   1、在innerProcess方法中的代码 this.http.executeMethod(customConfigOrNull, method); 之前增加: populateCookies(method);   2、增加私有方法如下: private void populateCookies(HttpMethodBase method) { ...
wiflish 评论(2) 有2421人浏览 2011-10-18 10:19

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics