最新文章列表

heritrix3.1 TLD list unavailable

今天按照上面转载的文档搭建了一下heritirx3.1的环境,基本上还是成功的,可以成功的运行,但是在运行的时候报了一个错误,错误如下:   严重: TLD list unavailable java.lang.NullPointerException at java.io.Reader.<init>(Reader.java:61) at java.io.InputS ...
pencil1218 评论(0) 有1417人浏览 2012-11-29 13:21

heritrix 如何解决简单的表单验证功能

  目前我的heritrix遇到了很多信息需要表单验证,我看基本上中文的资料非常少,我从网上找了这些英文资料, 是解决在heritrix的使用过程中,如何解决简单的表单验证的功能!!!   链接如下: https://webarchive.jira.com/wiki/display/Heritrix/RFC2617+%28BASIC+and+DIGEST+Auth%29    后续我会贴 ...
pencil1218 评论(0) 有729人浏览 2012-11-27 00:41

Heritrix下拉选择不出现的解决办法

按照书上所说的一步一步配置Heritrix爬虫,结果发现配置任务的时候竟然不能选择那些下拉列表,结果看了牛人debug跟踪了原因,是因为配置文件路径没有指定,所以取不到下拉列表的数据,按照如下所说修改一下,果然下拉列表内容出来了。 在Heritrix的run configuration中,classpath中的user entries中选择右边的advanced,然后选择external fold ...
zy3381 评论(0) 有1111人浏览 2012-11-01 16:59

heritrix-3.1.1 下载链接

heritrix-3.1.1 下载链接 http://builds.archive.org:8080/maven2/org/archive/heritrix/heritrix/3.1.1/heritrix-3.1.1-src.zip http://builds.archive.org:8080/maven2/org/archive/heritrix/heritrix/3.1.1/heritrix ...
Mootools 评论(0) 有1837人浏览 2012-07-11 17:54

Heritrix+ Lucene + WARC 爬虫 增量 采集 与 回放 之整合(heritrix 增量 技术 文档参考)

Heritrix+ Lucene + WARC 爬虫增量采集与回放之整合 heritrix 增量 技术 文档参考如有需要,可以和本人联系。 QQ:382500398。 针对Heritrix源码1.14版本进行解读和研究,本人把Herirtrix和lucene 3进行了整合改造,形成完整的myeclipse工程,本整合后的工程完成了采集后完整的网站回放的实现。在研读的过程中,主要做了如下工作: 1. ...
xyheritrix 评论(0) 有2503人浏览 2012-03-14 15:29

Heritrix3.0教程 使用入门(一) 下载安装与运行

本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.html Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧. 1.下载,下载地址:http:/ ...
xfwang555 评论(0) 有1309人浏览 2012-02-06 00:38

Heritrix 和 Nutch 比较与分析(java开源网络爬虫)

Heritrix项目介绍 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫: 能够以更高的带宽去站点爬。 主题爬虫: 集中于被选择的问题。 持续爬虫: 不仅仅爬更当前的网页还负责爬日后更新的网页。 实验 ...
ljl_xyf 评论(1) 有7473人浏览 2011-11-15 11:01

html解析页面中的A标签

在heritrix中的自定义继承Extractor的类中,参考那本《开发自己的搜索引擎里》书里的代码,不能很好的解析出页面中的A标签中的url,就用htmlparser来解析出A标签里的url,果然好用。代码如下 private void filterURL(String source,CrawlURI curi) { try { Parser parser = new P ...
qzxfl008 评论(1) 有1713人浏览 2011-11-05 21:20

heritrix 下载、安装、配置、以及简单开发

    一、下载: 到www.sourceforge.net 网站搜索heritrix, 然后分别下载下来hheritrix-1.14.4-src.zip,heritrix-1.14.4.zip 下载地址:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20%28heritri ...
ljl_xyf 评论(0) 有1398人浏览 2011-11-04 11:36

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics