在Eclipse中构建Heritrix
这里采用的是Heritrix 1.14.4
1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip
2.在Eclipse 中创建一个java project的工程,分别对
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip 进行解压。
3.将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。
4.将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。
5.将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。
6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。
7.将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。
显示代码打印1 /**
2 * @throws IOException
3 * @return Returns the directory under which reside the WAR files
4 * we’re to load into the servlet container.
5 */
6 public static File getWarsdir()
7 throws IOException {
8 return getSubDir("webapps");
9 }
8.配置文件进行修改,找到conf下heritrix.properties文件
显示代码打印1 //设置用户密码
2 heritrix.cmdline.admin = admin:admin
3 //设置端口
4 heritrix.cmdline.port = 8080
9.对工程进行jar包引入,将lib下面所有的jar包引入工程。
10.在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置
选择Classpath
选择User Entries -- Advanced
选择Add Folders 将conf文件夹添加进去。
点击Run 开始运行
05:22:32.875 EVENT Starting Jetty/4.2.23
05:22:32.937 WARN!! Delete existing temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/workspace/jcjcd/heritrixDemo/webapps/admin.war!/]
05:22:33.062 EVENT Started WebApplicationContext[/,Heritrix Console]
05:22:33.156 EVENT Started SocketListener on 127.0.0.1:8080
05:22:33.156 EVENT Started org.mortbay.jetty.Server@1f6f0bf
Heritrix version: @VERSION@
分享到:
相关推荐
它由Internet Archive(IA)开发,目标是创建一个用于构建网络数字图书馆的全网归档爬虫。自2003年初启动以来,IA已通过Heritrix积累了超过400TB的数据。 Heritrix 3.x 的主要特点包括: 1. **Web控制管理界面**:...
Eclipse下配置Heritrix,具体配置步骤详细介绍。
1. 现在你可以在Eclipse中浏览、编辑Heritrix的源代码了。如果需要运行Heritrix,找到主类,通常为`org.archive.crawler.framework.CrawlJob`。 2. 右键点击该类,选择"Run As" -> "Java Application"。根据配置的...
在提供的压缩包中,有两个主要文件:"heritrix-1.14.4.zip" 和 "heritrix-1.14.4-src.zip"。前者是Heritrix的编译后的二进制版本,可以直接运行,而后者包含了源代码,对于希望定制或深入理解Heritrix工作原理的...
在Eclipse中,用户可以利用Java的强类型系统和丰富的库来增强Heritrix的功能,或者根据项目需求调整其核心算法。 Heritrix的设计基于模块化和可扩展性,它的主要组件包括爬取管道(Crawler Pipelines)、策略...
jmxremote.password
在Heritrix 1.14.2中,用户可以通过XML配置文件来定制爬行策略。这些配置文件可以设置爬虫的行为,如设定爬行速度、定义种子URL、选择要抓取的文件类型、排除特定的URL模式等。此外,Heritrix还提供了丰富的插件系统...
最后,为了使Eclipse识别Heritrix的依赖库,你需要在项目构建路径的库选项卡中,添加lib目录下的所有.jar文件。 当以上步骤完成后,你可以在Heritrix项目下的`src/org/archive/crawler`包中找到Heritrix.java文件,...
在 org.archive.crawler 包中找到 Heritrix.java,并执行 main 函数。如果配置成功,你会看到类似以下的启动日志: ``` 01:57:30.046 EVENT Starting Jetty/4.2.23 01:57:30.562 EVENT Started ...
总结一下,"heritrix.rar"提供的是一个预配置好的Heritrix工程,用户可以在Eclipse中快速开始网络爬取项目。Heritrix的强大之处在于其高度可定制性,通过配置文件和组件,可以实现复杂和大规模的网络数据抓取任务。...
为了使Heritrix能够在Eclipse环境中顺利运行,还需要将必要的源代码文件拷贝到项目中。 - **步骤**: - 将`heritrix-1.14.4-src\src\java`下的`com`、`org`和`st`三个文件夹复制到MyHeritrix项目的`src`目录下。 ...
4. **Politeness**:这是Heritrix遵循的一种网络礼貌原则,即在抓取过程中,尊重网站的Robots协议,避免过于频繁的请求,以免对目标服务器造成过大的负担。这通过设置延迟时间和重试策略来实现。 Heritrix的灵活性...
3. **Heritrix运行与配置**:在`Heritrix1/src/org/archive/crawler/Heritrix.java`文件中启动Heritrix后,服务会在本地的8089端口监听。通过访问`https://localhost:8089`,我们可以使用内置的Web管理界面进行配置...
1.光盘中所附代码的运行环境 服务器Tomcat5.5版本 数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin(下载地址:...
整个流程都在图2.1中。 (1)预取链:主要是做一些准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。 (2)提取链:主要是下载网页,进行DNS转换,填写请求和响应表单。 (3)抽取链:当提取完成时,抽取感兴趣...
在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...