在Eclipse中构建Heritrix
这里采用的是Heritrix 1.14.4(2010年5月10日的版本 目前来看是最新版本)
1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip
2.在Eclipse 中创建一个java project的工程,分别对
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip 进行解压。
3.将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。
4.将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。
5.将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。
6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。
7.将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。
/**
* @throws IOException
* @return Returns the directory under which reside the WAR files
* we're to load into the servlet container.
*/
public static File getWarsdir()
throws IOException {
return getSubDir("webapps");
}
8.配置文件进行修改,找到conf下heritrix.properties文件
//设置用户密码
heritrix.cmdline.admin = admin:admin
//设置端口
heritrix.cmdline.port = 8080
9.对工程进行jar包引入,将lib下面所有的jar包引入工程。
10.在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置
选择Classpath
选择User Entries -- Advanced
选择Add Folders 将conf文件夹添加进去。
点击Run 开始运行
05:22:32.875 EVENT Starting Jetty/4.2.23
05:22:32.937 WARN!! Delete existing temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/workspace/jcjcd/heritrixDemo/webapps/admin.war!/]
05:22:33.062 EVENT Started WebApplicationContext[/,Heritrix Console]
05:22:33.156 EVENT Started SocketListener on 127.0.0.1:8080
05:22:33.156 EVENT Started org.mortbay.jetty.Server@1f6f0bf
Heritrix version: @VERSION@
到目前我们已经完成Heritrix在Eclipse下的配置。
下面我们可以创建一个job进行测试。
1.在浏览器输入http://127.0.0.1:8080 输入配置文件中的用户名密码即可。
2.接下来我们创建一个job,选择导航菜单中的jobs,选择CreateNewJob With defaults。
3.分别填入名称,描述,和待抓取的url。
4.选择modules,这里我们将抓取结果创建一个镜像,默认进行了压缩,Select Writers中的 org.archive.crawler.writer.ARCWriterProcessor 删除并重新添加一个 org.archive.crawler.writer.MirrorWriterProcessor
5.选择页面下方的Setting进行设置,这里可设置的项很多,比如最大线程数,超时等等。
有两样必须进行设置
http-headers HTTP headers.
user-agent:Mozilla/5.0 (compatible; heritrix/@VERSION@ +PROJECT_URL_HERE)
from:CONTACT_EMAIL_ADDRESS_HERE
我这里只是简单的将@VERSION@ 换成heritrix版本号
PROJECT_URL_HERE 换成 http://本机ip
CONTACT_EMAIL_ADDRESS_HERE随便写了个email地址
以上配置完成之后选择 submitjob。
6.回到Console 点击start开始job的抓取。
抓取完成之后可以在工程下看到jobs文件夹,在文件夹中可以找到
- 大小: 94.7 KB
- 大小: 15 KB
- 大小: 50.5 KB
- 大小: 97.5 KB
分享到:
相关推荐
7. **CrawlJob**:Heritrix中的主类,启动爬虫作业的入口点。 以上就是配置和理解Heritrix在Eclipse中的源文件的相关步骤和知识点。通过这种方式,开发者可以深入了解Heritrix的内部工作流程,进行定制化开发,或者...
在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...
为了使Heritrix能够在Eclipse环境中顺利运行,还需要将必要的源代码文件拷贝到项目中。 - **步骤**: - 将`heritrix-1.14.4-src\src\java`下的`com`、`org`和`st`三个文件夹复制到MyHeritrix项目的`src`目录下。 ...
在本案例中,"heritrix-1.4.4 源代码(eclipse可执行)" 表示这个压缩包包含了Heritrix 1.4.4版本的所有源码,这些源码是为Eclipse IDE准备的,可以直接在Eclipse环境下编译和运行。Eclipse是一款强大的Java集成开发...
接下来,我们需要在集成开发环境(IDE)如Eclipse中创建一个新的Java项目,并命名为"Heritrix"。将`lib`文件夹拖入项目工程中,并将所有.jar文件添加到项目的构建路径中。这可以通过选中所有.jar文件,右键点击,...
安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...
标题中的"heritrix1.14.0jar包"指的是Heritrix的1.14.0版本的Java档案文件(JAR),这是运行或构建Heritrix爬虫项目所必需的库。 Heritrix的工作原理是通过模拟浏览器行为,逐个访问网页并按照预设的策略下载页面。...
"Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...
2. **配置Heritrix**:参照上述配置指南,确保Heritrix正确安装并在Eclipse中配置好。 3. **编写扩展代码**:根据需求编写代码,例如使用Heritrix提供的API来过滤链接,确保仅抓取北京林业大学网站内的页面。 4. **...
为了在Eclipse中运行Heritrix-1.14.4源代码,你需要: 1. 将压缩包解压至本地目录。 2. 在Eclipse中创建新项目,选择"Import existing projects into workspace",然后导航到Heritrix的源代码目录。 3. 确保你的...
如果你对源码感兴趣,Heritrix使用Maven构建,可以通过导入项目到IDE(如IntelliJ IDEA或Eclipse)进行开发。源码可以帮助你深入理解其工作原理,以便进行更高级的定制。 9. **常见问题与调试**: 运行Heritrix时...
接下来,你需要在 Eclipse 或其他 IDE 中创建一个新的 Java 项目,而不是一个 WEB 项目,命名为“heritrix”。然后,将源码包中的 org、st 和 com 文件夹复制到你的项目源代码目录下。同时,将 webapps 文件夹复制到...
最后,为了使Eclipse识别Heritrix的依赖库,你需要在项目构建路径的库选项卡中,添加lib目录下的所有.jar文件。 当以上步骤完成后,你可以在Heritrix项目下的`src/org/archive/crawler`包中找到Heritrix.java文件,...
在Eclipse中,用户可以利用Java的强类型系统和丰富的库来增强Heritrix的功能,或者根据项目需求调整其核心算法。 Heritrix的设计基于模块化和可扩展性,它的主要组件包括爬取管道(Crawler Pipelines)、策略...
安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...
文档中提到了获取和构建Heritrix的具体步骤,包括获取Heritrix源码、构建过程、运行指令以及与Eclipse集成和自测试的信息。文档强调了编码规范,指出Heritrix在SUN编码规范的基础上做了一些调整,比如对长变量名和...
安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...
- 生成Heritrix的WAR文件:在Eclipse中,右键项目,选择"Export" -> "Web" -> "WAR File",指定输出位置并生成名为`heritrix.war`的文件。 - 将`heritrix.war`复制到Tomcat的`webapps`目录下。 - 启动Tomcat服务...