`

在Eclipse中构建Heritrix

阅读更多
在Eclipse中构建Heritrix

这里采用的是Heritrix 1.14.4(2010年5月10日的版本 目前来看是最新版本)

1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip

2.在Eclipse 中创建一个java project的工程,分别对
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip 进行解压。

3.将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。
4.将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。
5.将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。
6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。
7.将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。
    /**
     * @throws IOException
     * @return Returns the directory under which reside the WAR files
     * we're to load into the servlet container.
     */
    public static File getWarsdir()
    throws IOException {
        return getSubDir("webapps");
    }


8.配置文件进行修改,找到conf下heritrix.properties文件
//设置用户密码
heritrix.cmdline.admin = admin:admin
//设置端口
heritrix.cmdline.port = 8080

9.对工程进行jar包引入,将lib下面所有的jar包引入工程。
10.在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置
选择Classpath
选择User Entries -- Advanced
选择Add Folders 将conf文件夹添加进去。
点击Run 开始运行
05:22:32.875 EVENT  Starting Jetty/4.2.23
05:22:32.937 WARN!! Delete existing temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/workspace/jcjcd/heritrixDemo/webapps/admin.war!/]
05:22:33.062 EVENT  Started WebApplicationContext[/,Heritrix Console]
05:22:33.156 EVENT  Started SocketListener on 127.0.0.1:8080
05:22:33.156 EVENT  Started org.mortbay.jetty.Server@1f6f0bf
Heritrix version: @VERSION@

到目前我们已经完成Heritrix在Eclipse下的配置。

下面我们可以创建一个job进行测试。





1.在浏览器输入http://127.0.0.1:8080 输入配置文件中的用户名密码即可。
2.接下来我们创建一个job,选择导航菜单中的jobs,选择CreateNewJob With defaults。
3.分别填入名称,描述,和待抓取的url。
4.选择modules,这里我们将抓取结果创建一个镜像,默认进行了压缩,Select Writers中的 org.archive.crawler.writer.ARCWriterProcessor 删除并重新添加一个 org.archive.crawler.writer.MirrorWriterProcessor
5.选择页面下方的Setting进行设置,这里可设置的项很多,比如最大线程数,超时等等。
有两样必须进行设置
http-headers  HTTP headers. 
user-agent:Mozilla/5.0 (compatible; heritrix/@VERSION@ +PROJECT_URL_HERE)
from:CONTACT_EMAIL_ADDRESS_HERE

我这里只是简单的将@VERSION@ 换成heritrix版本号
PROJECT_URL_HERE 换成 http://本机ip
CONTACT_EMAIL_ADDRESS_HERE随便写了个email地址
以上配置完成之后选择 submitjob。







6.回到Console 点击start开始job的抓取。
抓取完成之后可以在工程下看到jobs文件夹,在文件夹中可以找到


  • 大小: 94.7 KB
  • 大小: 15 KB
  • 大小: 50.5 KB
  • 大小: 97.5 KB
分享到:
评论
3 楼 rick_liao 2011-12-12  
rick_liao 写道
我里个擦,折腾一天,我就没跑通过,老是没法添加org.archive.crawler.writer.MirrorWriterProcessor



因为抓取网站的路径没有用/结尾,折腾啊
2 楼 rick_liao 2011-12-12  
我里个擦,折腾一天,我就没跑通过,老是没法添加org.archive.crawler.writer.MirrorWriterProcessor
1 楼 yuxyang 2010-11-13  
多谢楼主了~我终于搞定了~只是不明白为啥要做这一步?
6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。

相关推荐

    Heritrix在Eclipse中的源文件

    7. **CrawlJob**:Heritrix中的主类,启动爬虫作业的入口点。 以上就是配置和理解Heritrix在Eclipse中的源文件的相关步骤和知识点。通过这种方式,开发者可以深入了解Heritrix的内部工作流程,进行定制化开发,或者...

    Heritrix搭建好的工程

    在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...

    利用 Heritrix 构建特定站点爬虫

    为了使Heritrix能够在Eclipse环境中顺利运行,还需要将必要的源代码文件拷贝到项目中。 - **步骤**: - 将`heritrix-1.14.4-src\src\java`下的`com`、`org`和`st`三个文件夹复制到MyHeritrix项目的`src`目录下。 ...

    heritrix-1.4.4 源代码(eclipse可执行)

    在本案例中,"heritrix-1.4.4 源代码(eclipse可执行)" 表示这个压缩包包含了Heritrix 1.4.4版本的所有源码,这些源码是为Eclipse IDE准备的,可以直接在Eclipse环境下编译和运行。Eclipse是一款强大的Java集成开发...

    Heritrix的安装与配置

    接下来,我们需要在集成开发环境(IDE)如Eclipse中创建一个新的Java项目,并命名为"Heritrix"。将`lib`文件夹拖入项目工程中,并将所有.jar文件添加到项目的构建路径中。这可以通过选中所有.jar文件,右键点击,...

    Heritrix lucene开发自己的搜索引擎(源码)1

    安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...

    heritrix1.14.0jar包

    标题中的"heritrix1.14.0jar包"指的是Heritrix的1.14.0版本的Java档案文件(JAR),这是运行或构建Heritrix爬虫项目所必需的库。 Heritrix的工作原理是通过模拟浏览器行为,逐个访问网页并按照预设的策略下载页面。...

    很好的heritrix学习资料

    "Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...

    Heritrix构建特定站点爬虫

    2. **配置Heritrix**:参照上述配置指南,确保Heritrix正确安装并在Eclipse中配置好。 3. **编写扩展代码**:根据需求编写代码,例如使用Heritrix提供的API来过滤链接,确保仅抓取北京林业大学网站内的页面。 4. **...

    Heritrix-1.14.4源代码

    为了在Eclipse中运行Heritrix-1.14.4源代码,你需要: 1. 将压缩包解压至本地目录。 2. 在Eclipse中创建新项目,选择"Import existing projects into workspace",然后导航到Heritrix的源代码目录。 3. 确保你的...

    Heritrix在Windows下的运行

    如果你对源码感兴趣,Heritrix使用Maven构建,可以通过导入项目到IDE(如IntelliJ IDEA或Eclipse)进行开发。源码可以帮助你深入理解其工作原理,以便进行更高级的定制。 9. **常见问题与调试**: 运行Heritrix时...

    heritrix 的详细配置 与 使用资料

    接下来,你需要在 Eclipse 或其他 IDE 中创建一个新的 Java 项目,而不是一个 WEB 项目,命名为“heritrix”。然后,将源码包中的 org、st 和 com 文件夹复制到你的项目源代码目录下。同时,将 webapps 文件夹复制到...

    Heritrix 配置

    最后,为了使Eclipse识别Heritrix的依赖库,你需要在项目构建路径的库选项卡中,添加lib目录下的所有.jar文件。 当以上步骤完成后,你可以在Heritrix项目下的`src/org/archive/crawler`包中找到Heritrix.java文件,...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    在Eclipse中,用户可以利用Java的强类型系统和丰富的库来增强Heritrix的功能,或者根据项目需求调整其核心算法。 Heritrix的设计基于模块化和可扩展性,它的主要组件包括爬取管道(Crawler Pipelines)、策略...

    开发自己的搜索引擎lucene and heritrix

    安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...

    Heritrix developer_manual

    文档中提到了获取和构建Heritrix的具体步骤,包括获取Heritrix源码、构建过程、运行指令以及与Eclipse集成和自测试的信息。文档强调了编码规范,指出Heritrix在SUN编码规范的基础上做了一些调整,比如对长变量名和...

    Heritrix lucene开发自己的搜索引擎(源码)3

    安装:直接在Eclipse中选取“import->Existing Project”,该工程由于是Web工程,因此需要TomcatPlugin插件。 Eclipse工程/z_mysearch:原书中的搜索引擎完整实例 数据库脚本 网页索引格式 构建词库的源代码 从...

    heritrix爬虫,安装tomcat

    - 生成Heritrix的WAR文件:在Eclipse中,右键项目,选择"Export" -> "Web" -> "WAR File",指定输出位置并生成名为`heritrix.war`的文件。 - 将`heritrix.war`复制到Tomcat的`webapps`目录下。 - 启动Tomcat服务...

Global site tag (gtag.js) - Google Analytics