`

Eclipse 配置 Heritrix 1.14.4

阅读更多
在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,这里有很多内容是引用自那里。如http://extjs2.iteye.com/blog/699751
不过这里对配置有一些进一步的说明。

Eclipse 配置 Heritrix 1.14.4的配置过程如下:

1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows)

2. 在Eclipse 中创建一个java project的工程(可以命名为Heritrix)

3. 将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。

4. 将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。

5. 将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。

6. 将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。

7. 将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。
/** 
 * @throws IOException 
 * @return Returns the directory under which reside the WAR files 
 * we're to load into the servlet container. 
 */  
public static File getWarsdir()  
throws IOException {  
    return getSubDir("webapps");  
}  


8. 配置文件进行修改,找到conf下heritrix.properties文件
//设置用户密码  
heritrix.cmdline.admin = admin:admin  
//设置端口  
heritrix.cmdline.port = 8080  


9. 对工程进行jar包引入,将lib下面所有的jar包引入工程。

10.Eclipse中导入Heritrix,报错找不到类 sun.net.www.protocol.file.FileURLConnection,sun包是受保护的包,默认只有sun公司的软件才能使用。Eclipse会报错,把对保护使用warning就可以了。Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning

11. 添加配置文件夹。如果你运行Heritrix时,在配置页面中没有可选项,这一步可以解决问题。在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置,选择Classpath ,选择User Entries -- Advanced ,选择Add Folders,将conf文件夹添加进去。点击Run 开始运行
07:34:47.484 EVENT  Starting Jetty/4.2.23
07:34:47.906 EVENT  Started WebApplicationContext[/,Heritrix Console]
07:34:48.125 EVENT  Started SocketListener on 127.0.0.1:8080
07:34:48.125 EVENT  Started org.mortbay.jetty.Server@133f1d7
Heritrix version: @VERSION@
分享到:
评论
4 楼 fengerr 2010-10-31  
朋友加不上哦
3 楼 fengerr 2010-10-28  
我的qq是5928938 ,你的qq需要姓名才可以的。谢谢朋友。
2 楼 hanyuanbo 2010-10-28  
fengerr 写道
网上搜索很多资料关于出错的问题,终于在你找到了,原来是sun的保护问题。博主我也在做一个搜索引擎。我有个问题想请问下,就是例如我想采集一个网站。例如:http://news.163.com/我只想采集这里的信息,但是网页里包含了很多其他网站的信息,我如何设置将其他的网站的信息删除。博主有没有相关的学习笔记和学习的资料给我看看。本人一个学管理专业的学生,想做个heritrix+lucene的搜索引擎。很多东西都不会设置,楼主可否留下个联系方式。本人msn:fengerr@hotmail.com


我是Java比较熟,搜索引擎原理性的东西也是刚刚开始看,在学习。我用Q比较多 709180023 很乐意能够帮忙
1 楼 fengerr 2010-10-28  
网上搜索很多资料关于出错的问题,终于在你找到了,原来是sun的保护问题。博主我也在做一个搜索引擎。我有个问题想请问下,就是例如我想采集一个网站。例如:http://news.163.com/我只想采集这里的信息,但是网页里包含了很多其他网站的信息,我如何设置将其他的网站的信息删除。博主有没有相关的学习笔记和学习的资料给我看看。本人一个学管理专业的学生,想做个heritrix+lucene的搜索引擎。很多东西都不会设置,楼主可否留下个联系方式。本人msn:fengerr@hotmail.com

相关推荐

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...

    Heritrix-1.14.4源代码

    6. **配置管理(Configuration)**:Heritrix的配置非常灵活,可以通过XML文件进行设置。源代码中包含了配置加载、解析和应用的逻辑。 7. **调度器(Scheduler)**:调度器根据策略安排待爬取的URL队列,例如可以...

    Heritrix在Eclipse中的源文件

    2. 输入项目名称,例如"Heritrix1.14.4",然后点击"Next"。 3. 在"JRE"选项中,确保选择了正确的JRE版本,通常是与系统安装的JDK对应的版本,点击"Finish"。 步骤二:导入Heritrix源代码 1. 解压下载的Heritrix源...

    Heritrix的安装与配置

    在本文中,我们将深入探讨如何安装和配置Heritrix 1.14.4版本,这是一个基于Java的爬虫工具。 首先,我们需要从SourceForge网站下载Heritrix的源代码版本,文件名为`heritrix-1.14.4-src.zip`。选择源代码版本的...

    利用 Heritrix 构建特定站点爬虫

    本章节将详细介绍如何在Eclipse环境下搭建Heritrix开发环境,包括类库导入、源代码拷贝、配置文件修改及运行参数设置等内容。 ##### 1. 导入类库 Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,...

    Heritrix1.14.3配置流程[参考].pdf

    通过以上步骤,我们可以成功地配置好Heritrix 1.14.3(实际上使用的是1.14.4版本)的运行环境。Heritrix的强大功能和灵活性使其成为数字档案管理中的重要工具之一。对于初次接触Heritrix的用户来说,按照本文所述的...

    heritrix爬虫安装部署

    - 检查配置文件(`heritrix.properties`)中的设置是否正确。 - 确认所需的库文件是否都已加载。 - **连接问题**: - 确认网络连接是否正常。 - 检查防火墙或安全软件是否阻止了Heritrix的服务。 - **性能问题**: ...

Global site tag (gtag.js) - Google Analytics