最近想做一个在线商品分析和搜索平台,主要是把一些网站的物品信息检索到本地目录,然后实现商品的对比,让用户更好的购物。
看了一些 书和资料,发现HERITRIX不错,可以实现商品信息的搜集工作,于是就在网上查了一些资料进行配置,发现很多的配置方法,但都不行,主要原因就是不够详细,用了一种配置方法,还得查一些资料,进行修改,挺麻烦的,不过我昨晚到一点才睡,终于配置成功了,所以今天和大家分享一下,免的大家走弯路。
首先下载HERITRIX1.14.4ZIP和SRC-ZIP分别解压为ZIP和SRC文件,首先到Heritrix的官方网下载Heritrix1.14.3
1、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;
2、在Eclipse下新建Java项目,取名Heritrix;(如我打开Eclipse的工作区在D:\eclipse\search下,当我建了项目Heritrix后,我就可以找到D:\eclipse\search\Heritrix文件夹.其中包含两个工程属性文件.classpath 和.project。有的人建了后还有两个文件目录bin和src,本人的没有,如果有的话删除掉两个文件目录bin和src。)
3、复制SRC包下面src/java文件夹下org、com、st三个文件夹到项目根目录(即D:\eclipse\search\Heritrix);
4、复制SRC包下src下resources文件夹到项目根目录;复制conf到项目根目录。
5、复制SRC包下lib文件夹到项目根目录;
6、复制ZIP包下webapps文件夹到项目根目录;
做好了以上,在Eclipse中Heritrix项目右击刷新一下,就可以看到刚才所复制的包了。
7、在Eclipse中修改项目conf下heritrix.properties文件(
修改内容至少两个两个地方:
@VERSION@ 改为 1.14.3
heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm (这里是用户名与密码,可任读者设定.)
heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080 (注默认是8080的如果你已占用了这个端口号的话,要设另一个才行,因为我之前安装了tomcat,所以这里改为8090)
配置Heritrix.properties,主要配置四项:如下红色部分所示
##############################################################################
# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix
# get copied into System.properties on startup so available via
# System.getProperties. (For 'system.' properties, that prefix is stripped.
# (See Heritrix.loadProperties()).
# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version =
1.14.3
# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs
# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin =
admin:admin
heritrix.cmdline.port =
8088
heritrix.cmdline.run =
false
heritrix.cmdline.nowui =
false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver =
false
heritrix.cmdline.jmxserver.port =
8081
##############################################################################
改好了以上的,别忘了保存一下哦.
8、在项目Heritrix上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成!
9、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置->classpath->点击右边的ADVANCED->ADD FOLDER->选择根目录下的conf->RUN 即可
控制台出现一下信息说明已成功.
12:18:12.703 EVENT Starting Jetty/4.2.23
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console]
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090
12:18:13.062 EVENT Started org.mortbay.jetty.Server@179c285
Heritrix version: 1.14.3
这时你可以打开浏览器,输入http://localhost:8090或http://localhost:8080
然后输入你的刚才设的用户名和密码就可以登录Heritrix
总结:本人按别人的方法做时,发现了错在了源类包的路径不对.即在Eclipse中类的源代码中发现包的位置显示了错,于是按照类中源代码的的的包路径重新调整了各包的位置,于是就对了,读者如果出现这样问题可以自己查看一下做合当的调整.
关于出现Access restriction 的问题
查帮助发现
在preference->java->complier->errors/warning->deprecated and restricted API
把 Forbidden reference 的Error改成warning 即可
同时,大约是只要把这几个必须有的包都复制到了,就可以了。
注:如由于大家出现了一些问题.下面我给出了结构图,这是配置完后能运行的工程,各位如果不一样,可以自行调整.下面是两个图,由于太多了,中间的包就略了一些,大家查看.因为目前有点忙,没有能回答大家的问题,请谅.
分享到:
相关推荐
Eclipse下配置Heritrix,具体配置步骤详细介绍。
Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具
通过以上步骤,我们可以成功地配置好Heritrix 1.14.3(实际上使用的是1.14.4版本)的运行环境。Heritrix的强大功能和灵活性使其成为数字档案管理中的重要工具之一。对于初次接触Heritrix的用户来说,按照本文所述的...
在"heritrix-1.14.3"源代码中,开发者可以找到以下关键文件和目录: - `src/`:源代码目录,包含所有Heritrix组件的Java源文件。 - `config/`:配置文件,定义了爬虫的行为和组件设置。 - `build.xml`:Ant构建文件...
在Eclipse这样的集成开发环境中配置Heritrix源文件,可以方便开发者进行定制化开发、调试和理解Heritrix的工作原理。下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了...
在深入理解Heritrix-1.14.3之前,我们首先需要了解什么是网络爬虫以及它的工作原理。 网络爬虫,又称为网页蜘蛛,是一种自动化程序,它按照预设的规则在网络(尤其是万维网)上遍历并抓取信息。它通常从一个或几个...
在配置Heritrix时,我们需要理解其核心概念,如工作流、存档项和处理器。 1. **工作流(Workflow)**: Heritrix的工作流定义了爬虫如何处理每个URL。它由一系列的处理器组成,每个处理器负责特定的任务,如HTTP...
它的配置和部署过程对于开发者来说是至关重要的,以下将详细讲解如何在Eclipse环境中配置Heritrix的开发环境。 首先,你需要下载两个压缩包:heritrix-1.14.3-src.zip和heritrix-1.14.3.zip。SRC包包含了源代码,...
2. **配置文件结构**: Heritrix的配置基于XML文件,主要包含`job.xml`(作业配置)、`engine.xml`(引擎配置)和各种模块的配置文件。理解这些文件的结构和作用是配置Heritrix的基础。 3. **作业配置** (`job.xml`)...
配置过程还包括将`src\conf\`目录下的所有文件和文件夹拖入Eclipse的`Heritrix`工程的`src`目录。`heritrix.properties`文件是Heritrix的主要配置文件,你可以在这里设置管理界面的用户名和密码,例如"admin:admin...
- 如果Eclipse的工作空间位于`D:\eclipse\search`,则新建的项目将在`D:\eclipse\search\Heritrix`目录下。 3. **配置Heritrix** - 将`heritrix-1.14.1.zip`解压后得到的`lib`目录下的所有JAR文件添加到项目的...
在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个...
其在Windows环境下成功运行的过程及配置细节,涉及到了Java环境的搭建、Heritrix软件的安装与配置、以及运行参数的设置,以下是对这些知识点的详细解析: ### 一、Java环境搭建 Heritrix基于Java平台运行,因此...
如果你在Eclipse环境中配置Heritrix,步骤如下: 1. 解压heritrix-1.14.0-RC1.zip和heritrix-1.14.0-RC1-src.zip,将jar文件放在E:/MyWork/heritrix/heritrix-1.14-jar目录下,源码放在E:/MyWork/libs/heritrix/...
在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...