浏览 4415 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2008-11-05
很长时间就想试试这个强大的爬虫了,但是经过多次在命令行里按照网上的各位大侠的方法都失败,不知道为什么,今天还试了一下1.12.1和1.14.1两个版本的,都是提示密码文件的要设成单用户并只读,我已经如此设置了安全标签,但仍不能解决问题,所以决定在Eclipse里面试一下,多次失败后,终于成功启动了Heritrix! 下面简要列一下,其实很简单: 1、在Eclipse下新建一个项目。(哪一个版本应该无所谓吧,JDK1.5); 2、将1.14.1版的Heritrix两个.zip文件下载并解压到临时目录(heritrix-1.14.1-src.zip和heritrix-1.14.1.zip); 3、从第一个zip文件解压目录下\src\java复制三个文件夹(包):org、com、st到项目中的src上; 4、从第一个zip文件解压目录下\src\conf复制所有文件夹及文件到项目根目录中(可能有不需要的文件); 5、从第一个zip文件解压目录下\src\resourses复制所有文件夹及文件到项目根目录中(可能有不需要的文件); 6、从第二个zip文件解压目录下复制webapps目录到项目根目录中; 7、把项目下Heritrix.properties文件复制到\src目录下(实践中发现); 8、在项目上鼠标右键->构建路径->添加外部归档 找到任意一个解压的目录下的lib文件夹,选中文件夹中的所有包; 9、从第一个zip文件解压目录下\src\conf\下的profiles文件夹复制到Eclipse工作空间所在分区的根目录; 10、配置Heritrix.properties,主要配置四项:如下红色部分所示 ############################################################################## # HERITRIX PROPERTIES ############################################################################## # Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix # get copied into System.properties on startup so available via # System.getProperties. (For 'system.' properties, that prefix is stripped. # (See Heritrix.loadProperties()). # Version is filled in by the maven.xml pregoal. It copies here the project # currentVersion property. heritrix.version = 1.14.1 # Location of the heritrix jobs directory. heritrix.jobsdir = jobs # Default commandline startup values. # Below values are used if unspecified on the command line. heritrix.cmdline.admin = admin:admin heritrix.cmdline.port = 8088 heritrix.cmdline.run = false heritrix.cmdline.nowui = false heritrix.cmdline.order = heritrix.cmdline.jmxserver = false heritrix.cmdline.jmxserver.port = 8081 ############################################################################## # LOGGING ############################################################################## 11、在Eclipse下启动Heritrix,找到项目src下的org.archive.crawler包下的主类Heritrix.java鼠标右键->运行方式->java项目,即可启动Heritrix! 启动后,Eclipse状态栏信息如下: 08:32:15.468 EVENT Starting Jetty/4.2.23 08:32:15.734 WARN!! Delete existing temp dir C:\DOCUME~1\ycf\LOCALS~1\Temp\Jetty_127_0_0_1_8088__ for WebApplicationContext[/,jar:file:/E:/projects/eclipse_workspace/Heritrix1.14.1/webapps/admin.war!/] 08:32:16.171 EVENT Started WebApplicationContext[/,Heritrix Console] 08:32:16.609 EVENT Started SocketListener on 127.0.0.1:8088 08:32:16.609 EVENT Started org.mortbay.jetty.Server@137c60d Heritrix version: 1.14.1 上面的包的复制都在直接在Eclipse里面的项目上直接进行的,这样可以减少修改Eclipse的项目配置文件。 以上是本人实践后的一个小结,有些内容具体含义没有提及,网上其他版本的配置都有人提过,已经很详细了! 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |