`

Heritrix在windows下的配置步骤。

    博客分类:
  • web
阅读更多

1. 下载Heritrix,地址:http://nchc.dl.sourceforge.net/project/archive-crawler/archive-crawler%20%28heritrix%201.x%29/1.14.4/heritrix-1.14.4.zip

 

2. 解压heritrix-1.14.4.zip

 

3. 设置环境变量:HERITRIX_HOME

 

4. 在命令行窗口,进入%HERITRIX_HOME%\bin目录,执行 heritrix.bat,出现类似如下字样的提示信息:

 

You have to specify either a username and password for the
web interface or start Heritrix without the web ui.

Example: heritrix --admin=admin:letmein
         heritrix --nowui myOrder.xml
 

 

5. 根据提示,把命令修改为: heritrix --admin=admin:123,出现类似如下字样的提示信息:

WARNING: It's currently not possible to run Heritrix in background
         on Windows. It was just started minimized in a new Window
         and will be shut down as soon as you log off.

2011/02/25 周五 23:49:27.00 Starting heritrix

Heritrix failed to start properly. Possible causes:

- Login and password have not been specified (see --admin switch)
- another program uses the port for the web UI (8080 by default)
  (e.g. another Heritrix instance)
- JMX password file is missing or permissions not set correctly


JMX permissions file missing. A template can be found in
  E:\framework\heritrix-1.14.4\conf\jmxremote.password.template.
Copy it to
  E:\framework\heritrix-1.14.4\jmxremote.password
and edit the passwords at the end of the file. Then, make sure
the file is read-restricted to only the user that the Heritrix
Java VM will run as. For example:
 

 

6. 根据提示,把%HERITRIX_HOME%\conf\jmxremote.password.template文件复制到%HERITRIX_HOME%\目录下,并将文件重命名为:jmxremote.password,用文本编辑器打开文件,根据文件内的提示,将文件最后两行的@PASSWORD@,替换为想要的密码字符串。

 

monitorRole  123
controlRole  123
 

 

7. 再设置文件的为只读,并且要设置文件的拥有者只能为当前登录系统的用户,删除文件的其他用户或角色权限。修改方法:

   文件->属性->"安全"标签页->高级->"权限"标签页->更改权限按钮

    ->取消"包括从该对象的父项继承的权限"的勾选-,同时再删除其他多余的用户或角色权限(只留下当前登录系统的用户)

 

8. 再次:heritrix --admin=admin:123,在弹出的cmd命令窗口中看到:

16:08:27.117 EVENT  Starting Jetty/4.2.23
16:08:27.164 WARN!! Delete existing temp dir C:\Users\wiflish\AppData\Local\Temp
\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/E:/framework/herit
rix-1.14.4/webapps/admin.war!/]
16:08:27.256 EVENT  Started WebApplicationContext[/,Heritrix Console]
16:08:27.323 EVENT  Started SocketListener on 127.0.0.1:8080
16:08:27.323 EVENT  Started org.mortbay.jetty.Server@13d93f4
2011-02-25 16:08:27.588 信息 thread-10 org.archive.crawler.Heritrix.postRegister
() org.archive.crawler:guiport=8080,host=wiflish-PC,jmxport=8849,name=Heritrix,t
ype=CrawlService registered to MBeanServerId=wiflish-PC_1298650106843, Specifica
tionVersion=1.4, ImplementationVersion=1.6.0_23-b05, SpecificationVendor=Sun Mic
rosystems
Heritrix version: 1.14.4
 

 

配置成功

分享到:
评论

相关推荐

    Heritrix在windows下运行成功

    其在Windows环境下成功运行的过程及配置细节,涉及到了Java环境的搭建、Heritrix软件的安装与配置、以及运行参数的设置,以下是对这些知识点的详细解析: ### 一、Java环境搭建 Heritrix基于Java平台运行,因此...

    Heritrix在Windows下的运行

    在Windows环境下运行Heritrix,需要了解一些关键步骤和配置,以便顺利进行网络抓取。 1. **环境准备**: 在Windows上运行Heritrix,首先需要安装Java Development Kit (JDK)。Heritrix是用Java编写的,因此需要JDK...

    Heritrix(windows版)

    Heritrix由Internet Archive开发,支持高度可配置和扩展,能够处理各种复杂的网页结构。 在提供的文件列表中,我们有两个主要的压缩文件: 1. **heritrix-3.1.0-dist.zip**:这个文件包含了Heritrix的发行版,也...

    heritrix的配置

    - 在`F:\workspace\myeclipse\heritrix\heritrix-1.14.1`目录下,删除`org`和`st`两个文件夹。 - 将解压后的`heritrix-1.14.1.src`文件夹下的`heritrix-1.14.1\src\java`目录下的`org`和`st`两个文件夹拷贝到`F:\...

    heritrix3.1 官方指导手册

    Heritrix 支持自动备份功能,可以在任务执行过程中定期保存当前状态,以便在出现异常中断后能够快速恢复。 #### 十、主控制台页面 主控制台页面是 Heritrix 用户界面的核心,提供了对所有正在进行的抓取任务的概览...

    Heritrix1.14.3配置流程[参考].pdf

    ### Heritrix 1.14.3 配置流程详解 #### 一、概述 Heritrix是一款开源网络爬虫工具...对于初次接触Heritrix的用户来说,按照本文所述的步骤进行操作,可以较为顺利地完成配置,并开始使用Heritrix进行网页采集工作。

    Heritrix构建特定站点爬虫

    2. **配置Heritrix**:参照上述配置指南,确保Heritrix正确安装并在Eclipse中配置好。 3. **编写扩展代码**:根据需求编写代码,例如使用Heritrix提供的API来过滤链接,确保仅抓取北京林业大学网站内的页面。 4. **...

    heritrix 下载方法

    通过以上步骤,您应该已经成功地从Heritrix官网下载了所需版本,并掌握了基本的安装与配置流程。Heritrix作为一款功能强大且灵活的网络爬虫工具,对于需要大量抓取互联网数据的用户来说是非常有用的。希望本教程能...

Global site tag (gtag.js) - Google Analytics