1. 下载Heritrix,地址:http://nchc.dl.sourceforge.net/project/archive-crawler/archive-crawler%20%28heritrix%201.x%29/1.14.4/heritrix-1.14.4.zip
2. 解压heritrix-1.14.4.zip
3. 设置环境变量:HERITRIX_HOME
4. 在命令行窗口,进入%HERITRIX_HOME%\bin目录,执行 heritrix.bat,出现类似如下字样的提示信息:
You have to specify either a username and password for the
web interface or start Heritrix without the web ui.
Example: heritrix --admin=admin:letmein
heritrix --nowui myOrder.xml
5. 根据提示,把命令修改为: heritrix --admin=admin:123,出现类似如下字样的提示信息:
WARNING: It's currently not possible to run Heritrix in background
on Windows. It was just started minimized in a new Window
and will be shut down as soon as you log off.
2011/02/25 周五 23:49:27.00 Starting heritrix
Heritrix failed to start properly. Possible causes:
- Login and password have not been specified (see --admin switch)
- another program uses the port for the web UI (8080 by default)
(e.g. another Heritrix instance)
- JMX password file is missing or permissions not set correctly
JMX permissions file missing. A template can be found in
E:\framework\heritrix-1.14.4\conf\jmxremote.password.template.
Copy it to
E:\framework\heritrix-1.14.4\jmxremote.password
and edit the passwords at the end of the file. Then, make sure
the file is read-restricted to only the user that the Heritrix
Java VM will run as. For example:
6.
根据提示,把%HERITRIX_HOME%\conf\jmxremote.password.template文件复制到%HERITRIX_HOME%\目录下,并将文件重命名为:jmxremote.password,用文本编辑器打开文件,根据文件内的提示,将文件最后两行的@PASSWORD@,替换为想要的密码字符串。
monitorRole 123
controlRole 123
7. 再设置文件的为只读,并且要设置文件的拥有者只能为当前登录系统的用户,删除文件的其他用户或角色权限。修改方法:
文件->属性->"安全"标签页->高级->"权限"标签页->更改权限按钮
->取消"包括从该对象的父项继承的权限"的勾选-,同时再删除其他多余的用户或角色权限(只留下当前登录系统的用户)
8. 再次:heritrix --admin=admin:123,在弹出的cmd命令窗口中看到:
16:08:27.117 EVENT Starting Jetty/4.2.23
16:08:27.164 WARN!! Delete existing temp dir C:\Users\wiflish\AppData\Local\Temp
\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/E:/framework/herit
rix-1.14.4/webapps/admin.war!/]
16:08:27.256 EVENT Started WebApplicationContext[/,Heritrix Console]
16:08:27.323 EVENT Started SocketListener on 127.0.0.1:8080
16:08:27.323 EVENT Started org.mortbay.jetty.Server@13d93f4
2011-02-25 16:08:27.588 信息 thread-10 org.archive.crawler.Heritrix.postRegister
() org.archive.crawler:guiport=8080,host=wiflish-PC,jmxport=8849,name=Heritrix,t
ype=CrawlService registered to MBeanServerId=wiflish-PC_1298650106843, Specifica
tionVersion=1.4, ImplementationVersion=1.6.0_23-b05, SpecificationVendor=Sun Mic
rosystems
Heritrix version: 1.14.4
配置成功
分享到:
相关推荐
Heritrix在Windows下成功运行不仅涉及到基础的软件安装和环境配置,还要求对Java运行时环境有深入的理解,包括JDK的选择、环境变量的设置、以及详细的运行参数。通过以上步骤,Heritrix可以在Windows系统上稳定运行...
在Windows环境下运行Heritrix,需要了解一些关键步骤和配置,以便顺利进行网络抓取。 1. **环境准备**: 在Windows上运行Heritrix,首先需要安装Java Development Kit (JDK)。Heritrix是用Java编写的,因此需要JDK...
2. **配置文件结构**: Heritrix的配置基于XML文件,主要包含`job.xml`(作业配置)、`engine.xml`(引擎配置)和各种模块的配置文件。理解这些文件的结构和作用是配置Heritrix的基础。 3. **作业配置** (`job.xml`)...
Eclipse下配置Heritrix,具体配置步骤详细介绍。
在本文中,我们将深入探讨如何安装和配置Heritrix 1.14.4版本,这是一个基于Java的爬虫工具。 首先,我们需要从SourceForge网站下载Heritrix的源代码版本,文件名为`heritrix-1.14.4-src.zip`。选择源代码版本的...
Heritrix由Internet Archive开发,支持高度可配置和扩展,能够处理各种复杂的网页结构。 在提供的文件列表中,我们有两个主要的压缩文件: 1. **heritrix-3.1.0-dist.zip**:这个文件包含了Heritrix的发行版,也...
在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个...
在非开发环境下的配置步骤如下: 1. 将下载的heritrix-1.14.0-RC1.zip解压到C盘根目录,并命名为"heritrix"。 2. 进入C:/heritrix/conf目录,复制jmxremote.password.template文件到C:/heritrix,并重命名为...
以上就是配置和理解Heritrix在Eclipse中的源文件的相关步骤和知识点。通过这种方式,开发者可以深入了解Heritrix的内部工作流程,进行定制化开发,或者修复潜在的bug。在实际操作中,参考提供的文档"Heritrix在...
Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具
### Heritrix的安装与配置详解 ...以上就是Heritrix的安装与配置全过程,包括创建抓取任务和在Eclipse中的集成配置。Heritrix是一款非常强大的工具,通过合理的配置可以有效地帮助用户进行网页数据的采集与分析。
在配置Heritrix时,我们需要理解其核心概念,如工作流、存档项和处理器。 1. **工作流(Workflow)**: Heritrix的工作流定义了爬虫如何处理每个URL。它由一系列的处理器组成,每个处理器负责特定的任务,如HTTP...
通过以上步骤,你便能在MyEclipse环境下成功搭建和配置Heritrix 1.14.4。在实际操作中,你可能会遇到各种问题,但有了MyEclipse的强大支持,解决这些问题将变得更加容易。对于更深入的使用和定制,建议查阅Heritrix...