Eclipse中配置使用Heritrix-1.14.4
1. 下载并解压heritrix-1.14.4-src.zip和heritrix-1.14.4.zip
2. 在Eclipse中新建java project,项目名定为heritrix_getstart
3. 将解压后的heritrix-1.14.4-src.zip中src/java/下的com,org,st文件夹复制到工程的src目录下
4. 将src/conf下的modules,profiles,selftest文件夹和heritrix.propertries,jndi.properities文件复制到工程的src目录下
5. 解压heritrix-1.14.4-zip将webapps文件夹复制到工程根目录下
6. 如图:
7. 打开工程中的heritrix.propertries文件修改以下配置项
a) heritrix.version = 1.14.4,配置heritrix版本号
b) heritrix.jobsdir = jobs,配置爬取的内容的放置文件夹
c) heritrix.cmdline.admin = username:password,配置webUI登录的用户名和密码
d) heritrix.cmdline.port = 8888,配置webUI的登录端口
8. 将lib文件夹下的后有jar包加入到工程的classpath中
9. 在工程中找到org.archive.crawler下的Heritrix.java运行
10.
11.打开浏览器,输入地址:http://localhost:8888输入用户名和密码就可以登录到后台
可能遇到的问题
thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable
解决方法:到heritrix.1.14.4.jar包中将文件org/archive/util/tlds-alpha-by-domain.txt复制到工程中的org/archive/util目录下即可
- 大小: 12.2 KB
- 大小: 9.4 KB
- 大小: 2.7 KB
分享到:
相关推荐
Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...
为了在Eclipse中运行Heritrix-1.14.4源代码,你需要: 1. 将压缩包解压至本地目录。 2. 在Eclipse中创建新项目,选择"Import existing projects into workspace",然后导航到Heritrix的源代码目录。 3. 确保你的...
将`heritrix-1.14.4-src\lib`目录下的所有工具类库导入`MyHeritrix`工程中: - 将`heritrix-1.14.4-src`下的`lib`文件夹复制到`MyHeritrix`项目的根目录。 - 在`MyHeritrix`工程上右键单击选择“Build Path > ...
为了在Eclipse中运行Heritrix,还需要进行一些额外的配置。 - **步骤**: - 右键单击MyHeritrix项目,选择“Run AsRun Configurations”。 - 在弹出的窗口中确保Main选项卡下的Project和Main class选项正确无误...
- 将`heritrix-1.14.4-src\lib`目录下的所有JAR文件导入到`MyHeritrix`工程中。 - 操作步骤如下: - 将`heritrix-1.14.4-src\lib`文件夹复制到`MyHeritrix`项目的根目录。 - 在`MyHeritrix`工程上右键选择...
首先,我们需要从SourceForge网站下载Heritrix的源代码版本,文件名为`heritrix-1.14.4-src.zip`。选择源代码版本的原因在于可能需要对Heritrix进行自定义扩展以满足特定需求。下载完成后,解压缩文件,你会看到两个...
- `heritrix-1.14.4-src.zip` - `heritrix-1.14.4.zip` 2. **解压文件** 下载完成后,解压这些文件至指定目录。 #### 三、配置流程 1. **创建Java项目** 在Eclipse IDE中创建一个新的Java项目,命名为`...
- 解压`heritrix-1.14.4-src.zip`和`heritrix-1.14.4.zip`。 - 将源代码文件夹整合进工程中。 - 添加必要的库文件(jar包)至项目的`lib`目录。 - 修改`heritrix.properties`中的相关配置,如`heritrix.cmdline....
在Eclipse这样的集成开发环境中配置Heritrix源文件,可以方便开发者进行定制化开发、调试和理解Heritrix的工作原理。下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了...