这段时间准备好好研究一下Heritrix,好好读一下其源代码,然后根据自己的需要进行一些扩展。今天将Heritrix配置到eclipse中时出现了找不到资源文件的异常。
Exception in thread "main" java.io.IOException: Failed to load properties file from filesystem or from classpath. at org.archive.crawler.Heritrix.getPropertiesInputStream(Heritrix.java:925) at org.archive.crawler.Heritrix.loadProperties(Heritrix.java:863) at org.archive.crawler.Heritrix.containerInitialization(Heritrix.java:492) at org.archive.crawler.Heritrix.main(Heritrix.java:555)
其异常应当是读取配置文件的位置有问题
Heritrix.class.getResourceAsStream(PROPERTIES_KEY);//heritrix.properties
解决办法如下
Heritrix.class.getClassLoader().getResourceAsStream(PROPERTIES_KEY);
分享到:
相关推荐
下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了Eclipse IDE以及Java Development Toolkit(JDK)。Eclipse Helios是Eclipse的一个版本,适用于Java开发,因此它是配置...
Eclipse下配置Heritrix,具体配置步骤详细介绍。
总之,Heritrix是一个功能强大的网络爬虫工具,其安装和配置涉及对Java项目的理解和Eclipse的熟练操作。通过以上步骤,你可以成功地搭建起一个运行中的Heritrix实例,进一步探索其丰富的功能和可能性。不过,需要...
在Eclipse的“Run Configurations”中创建一个新的Java Application配置,指定主类(通常是包含主方法的Heritrix启动类),然后设置必要的环境变量和参数。 5. **自定义与扩展**:Heritrix的设计允许用户根据需求...
1. **配置与启动**:Heritrix的配置基于XML文件,用户可以根据需求调整爬虫的行为,如设置起始URL、爬取深度、爬取速度等。启动时,它会读取这些配置并初始化爬虫引擎。 2. **爬行策略**:Heritrix支持多种爬行策略...
在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...
Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于...同时,文档阅读和社区交流也是学习Heritrix配置的重要途径。记得在实践中不断测试和完善配置,以实现高效、可控的网络爬取任务。
### Heritrix安装详细过程及配置指南 #### 一、Heritrix简介 Heritrix是一款开源的网络爬虫工具,被广泛应用于互联网资源的抓取与归档工作。相较于其他爬虫工具,Heritrix提供了更为精细的控制机制,能够帮助用户...
总结来说,配置Heritrix开发环境涉及下载源码和二进制文件,创建Eclipse项目,复制源代码和资源文件,配置系统属性,添加库文件,以及最终运行Heritrix主类。这个过程确保了开发者能够在本地环境中进行Heritrix的...
在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个...
"Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...
- 检查配置文件(`heritrix.properties`)中的设置是否正确。 - 确认所需的库文件是否都已加载。 - **连接问题**: - 确认网络连接是否正常。 - 检查防火墙或安全软件是否阻止了Heritrix的服务。 - **性能问题**: ...
Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...
在搭建Heritrix工程时,将"heritrix-1.14.0"中的jar包导入到开发环境中(如Eclipse或IntelliJ IDEA)是必要的步骤。这通常涉及到创建一个新的Java项目,然后将lib目录下的所有jar文件添加到项目的类路径中。确保正确...
Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具