配置Heritrix及常见问题解决
配置Heritrix
1. 从http://crawler.archive.org/下载并解压到本地 F:\crawler\heritrix-1.14.4
2. 配置环境变量HERITRIX_HOME
3. 修改%HERITRIX_HOME%\conf下的配置文件heritrix.propertries
a) a) heritrix.version = 1.14.4,配置heritrix版本号
b) b) heritrix.jobsdir = jobs,配置爬取的内容的放置文件夹
c) c) heritrix.cmdline.admin = admin:admin,配置webUI登录的用户名和密码,其格式为(username:password)
d) d) heritrix.cmdline.port = 8888,配置webUI的登录端口(默认为8080,最好将其修改,以防与tomcat等软件冲突)
4. 将%HERITRIX_HOME%\conf下的jmxremote.password.template复制到%HERITRIX_HOME%\目录下将改名为jmxremote.password,并将些文件中最后两行改为
monitorRole admin
controlRole admin
保存后右键点击jmxremote.password选择properties将权限改成只读
关键步骤切换到Security选项卡选择Advance,在Owner选项卡中确认Current owner下是当前登录系统的用户而不是用户组,否则会出现:必须限制口令文件读取访问
5. 以上步骤完成后在命令行切换到%HERITRIX_HOME%\bin,并执行
heritrix --amdin=admin:admin即可启动heritrix
6. 打开浏览器访问http://localhost:8888 即可登录到后台管理页面
用户名admin密码admin
- 大小: 6.8 KB
- 大小: 23.8 KB
- 大小: 3.1 KB
- 大小: 3.2 KB
- 大小: 42 KB
- 大小: 3.7 KB
分享到:
相关推荐
"Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...
"Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是...
#### 五、常见错误与解决办法 - **启动失败**: - 检查配置文件(`heritrix.properties`)中的设置是否正确。 - 确认所需的库文件是否都已加载。 - **连接问题**: - 确认网络连接是否正常。 - 检查防火墙或安全软件...
下载完成后,将其解压缩到本地目录,并注意其结构,包括`lib`目录,其中包含了Heritrix运行所需的类库,以及`heritrix.properties`文件,这是配置Heritrix运行的重要文件。 配置`heritrix.properties`是运行...
1. `蜘蛛.doc`:可能包含关于如何使用Heritrix进行网络爬虫的文档,解释基本概念、配置指南和常见问题解答。 2. `wherespider_1.0.4.0_source`:Heritrix的源代码,供开发者学习和扩展。 3. `wherespider_1.0.4.0_...
在下载的压缩包中,`爬虫heritrix.doc` 可能是关于Heritrix 3.2 的使用指南或文档,包含了详细的配置说明、操作教程和常见问题解答。阅读这份文档可以帮助我们更好地理解和使用Heritrix。 `heritrix-3.2.0-SNAPSHOT...
这解决了描述中提到的由于某些JAR文件难以下载导致的编译问题。通常,这个包会包含启动脚本、配置文件、依赖库和其他运行时必要的组件。 2. **heritrix-3.2.0-src.tar.gz**:这是Heritrix 3的源代码包,适合开发...
通过这些案例,用户可以学习如何利用Heritrix解决实际问题,提升网络数据抓取和分析能力。 总结来说,《Heritrix用户参考手册》全面介绍了Heritrix的安装、配置、运行和分析方法,是一份宝贵的资源,对于希望掌握...
DeDuplicator,一个专门为开源网络爬虫Heritrix设计的扩展模块,旨在解决网络爬取过程中常见的重复数据问题。在网络爬虫领域,数据重复是普遍存在的挑战,尤其是在进行连续快照爬网时,同一网页的不同版本或者完全...
总的来说,"开发自己的搜索引擎——Lucene+Heritrix(第2版)光盘内容"提供了一个完整的解决方案,涵盖了从数据抓取到搜索引擎构建的整个流程。通过学习和实践,开发者可以掌握构建高效、功能丰富的搜索引擎的技术,这...
在实际操作时,用户需要了解基本的Java编程和命令行操作,以及如何配置Heritrix的XML配置文件以定义爬取行为。 总的来说,Heritrix是一个强大的开源网络爬虫工具,适合研究者、开发者和机构用于大规模的网页抓取和...
项目实践论文是学习过程中的重要参考资料,它可能涵盖了项目的整体设计思路、关键技术的使用方法、遇到的问题及解决方案等内容。通过阅读论文,可以深入了解项目背后的理论依据和技术实现。 最后,提供的lucene和...
Heritrix 提供了一个用户友好的Web控制界面,使得用户可以轻松配置抓取选项,这对于那些需要完整备份整个网站的场景来说非常有用。 **WCT (The Web Curator Tool)** 是一款旨在帮助数字馆藏机构进行Web内容收集的...
Heritrix提供了更精细的控制和配置选项,可以保存原始页面的全部信息,而不进行内容修剪或格式转换。 每种爬虫都有其独特的特性和适用场景,开发者可以根据实际需求选择合适的工具。无论是进行大规模的网页抓取,...
- **Nutch**:基于Java的Apache子项目,是Lucene项目的一部分,提供了一个类似Google的完整搜索引擎解决方案。Nutch支持Hadoop分布式处理,具有灵活的插件架构,便于定制和集成。 - **Larbin**:用C++编写,由Sé...
#### 核心问题及解决方案 1. **获取种子站点**:通过一定的策略和技术手段自动发现新的种子站点,确保系统的采集范围不断扩大和完善。 2. **抓取任务管理**:包括任务的创建、分解、执行和合并等步骤,通过合理的...
14. **搜索引擎和爬虫**:Lucene结合Heritrix可以构建强大的搜索解决方案。 15. **编程协议和XML**:理解HTTP、SMTP等网络协议,以及XML相关的处理库如dom4j和Xerces,对于开发是必需的。 16. **BI和Bug跟踪**:...