`

配置Heritrix及常见问题解决

 
阅读更多

 

配置Heritrix及常见问题解决

配置Heritrix

1. http://crawler.archive.org/下载解压到本地 F:\crawler\heritrix-1.14.4

2. 配置环境变量HERITRIX_HOME

3. 修改%HERITRIX_HOME%\conf下的配置文件heritrix.propertries

a) a) heritrix.version = 1.14.4,配置heritrix版本号

b) b) heritrix.jobsdir = jobs,配置爬取的内容的放置文件夹

c) c) heritrix.cmdline.admin = admin:admin,配置webUI登录的用户名和密码,其格式为(username:password)

d) d) heritrix.cmdline.port = 8888,配置webUI的登录端口(默认为8080,最好将其修改,以防与tomcat等软件冲突)

4. %HERITRIX_HOME%\conf下的jmxremote.password.template复制到%HERITRIX_HOME%\目录下将改名为jmxremote.password,并将些文件中最后两行改为
monitorRole  admin
controlRole  admin
保存后右键点击jmxremote.password选择properties将权限改成只读


 
关键步骤切换到Security选项卡选择Advance,在Owner选项卡中确认Current owner下是当前登录系统的用户而不是用户组,否则会出现:必须限制口令文件读取访问 

5. 以上步骤完成后在命令行切换到%HERITRIX_HOME%\bin,并执行
heritrix --amdin=admin:admin即可启动heritrix


 

6. 打开浏览器访问http://localhost:8888 即可登录到后台管理页面

用户名admin密码admin

  • 大小: 6.8 KB
  • 大小: 23.8 KB
  • 大小: 3.1 KB
  • 大小: 3.2 KB
  • 大小: 42 KB
  • 大小: 3.7 KB
0
0
分享到:
评论

相关推荐

    很好的heritrix学习资料

    "Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是...

    heritrix爬虫安装部署

    #### 五、常见错误与解决办法 - **启动失败**: - 检查配置文件(`heritrix.properties`)中的设置是否正确。 - 确认所需的库文件是否都已加载。 - **连接问题**: - 确认网络连接是否正常。 - 检查防火墙或安全软件...

    Heritrix的使用入门

    下载完成后,将其解压缩到本地目录,并注意其结构,包括`lib`目录,其中包含了Heritrix运行所需的类库,以及`heritrix.properties`文件,这是配置Heritrix运行的重要文件。 配置`heritrix.properties`是运行...

    网络爬虫(heritrix)代码

    1. `蜘蛛.doc`:可能包含关于如何使用Heritrix进行网络爬虫的文档,解释基本概念、配置指南和常见问题解答。 2. `wherespider_1.0.4.0_source`:Heritrix的源代码,供开发者学习和扩展。 3. `wherespider_1.0.4.0_...

    heritrix3.2源码

    在下载的压缩包中,`爬虫heritrix.doc` 可能是关于Heritrix 3.2 的使用指南或文档,包含了详细的配置说明、操作教程和常见问题解答。阅读这份文档可以帮助我们更好地理解和使用Heritrix。 `heritrix-3.2.0-SNAPSHOT...

    heritrix-3

    这解决了描述中提到的由于某些JAR文件难以下载导致的编译问题。通常,这个包会包含启动脚本、配置文件、依赖库和其他运行时必要的组件。 2. **heritrix-3.2.0-src.tar.gz**:这是Heritrix 3的源代码包,适合开发...

    Heritrix用户参考手册

    通过这些案例,用户可以学习如何利用Heritrix解决实际问题,提升网络数据抓取和分析能力。 总结来说,《Heritrix用户参考手册》全面介绍了Heritrix的安装、配置、运行和分析方法,是一份宝贵的资源,对于希望掌握...

    DeDuplicator (Heritrix add-on)-开源

    DeDuplicator,一个专门为开源网络爬虫Heritrix设计的扩展模块,旨在解决网络爬取过程中常见的重复数据问题。在网络爬虫领域,数据重复是普遍存在的挑战,尤其是在进行连续快照爬网时,同一网页的不同版本或者完全...

    开发自己的搜索引擎——Lucene+Heritrix(第2版)光盘内容

    总的来说,"开发自己的搜索引擎——Lucene+Heritrix(第2版)光盘内容"提供了一个完整的解决方案,涵盖了从数据抓取到搜索引擎构建的整个流程。通过学习和实践,开发者可以掌握构建高效、功能丰富的搜索引擎的技术,这...

    Heritrix: Internet Archive Web Crawler-开源

    在实际操作时,用户需要了解基本的Java编程和命令行操作,以及如何配置Heritrix的XML配置文件以定义爬取行为。 总的来说,Heritrix是一个强大的开源网络爬虫工具,适合研究者、开发者和机构用于大规模的网页抓取和...

    前程无忧垂直搜索引擎项目实战

    项目实践论文是学习过程中的重要参考资料,它可能涵盖了项目的整体设计思路、关键技术的使用方法、遇到的问题及解决方案等内容。通过阅读论文,可以深入了解项目背后的理论依据和技术实现。 最后,提供的lucene和...

    基于Nutch的Web网站定向采集系统

    Heritrix 提供了一个用户友好的Web控制界面,使得用户可以轻松配置抓取选项,这对于那些需要完整备份整个网站的场景来说非常有用。 **WCT (The Web Curator Tool)** 是一款旨在帮助数字馆藏机构进行Web内容收集的...

    网络爬虫调研报告样本.doc

    Heritrix提供了更精细的控制和配置选项,可以保存原始页面的全部信息,而不进行内容修剪或格式转换。 每种爬虫都有其独特的特性和适用场景,开发者可以根据实际需求选择合适的工具。无论是进行大规模的网页抓取,...

    网络爬虫调研报告(1).doc

    - **Nutch**:基于Java的Apache子项目,是Lucene项目的一部分,提供了一个类似Google的完整搜索引擎解决方案。Nutch支持Hadoop分布式处理,具有灵活的插件架构,便于定制和集成。 - **Larbin**:用C++编写,由Sé...

    基于Nutch的Web网站定向

    #### 核心问题及解决方案 1. **获取种子站点**:通过一定的策略和技术手段自动发现新的种子站点,确保系统的采集范围不断扩大和完善。 2. **抓取任务管理**:包括任务的创建、分解、执行和合并等步骤,通过合理的...

    J2EE程序员需掌握的技术

    14. **搜索引擎和爬虫**:Lucene结合Heritrix可以构建强大的搜索解决方案。 15. **编程协议和XML**:理解HTTP、SMTP等网络协议,以及XML相关的处理库如dom4j和Xerces,对于开发是必需的。 16. **BI和Bug跟踪**:...

Global site tag (gtag.js) - Google Analytics