`
approximation
  • 浏览: 34405 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Heritrix2出现NullPointerException的原因和解决方式

阅读更多

Heritrix2在Settings Sheets时出现java.lang.NullPointerException错的原因和解决方式

 

       如果使用IE或者IE内核的浏览器,在进行Settings Sheets操作时,会出现上述错误。这是因为Heritrix2在相关页面使用<button> 控件替换了原来的<input type="button">。<button> 控件 与 <input type="button"> 相比,提供了更为强大的功能和更丰富的内容。但遗憾的是,微软对于这个控件的实现,并不是完全按照标准的,当button按钮按下后时,button的value等于button标签之间的innerText。而Heritrix2期待的是它写在value中的格式化的参数。 <button class="rowLink" type="submit" name="details" value="bdb:checkpoint-copy-bdbje-logs">details</button>。微软传到后台的值是detail,而不是bdb:checkpoint-copy-bdbje-logs。
      如果一定要使用IE浏览器进行后台管理的话,建议改一下Heritrix2包里面sheets下的page_sheet_editor.jsp,具体的修改就看各人喜好了,这应该属于网页工程师的实现范畴。
     顺便说一句,Heritrix这东西配置起来还是比较麻烦的,虽说2比1要好一些了。

1
2
分享到:
评论

相关推荐

    heritrix3种子载入方式

    对于Heritrix3种子载入的配置,建议用户仔细阅读官方文档和相关配置指南,因为不当的配置可能会导致爬虫运行时出现错误,甚至会影响到爬虫的稳定性和性能。如果在阅读配置时遇到了技术上的障碍,例如OCR扫描出的文字...

    heritrix抓取的操作和扩展

    2. **启动Heritrix**:创建一个启动脚本,如`Heritrix.cmd`,并运行。在浏览器中访问`http://localhost:8080/`,使用设置的用户名和密码登录Web管理界面。 3. **新建抓取任务**: - 任务创建页面提供了四种方式:...

    开发自己的搜索引擎 lucene + heritrix

    2. 设计和开发一个网络爬虫,使用Heritrix等工具抓取与垂直领域相关的网页数据。 3. 存储和预处理抓取到的数据。这通常涉及到文本清洗、去重、格式转换等步骤,确保数据质量。 4. 使用Lucene建立索引系统。这部分...

    Heritrix的安装与配置

    选择源代码版本的原因在于可能需要对Heritrix进行自定义扩展以满足特定需求。下载完成后,解压缩文件,你会看到两个主要的文件夹:`lib`和`src`。 `lib`文件夹包含了Heritrix运行所需的第三方类库,这些.jar文件...

    配置Heritrix及常见问题解决

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。它提供了高度可配置性和扩展性,使得用户可以根据需求定制爬虫行为。在配置Heritrix时,我们需要理解其核心...

    heritrix1.14.0jar包

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页数据。在IT行业中,爬虫是获取大量网络数据的重要手段,Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix是一个开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这...

    Heritrix3手册翻译

    它在2009年12月发布了3.0.0版本,并随着时间的推移不断更新,提供了3.0.1补丁版和3.2.0版,增加了新的特性和功能,比如更简单的使用方式、持续爬行以及处理大规模爬行任务的能力。Heritrix 3 的文档包括用户指南和...

    网络爬虫Heritrix1.14.4可直接用

    2. **Heritrix架构**:Heritrix采用模块化设计,包括种子管理器、URI调度器、爬取策略、处理器链、存储模块等。每个模块都有其特定功能,如种子管理器负责管理起始抓取URL,调度器负责控制爬取速率和优先级。 3. **...

    heritrix爬虫安装部署

    - 通过命令行方式启动Heritrix服务。 - 确认服务已成功监听8080端口。 2. **访问WebUI**: - 在浏览器中输入`http://127.0.0.1:8080`访问Heritrix的Web用户界面。 - 使用预先设置的用户名和密码登录。 3. **创建...

    Heritrix(windows版)

    2. **heritrix-3.1.0-src.zip**:这个文件包含了Heritrix的源代码,适合开发者或者希望对软件进行定制的用户。通过源代码,你可以深入理解Heritrix的工作原理,并根据需要修改或扩展它的功能。如果你打算对Heritrix...

    heritrix 3.1

    Heritrix 3.1是互联网档案馆开发的一款开源网络爬虫工具,专门用于抓取和保存网页。这款强大的爬虫软件广泛应用于学术...通过不断学习和实践,我们可以充分利用Heritrix 3.1的强大功能,解决各种复杂的网络抓取问题。

    heritrix系统使用.ppt

    它提供了一种高效、可配置的方式来收集和处理网页数据。本篇将详细解释Heritrix系统的使用、核心概念、工作原理以及关键组件。 首先,Heritrix的安装和配置涉及到几个主要步骤。用户需要下载Heritrix源码,然后按照...

    很好的heritrix学习资料

    它可能涵盖了Heritrix的基本概念、安装步骤、启动和运行爬虫的基本流程,以及一些常见的问题和解决方法。对于新接触Heritrix的人来说,这份资料将是宝贵的起点。 "Heritrix1_14_1在Eclipse下的配置总结 - Java - ...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是...

    heritrix-1.14.2.zip

    Heritrix 1.14.2 是一个开源的网络爬虫工具,它主要用于抓取互联网上的网页和其他在线资源。这个版本的Heritrix在2007年左右发布,虽然较旧,但它仍然是理解网络爬虫技术的一个重要参考。 Heritrix是一个由Internet...

    Heritrix部署直接能运行的项目

    Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...

Global site tag (gtag.js) - Google Analytics