heritrix3.1 TLD list unavailable - - ITeye博客

`

pencil1218

浏览: 15413 次
性别:
来自: 杭州

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jadethao：开博分享自我总结帮助他人！看你的总结，希望楼主能发表几篇分 ...
庆祝下开博客了！

heritrix3.1 TLD list unavailable

博客分类：

heritrix

阅读更多

今天按照上面转载的文档搭建了一下heritirx3.1的环境，基本上还是成功的，可以成功的运行，但是在运行的时候报了一个错误，错误如下：

严重: TLD list unavailable

java.lang.NullPointerException

at java.io.Reader.<init>(Reader.java:61)

at java.io.InputStreamReader.<init>(InputStreamReader.java:55)

at org.archive.util.ArchiveUtils.<clinit>(ArchiveUtils.java:874)

at org.archive.crawler.Heritrix.instanceMain(Heritrix.java:380)

at org.archive.crawler.Heritrix.main(Heritrix.java:189)

Heritrix version: UNKNOWN

无法显示版本号，这个问题暂时还没有找到是什么引起的，运行界面是可以正常运行的！

由于本人还算是个相对的完美主义者，对于上面的错误，心里还是觉得很难受的！！别扭！

于是刚才花了几分钟看了下源代码，是heritrix在启动的时候会到org.archive.util下面读取3个配置文件，分别是：

version.txt

timestamp.txt

tlds-alpha-by-domain.txt

这三个文件在src的zip包里面并不存在，但是可以在dist.zip的lib目录下，找到heritrix-commons-3.1.0.jar这个文件，

在里面的org.archive.util下面找到上面的3个txt文件，拷贝到你的项目的src\org\archive\util下面，在重新运行，问题完美解决！！

1
顶

2
踩

分享到：

linux下mount windows分区【转载】 | linux修改字符集

2012-11-29 13:21
浏览 1426
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

heritrix3.1 官方指导手册: ### Heritrix 3.1 官方指导手册 #### 一、简介 Heritrix 是互联网档案馆推出的一款开源、可扩展、可伸缩、具备高质量归档能力的网络爬虫工具。它旨在帮助用户高效地从互联网上抓取数据，并将其归档保存。Heritrix ...

heritrix 3.1: Heritrix 3.1是互联网档案馆开发的一款开源网络爬虫工具，专门用于抓取和保存网页。这款强大的爬虫软件广泛应用于学术研究、数据分析、网站备份等多个领域。了解Heritrix 3.1的默认配置以及类之间的关系对于有效使用...

heritrix3.1: Heritrix 3.1.0 是一个强大的网络爬虫软件，主要被用于网页抓取、数据挖掘和互联网档案管理。这个源码包包含了项目的源代码以及构建后的可分发文件，让开发者能够深入理解其工作原理并进行定制化开发。源码分析： ...

heritrix-3.1.0 最新jar包: Heritrix 3.1.0 是一个强大的网络爬虫工具，主要用于抓取和存档互联网上的网页。这个最新版本的jar包包含了Heritrix的核心功能，为用户提供了一个高效的网页抓取框架。Heritrix的设计理念是模块化和可配置性，使得它...

Heritrix3手册翻译: 在Heritrix 3.0和3.1版本中，引入了一个基于Spring-container的配置系统，这使得设置管理更加灵活。此外，3.X版本的另一个显著改变是采用了一种新的模型，允许在同一个作业目录下重启作业，而无需每次都创建新的作业...

Heritrix安装详细过程: ### Heritrix安装详细过程及配置指南 #### 一、Heritrix简介 Heritrix是一款开源的网络爬虫工具，被广泛应用于互联网资源的抓取与归档工作。相较于其他爬虫工具，Heritrix提供了更为精细的控制机制，能够帮助用户...

网络爬虫Heritrix1.14.4可直接用: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本，但依然具有广泛的适用性，尤其对于学习和研究网络爬虫技术...

heritrix1.14.0jar包: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取和保存网页数据。在IT行业中，爬虫是获取大量网络数据的重要手段，Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip: 在Heritrix的使用过程中，开发者需要理解它的核心概念，如爬虫作业（Crawler Job）、种子列表（Seed List）以及各种可配置的爬取策略。Heritrix支持通过XML配置文件来定义爬取规则，包括深度限制、URL过滤、重试策略...

heritrix爬虫安装部署: ### Heritrix爬虫安装部署知识点详解 #### 一、Heritrix爬虫简介 Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架，它使用Java语言编写，支持高度定制化的需求。Heritrix的设计初衷是为了...

heritrix-1.14.2.zip: Heritrix 1.14.2 是一个开源的网络爬虫工具，它主要用于抓取互联网上的网页和其他在线资源。这个版本的Heritrix在2007年左右发布，虽然较旧，但它仍然是理解网络爬虫技术的一个重要参考。 Heritrix是一个由Internet...

Heritrix(windows版): Heritrix是一款开源的网络爬虫软件，专为大规模网页抓取而设计。这款工具主要用于构建互联网档案馆、搜索引擎的数据源以及其他需要大量网页数据的项目。Heritrix由Internet Archive开发，支持高度可配置和扩展，能够...

很好的heritrix学习资料: Heritrix是一款强大的开源网络爬虫工具，专为大规模、深度网页抓取设计。这款工具由互联网档案馆（Internet Archive）开发，旨在提供灵活、可扩展的网页抓取框架，适用于学术研究、数据挖掘和历史记录保存等多种用途...

Heritrix搭建好的工程: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取和保存网页内容。这款工具被设计为可扩展和高度配置的，允许用户根据特定需求定制爬取策略。在本工程中，Heritrix已经被预...

Heritrix使用详解与高级开发应用: Heritrix是一个强大的Java开发的开源网络爬虫，主要用于从互联网上抓取各种资源。它由www.archive.org提供，以其高度的可扩展性而著称，允许开发者自定义抓取逻辑，通过扩展其内置组件来适应不同的抓取需求。本文将...

开发自己的搜索引擎 lucene + heritrix: 在这个过程中，Lucene 和 Heritrix 是两个非常关键的工具，它们分别在搜索引擎的构建中扮演着不同的角色。首先，Lucene 是一个基于 Java 的开源信息检索库，它为开发者提供了一系列用于构建搜索引擎的工具和接口。...

heritrix 的详细配置与使用资料: 接着，需要解压 heritrix-1.12.1.jar 文件，并将解压后的所有内容（除了 org、st、com、META-INF 和 effective_tld_names.dat 文件）复制到项目源代码目录下。这一步是为了合并必要的类和资源文件。在配置阶段，你...

heritrix正确完整的配置heritrix正确完整的配置: Heritrix是一款开源的网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取和保存网页。它的配置是整个爬虫工作的关键，确保Heritrix正确完整地配置对于实现高效、有针对性的网络抓取至关重要。以下将...

heritrix的配置: ### Heritrix配置详解 #### 一、Heritrix简介 Heritrix是一款开源的网页爬虫工具，它被设计用于归档网络内容。这款工具能够帮助用户抓取和保存网页资源，支持复杂的爬行策略，是进行互联网数据采集的理想选择之一...

Global site tag (gtag.js) - Google Analytics