`

Heritrix使用中出现You must set the User-Agent错误处理

阅读更多

如果配置一个任务后,启动控制台窗口中出现异常

+0000 严重 org.archive.crawler.framework.CrawlController initialize On crawl: Dev You must set the User-Agent and From HTTP header values to acceptable strings. 
User-Agent: [software-name](+[info-url])[misc]
From: [email-address]

org.archive.crawler.framework.exceptions.FatalConfigurationException: unacceptable user-agent or from (Reedit your order file).

 

这是因为设置的这两个参数不正确或者没有设置。

user-agent主要是指运行Heritrix的用户的配置,即使用者的机器配置。

 

首先是浏览器的选择,比如IE/7.0;其中 @VERSION@是指使用Heritrix的版本号,这里应该是1.14.1;

 

最后面的PROJECT_URL_HERE是指本机地址,比如

http://192.168.1.99

 

from是指一个Email联系方式,可以输入一个Email地址,例如

lin.net@163.com。

分享到:
评论

相关推荐

    Heritrix-User-Manual.rar_heritrix

    这个名为"Heritrix-User-Manual.rar_heritrix"的压缩包包含了Heritrix用户手册的PDF版本,是学习和操作Heritrix的重要资源。下面将详细介绍Heritrix的基本概念、安装步骤、任务创建以及任务分析。 1. **Heritrix...

    heritrix-3.4.0-SNAPSHOT-src.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...

    heritrix-1.14.4-src

    要使用Heritrix-1.14.4-src,你需要首先安装Java开发环境(JDK),然后遵循提供的构建指示编译源代码。一旦编译成功,你可以配置Heritrix以适应你的爬虫需求,例如设置爬行深度、排除某些URL模式,或者定制链接解析...

    heritrix-3.4.0-SNAPSHOT-dist.zip

    在使用Heritrix-3.4.0-SNAPSHOT-dist.zip这个压缩包时,用户可以期待以下内容: - `heritrix-3.4.0-SNAPSHOT`目录:这是Heritrix的主目录,包含了所有运行所需的基本文件,如jar包、配置文件、文档等。 - `bin`子...

    网络爬虫Heritrix1.14.4可直接用

    3. **Heritrix运行与配置**:在`Heritrix1/src/org/archive/crawler/Heritrix.java`文件中启动Heritrix后,服务会在本地的8089端口监听。通过访问`https://localhost:8089`,我们可以使用内置的Web管理界面进行配置...

    heritrix 的详细配置 与 使用资料

    在配置过程中可能会遇到的错误是 `java.lang.UnsupportedClassVersionError`,这通常表示你的 Java 运行环境版本与 Heritrix 需要的版本不匹配。解决这个问题的方法是检查你的 JDK 版本,确保它与 Heritrix 的需求...

    Heritrix的使用入门

    Heritrix是一个强大的开源Web网络爬虫,由Java编写,主要功能是从互联网上抓取数据,为搜索引擎提供丰富的资源。...在使用过程中,理解其组件机制,熟悉配置和扩展方法,是发挥Heritrix潜力的关键。

    Heritrix使用详解与高级开发应用

    Heritrix的目录结构包括lib目录,存储了所有必要的类库,以及一个名为heritrix-1.10.1.jar的核心JAR文件。此外,conf目录下的heritrix.properties文件是Heritrix运行的关键,因为它包含了运行时的各种配置参数,如...

    heritrix-1.14.4

    标题"heritrix-1.14.4"表明这是Heritrix的1.14.4版本,这是一个重要的标识,因为每个版本可能包含不同的特性、优化或错误修复。Heritrix的发展遵循迭代模式,新版本通常会引入新的功能或改进现有功能,以适应不断...

    heritrix-3.1.0 最新jar包

    1. **heritrix-3.1.0-dist.zip**:这是Heritrix的发行版,包含运行所需的所有文件,如Java可执行文件(JARs)、配置文件和文档。用户可以直接下载并运行此版本来启动爬虫服务,无需构建源代码。其中,`heritrix-...

    Heritrix使用手册

    Heritrix 使用手册 全doc 文本

    heritrix系统使用.ppt

    本篇将详细解释Heritrix系统的使用、核心概念、工作原理以及关键组件。 首先,Heritrix的安装和配置涉及到几个主要步骤。用户需要下载Heritrix源码,然后按照提供的指南进行编译和安装。配置主要包括设定爬取范围,...

    heritrix爬虫工具的使用

    在实际使用中,你可能需要先下载Heritrix的源码,然后通过构建工具(如Maven)编译并安装。在配置文件中设定好爬虫参数后,可以通过命令行启动爬虫。在运行过程中,可以通过日志和监控工具观察爬取进度,必要时调整...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    在提供的压缩包中,有两个主要文件:"heritrix-1.14.4.zip" 和 "heritrix-1.14.4-src.zip"。前者是Heritrix的编译后的二进制版本,可以直接运行,而后者包含了源代码,对于希望定制或深入理解Heritrix工作原理的...

    heritrix-1.14.2.zip

    Heritrix的压缩包"heritrix-1.14.2.zip"包含以下组件和文件: 1. **源代码**:包含了Heritrix的Java源代码,用户可以查看和修改这些代码以适应自己的需求。 2. **构建脚本**:如Ant或Maven脚本,用于编译和打包项目...

    heritrix 中文API (自己整理) 网络爬虫

    Heritrix的这些链结构使得开发者可以根据需要定制复杂的爬虫策略,通过调整和扩展各个链中的处理器,实现对网络内容的精确抓取和处理。无论是处理DNS解析、HTTP请求,还是从各种格式的文档中提取链接,Heritrix的...

    Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx

    在Heritrix 3.0中,`crawler-beans.cxml` 文件扮演着至关重要的角色,它是整个爬虫的配置中心,负责定义和管理爬虫的行为。相较于Heritrix 1.x的`order.xml`,`crawler-beans.cxml` 采用了Spring框架进行管理,以...

Global site tag (gtag.js) - Google Analytics