本文为博主翻译,转载请注明出处。如有翻译不妥,请指出以便改正,谢谢。
1 Successful DNS lookup
DNS 查找成功
0 Fetch never tried (perhaps protocol unsupported or illegal URI)
从未获取(可能协议未授权或者不合法URI)
-1 DNS lookup failed
DNS 查找失败
-2 HTTP connect failed
HTTP连接失败
-3 HTTP connect broken
HTTP连接中断
-4 HTTP timeout (before any meaningful response received)
HTTP协议超时(在接收到响应之前)
-5 Unexpected runtime exception; see runtime-errors.log
未处理的运行时异常 会记录在runtime-errors.log
-6 Prerequisite domain-lookup failed, precluding fetch attempt
运行先决条件,也就是没有得到域名的DNS
-7 URI recognized as unsupported or illegal
无支持或者非法的URI
-8 Multiple retries all failed, retry limit reached
多次尝试全部失败,重试次数(可以自己设置)达到限制
-50 Temporary status assigned URIs awaiting preconditions; appearance in logs may be a bug
临时的状态 已分配的URIs等待先决条件(DNS),出现在log可能是一个bug
-60 Failure status assigned URIs which could not be queued by the Frontier (and may in fact be unfetchable)
失败的状态 已分配的URIs不能被Frontier(调度器)加入队列
-61 Prerequisite robots.txt-fetch failed, precluding a fetch attempt
运行先决条件(DNS) 被robots.txt(爬虫协议)拒绝
-62 Some other prerequisite failed, precluding a fetch attempt
其他的一些获取先决条件(DNS)失败
-63 A prerequisite (of any type) could not be scheduled, precluding a fetch attempt
DNS在所有的类型中不能被加入列表
-3000 Severe Java 'Error' conditions (OutOfMemoryError, StackOverflowError, etc.) during URI processing.
-4000 'chaff' detection of traps/content of negligible value applied
-4001 Too many link hops away from seed
-4002 Too many embed/transitive hops away from last URI in scope
-5000 Out of scope upon reexamination (only happens if scope changes during crawl)
-5001 Blocked from fetch by user setting
-5002 Blocked by a custom processor
-5003 Blocked due to exceeding an established quota
-5004 Blocked due to exceeding an established runtime
-6000 Deleted from Frontier by user
-7000 Processing thread was killed by the operator (perhaps because of a hung condition)
-9998 Robots.txt rules precluded fetch
HTTP codes
1xx Informational
100 Continue
101 Switching Protocols
2xx Successful
200 OK
201 Created
202 Accepted
203 Non-Authoritative Information
204 No Content
205 Reset Content
206 Partial Content
3xx Redirection
300 Multiple Choices
301 Moved Permanently
302 Found
303 See Other
304 Not Modified
305 Use Proxy
307 Temporary Redirect
4xx Client Error
400 Bad Request
401 Unauthorized
402 Payment Required
403 Forbidden
404 Not Found
405 Method Not Allowed
406 Not Acceptable
407 Proxy Authentication Required
408 Request Timeout
409 Conflict
410 Gone
411 Length Required
412 Precondition Failed
413 Request Entity Too Large
414 Request-URI Too Long
415 Unsupported Media Type
416 Requested Range Not Satisfiable
417 Expectation Failed
5xx Server Error
500 Internal Server Error
501 Not Implemented
502 Bad Gateway
503 Service Unavailable
504 Gateway Timeout
505 HTTP Version Not Supported
分享到:
相关推荐
1. 解压缩"heritrix-1.14.4.zip"到本地目录。 2. 在MyEclipse中创建一个新的Java项目,将解压后的Heritrix文件夹作为项目的源代码目录。 3. 配置项目的类路径,确保包含所有必要的JAR依赖。 4. 可能需要导入额外的库...
这份笔记详细地介绍了如何通过Heritrix控制台以及代码层面进行设置和定制,对想要深入学习和使用Heritrix的开发者来说,是一份宝贵的参考资料。通过掌握这些知识,开发者可以有效地构建和执行网络爬虫任务,满足各种...
Heritrix是一个开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这...
1. 安装和运行 Heritrix:Heritrix 是一个纯 Java 程序,理论上可以在任何拥有 Java 5.0 虚拟机的平台上运行,但官方仅承诺支持在 Linux 平台上运行。因此,安装和运行章节仅涵盖在 Linux 系统上的设置。用户需要...
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
1. **源代码**:包含了Heritrix的Java源代码,用户可以查看和修改这些代码以适应自己的需求。 2. **构建脚本**:如Ant或Maven脚本,用于编译和打包项目。 3. **文档**:可能包括用户指南、API文档和开发手册,帮助...
标题和描述都表明这是一份关于Heritrix学习的宝贵资料集合,包含了一系列的教程和经验分享。 首先,我们来看"利用Heritrix构建特定站点爬虫.mht"这个文件。这个文件很可能详细介绍了如何定制Heritrix来抓取特定网站...
1. **Heritrix简介**: Heritrix是由Internet Archive开发的,旨在提供一个灵活且可定制的框架,用于抓取互联网上的静态和动态内容。它支持深度爬取,可以处理各种网页类型,包括HTML、XML、图片、视频等。Heritrix...
Heritrix是一个强大的开源网络爬虫工具,用于批量抓取互联网上的网页。它提供了一种高效、可配置的方式来收集和处理网页数据。本篇将详细解释Heritrix系统的使用、核心概念、工作原理以及关键组件。 首先,Heritrix...
1. **配置管理**:Heritrix的一大特点是其高度可配置性。用户可以通过修改配置文件来定制爬虫的行为,比如设置爬取深度、限制爬取速率、排除特定域名等。在“heritrix-1.12.1”中,你会看到许多配置文件,如...
heritrix-1.12.1-src.zip与heritrix 配置文档
1. Heritrix3的定位与功能:Heritrix3是一个开源网络爬虫,用于归档网页数据,特点是易于扩展和自定义。 2. 内容提取的重要性:网络爬虫抓取网页后,需要对内容进行提取,以便将非结构化的数据转换为结构化的信息,...
3. **Heritrix运行与配置**:在`Heritrix1/src/org/archive/crawler/Heritrix.java`文件中启动Heritrix后,服务会在本地的8089端口监听。通过访问`https://localhost:8089`,我们可以使用内置的Web管理界面进行配置...
- 修改`heritrix.properties`中的相关配置,如`heritrix.cmdline.admin`。 - 运行Heritrix应用并验证功能。 #### 三、Heritrix工作原理 Heritrix的工作原理基于深度优先搜索算法,其核心流程包括: 1. **爬取任务...
1. **架构设计**:Heritrix采用模块化设计,由一系列可插拔的组件构成,如种子管理器、链接解析器、内容处理器等,使得系统具有很高的灵活性和可扩展性。 2. **工作流程**:Heritrix的工作流程主要包括种子启动、...
在配置阶段,你需要修改 heritrix/conf/heritrix.properties 文件。找到 "heritrix.cmdline.admin=" 行,将其改为 "heritrix.cmdline.admin=admin:admin",这会设置默认的管理员账号和密码。 最后,你需要运行项目...
3. 修改C:/heritrix/conf/heritrix.properties文件。这里有两个关键配置:`heritrix.cmdline.admin = admin:770629`(用户名和密码)和`heritrix.cmdline.port = 8080`(Heritrix服务的默认端口号,如果8080端口未被...
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...