heritrix在爬取数据的时候遇到死链会怎么样？ - ITeye问答

问答首页 → 综合技术

0 0

heritrix在爬取数据的时候遇到死链会怎么样？5

heritrix不是一开始就能设置seeds初始链吗，比如我就设置了一个，那么heritrix在沿着这个url爬的时候遇到死链会怎么样？
如果我seeds在一开始设置了多个url，而这些url里面本身就有一些是死链，那对hritrix爬数据又有什么影响？
最后一个问题，我做的是宁波地区的通用搜索引擎（只局限于搜索宁波地区的信息），那么heritrix该以什么思路拓展呢？请老师们，能不能给一个思路？

2011年8月23日 09:36

wangxiaolongbob
0
0 0 0

1个答案按时间排序按投票排序

0 0

heritrix 中在关于访问“礼节性”的配置，比如：访问同一host的间隔时间，等等。
还有配置timeout的配置，和访问重试的次数，这些都可以配置。

至于只访问宁波地区的信息，可以在过滤连中添加“区域过滤器”，符合条件就accpet，不符合就refuse。这样就可以了。

上面这些针对Heritrix 3.1.1,2.X的版本我不熟悉。

2011年9月07日 16:10

baggio_gan
17
0 0 0

添加评论

相关推荐

扩展Heritrix3指定链接爬取: 在网上找了许多关于Heritrix的资源，但是关于新版本heritrix3的资源很少，最近由于项目需要，认真读了heritrix的源码，扩展了Heritrix3指定链接提取，内容详细，可以在实际中使用。

网络爬虫Heritrix1.14.4可直接用: 3. **Heritrix运行与配置**：在`Heritrix1/src/org/archive/crawler/Heritrix.java`文件中启动Heritrix后，服务会在本地的8089端口监听。通过访问`https://localhost:8089`，我们可以使用内置的Web管理界面进行配置...

heritrix爬虫工具的使用: 3. **爬取策略**：Heritrix支持多种爬取策略，如深度优先、广度优先等。你可以根据需要选择合适的策略，或者自定义策略以满足特定需求。 4. **排除规则**：为了避免抓取不必要的内容或尊重网站的robots.txt协议，...

Heritrix在Windows下的运行: 运行Heritrix时可能会遇到网络连接问题、权限问题、内存不足等问题。确保你的网络环境畅通，调整Java堆大小（通过修改`start-heritrix3.cmd`中的`-Xms`和`-Xmx`参数），并查阅Heritrix的官方文档或社区论坛寻求帮助...

很好的heritrix学习资料: 这份资料可能会涵盖Heritrix在企业环境中的具体应用，如数据收集、数据分析前的预处理步骤等，同时也可能涉及Java编程相关的知识，因为Heritrix是用Java编写的，理解其内部机制需要一定的Java基础。 "heritrix学习...

heritrix爬虫安装部署: Heritrix的设计初衷是为了满足大规模网页归档的需求，但因其灵活的架构和丰富的API，也被广泛应用于数据挖掘、搜索引擎优化等领域。 #### 二、Heritrix下载、安装与配置 ##### 2.1 下载 - **下载地址**: 通常可以从...

Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip: "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境，对Java项目的支持非常全面，因此它是...

heritrix1.14.0jar包: 在IT行业中，爬虫是获取大量网络数据的重要手段，Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题中的"heritrix1.14.0jar包"指的是Heritrix的1.14.0版本的Java档案文件（JAR），这是运行或构建Heritrix爬虫...

搜索引擎Lucene+Heritrix(第二版)4: 4. **Lucene与Heritrix的集成**：在实际应用中，通常会将Heritrix抓取的网页数据导入到Lucene中进行索引。这需要一个数据处理流程，包括网页内容的提取、预处理（如HTML去噪、内容提取等），然后将处理后的文本送入...

Heritrix在Eclipse中的源文件: Heritrix是一个开源的互联网爬虫工具，由Internet Archive开发并维护，用于抓取和保存网页数据。在Eclipse这样的集成开发环境中配置...在实际操作中，参考提供的文档"Heritrix在Eclipse中的配置.doc"会更加方便。

Heritrix+Lucene搜索例子: 在实际应用中，你可能会遇到性能优化的问题，比如通过批量添加文档来提高索引速度，或者使用分布式Lucene（如Solr或Elasticsearch）来处理大规模数据。此外，还需要考虑索引更新和维护，当Heritrix抓取到新的网页时...

heritrix源码: 3. **配置与策略**：Heritrix通过XML配置文件定义爬取行为，如设置种子URL、选择爬取策略、过滤规则等。策略可以定制，比如深度优先、广度优先、基于链接关系的爬取等。 4. **链接管理**：Heritrix使用Crawler-...

Heritrix爬虫框架完整版: 3. **多线程处理**：Heritrix支持多线程爬取，能同时处理多个连接，提高了爬取效率，尤其是在处理大量网页时。 4. **元数据管理**：Heritrix能够收集并存储关于抓取内容的元数据，如HTTP响应头、网页编码、抓取时间...

heritrix-3.4.0-SNAPSHOT-dist.zip: 因此，使用这个版本时，用户可能会遇到一些未解决的问题或者新特性。 Heritrix的特点包括： 1. **模块化设计**：Heritrix的核心组件是高度模块化的，这使得用户可以根据需求自由组合和配置各个组件，如下载器、...

基于Lucene的小型搜索引擎: 在本案例中，Heritrix被用来爬取百度音乐的相关页面，获取音乐信息，如歌曲名、歌手、歌词等。抓取到的数据需要进一步处理，以便于后续的索引建立。页面内容通常以HTML格式存在，需要解析提取出关键信息。这一步...

Heritrix搭建好的工程: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取和...通过深入理解和熟练运用Heritrix，你可以构建自己的网络爬虫，用于数据挖掘、网站备份或其他需要大规模网页抓取的场景。

heritrix系统使用.ppt: 在Heritrix系统中，爬取过程可以分为四个关键部分： 1. **Page Fetching**：这是从Frontier获取URI并处理的过程。Heritrix提供了FetchHTTP、FetchFTP和FetchDNS等方法来分别处理HTTP、FTP和DNS请求。每个URI会经过...

lucene_heritrix 搜索引擎: Lucene和Heritrix是两个在信息技术领域中用于搜索引擎构建的重要工具。Lucene是一个高性能、全文本搜索库，由Apache软件基金会开发，它提供了一个简单的API来索引和搜索大量文本数据。Heritrix，另一方面，是一个...

Heritrix(windows版): Heritrix的配置文件允许你定制爬虫的行为，比如设置爬取深度、定义过滤规则以及指定目标URL。 2. **heritrix-3.1.0-src.zip**：这个文件包含了Heritrix的源代码，适合开发者或者希望对软件进行定制的用户。通过源...

heritrix-3.2.0: - **错误处理**：遇到网页访问错误时，Heritrix 可以自动重试或者跳过，保证爬取的连续性。 - **分布式爬取**：虽然单个Heritrix实例已足够强大，但通过集群部署，可以实现更大规模的分布式爬取。 3. **压缩包...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics