heritrix爬取动态网页 - - ITeye博客

`

richiewlq

浏览: 1391 次
性别:
来自: 北京

最近访客更多访客>>

lhb3015

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1)

社区版块

存档分类

2008-07 ( 1)
更多存档...

最新评论

凤凰山：我也希望得到该方面的答案，希望知道的朋友能够详述下，谢谢
heritrix爬取动态网页
richiewlq：过滤一下URL? 我确实要抓这个东西，希望能说的再清楚些
heritrix爬取动态网页
zzxplayful：可以重写一下FrontierScheduler类，写一个类来继 ...
heritrix爬取动态网页

heritrix爬取动态网页

阅读更多

刚接手heritrix,试了一试，抓取文件很顺利，可是却发现了一个问题。
用heritrix抓取了jsp文件，可是抓取的文件名如下：show_hotelshopid=102&catid=2.jsp
可实际想要的url是show_hotel.jsp？shopid=102&catid=2
如何将文件名与url相关联起来？
要重写writer么？或是其他
由于windows file system不允许"?"出现在文件名中，这个限制造成了这一麻烦，可是怎么解决呢？

分享到：

2008-07-31 16:50
浏览 1391
评论(3)
论坛回复 / 浏览 (3 / 4752)
分类:企业架构
查看更多

评论

3 楼凤凰山 2009-04-18

我也希望得到该方面的答案，希望知道的朋友能够详述下，谢谢

2 楼 richiewlq 2008-08-01

过滤一下URL?
我确实要抓这个东西，希望能说的再清楚些

1 楼 zzxplayful 2008-07-31

可以重写一下FrontierScheduler类，写一个类来继承FrontierScheduler，过滤一下URL就可以了

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Heritrix 源码和Jar: Lucene是一个高性能、全文本搜索引擎库，可以用于索引Heritrix爬取的网页内容。将Heritrix与Lucene结合使用，可以快速建立一个强大的网页搜索引擎。 6. **Direct Web Remoting (DWR)**： DWR允许在浏览器端直接...

lucene_heritrix 搜索引擎: 首先，Heritrix爬取互联网上的网页，并将其存储为本地文件。然后，这些文件可以被Lucene读取并建立索引。用户通过搜索接口提交查询，Lucene会快速查找匹配的索引条目，返回相关的搜索结果。这种组合提供了从海量网页...

开发自己的搜索引擎lucene+heritrix（第2版）（ch13-ch15源码）: 1. **数据流集成**：Heritrix爬取的网页内容可以被直接送入Lucene进行索引，实现对互联网内容的实时搜索。 2. **深度搜索**：结合Heritrix的爬虫能力，Lucene的搜索引擎可以对互联网上的大量数据进行深度搜索，提高...

网络爬虫Heritrix1.14.4可直接用: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本，但依然具有广泛的适用性，尤其对于学习和研究网络爬虫技术...

基于Lucene的小型搜索引擎: 通过Heritrix爬取数据，利用Lucene建立高效索引，JSP实现交互界面，形成了一套完整的搜索引擎系统。这样的实践项目不仅有助于理解搜索引擎的工作原理，也为实际的网页搜索应用提供了基础框架。对于学习和研究搜索...

开发自己的搜索引擎——Lucene+Heritrix(第2版)_随书光盘.rar: 这涵盖了从数据获取（通过Heritrix爬取网页）、预处理（使用Lucene进行文本分析和索引）到搜索查询（利用Lucene的查询引擎）的整个流程。对于想从事搜索引擎开发或者对信息检索感兴趣的开发者来说，这是一个非常有...

heritrix爬虫安装部署: Heritrix的设计初衷是为了满足大规模网页归档的需求，但因其灵活的架构和丰富的API，也被广泛应用于数据挖掘、搜索引擎优化等领域。 #### 二、Heritrix下载、安装与配置 ##### 2.1 下载 - **下载地址**: 通常可以从...

搜索引擎Lucene+Heritrix(第二版)4: 首先，Heritrix负责爬取互联网上的网页，生成一个网页集合。接着，Lucene对这些网页内容进行处理，建立倒排索引。最后，当用户输入查询时，Lucene根据查询语句在索引中寻找匹配的文档，并按照相关性排序返回结果。 ...

heritrix1.14.0jar包: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取和保存网页数据。在IT行业中，爬虫是获取大量网络数据的重要手段，Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

Heritrix爬虫框架完整版: 3. **多线程处理**：Heritrix支持多线程爬取，能同时处理多个连接，提高了爬取效率，尤其是在处理大量网页时。 4. **元数据管理**：Heritrix能够收集并存储关于抓取内容的元数据，如HTTP响应头、网页编码、抓取时间...

heritrix爬虫工具的使用: Heritrix是一款开源的网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取互联网上的网页和资源。这个强大的工具允许用户自定义抓取策略，以便于构建自己的网络数据采集系统。Heritrix提供了高度可配置...

Heritrix-User-Manual.rar_heritrix: Heritrix是一款开源的网络爬虫工具，专为大规模、可扩展的网页抓取而设计。这个名为"Heritrix-User-Manual.rar_heritrix"的压缩包包含了Heritrix用户手册的PDF版本，是学习和操作Heritrix的重要资源。下面将详细介绍...

heritrix-3.2.0: - **深度爬取**：Heritrix 能够按照预设的规则持续地抓取互联网上的网页，从一个种子URL开始，深入到链接的页面，实现深度爬取。 - **可配置性**：通过XML配置文件，用户可以设置爬取策略，如抓取频率、深度限制、...

heritrix源码: Heritrix是互联网档案（Internet Archive）开发的一款开源网络爬虫工具，用于系统地抓取、存储和归档网页。这个“Heritrix源码”压缩包可能包含了Heritrix项目的完整源代码，以及相关的学习资料，对于深入理解...

Heritrix(windows版): Heritrix的配置文件允许你定制爬虫的行为，比如设置爬取深度、定义过滤规则以及指定目标URL。 2. **heritrix-3.1.0-src.zip**：这个文件包含了Heritrix的源代码，适合开发者或者希望对软件进行定制的用户。通过源...

Heritrix搭建好的工程: Heritrix是一款强大的开源网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取和保存网页内容。这款工具被设计为可扩展和高度配置的，允许用户根据特定需求定制爬取策略。在本工程中，Heritrix已经被预...

heritrix系统使用.ppt: Heritrix是一个强大的开源网络爬虫工具，用于批量抓取互联网上的网页。它提供了一种高效、可配置的方式来收集和处理网页数据。本篇将详细解释Heritrix系统的使用、核心概念、工作原理以及关键组件。首先，Heritrix...

heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip: Heritrix是一个开源的网络爬虫工具，由互联网档案馆（Internet Archive）开发，用于抓取和保存网页。Heritrix 1.14.4是该工具的一个版本，提供了两个压缩包：`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这...

Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip: Heritrix是一个开源的网络爬虫工具，专为大规模网页抓取设计。它是由Internet Archive开发的，允许用户系统地、可配置地抓取互联网上的信息。Heritrix的版本1.4.4是一个较旧但仍然有其价值的版本，因其稳定性而被...

Global site tag (gtag.js) - Google Analytics