`
richiewlq
  • 浏览: 1366 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

heritrix爬取动态网页

阅读更多
刚接手heritrix,试了一试,抓取文件很顺利,可是却发现了一个问题。
用heritrix抓取了jsp文件,可是抓取的文件名如下:show_hotelshopid=102&catid=2.jsp
可实际想要的url是show_hotel.jsp?shopid=102&catid=2
如何将文件名与url相关联起来?
要重写writer么?或是其他
由于windows file system不允许"?"出现在文件名中,这个限制造成了这一麻烦,可是怎么解决呢?
分享到:
评论
3 楼 凤凰山 2009-04-18  
我也希望得到该方面的答案,希望知道的朋友能够详述下,谢谢
2 楼 richiewlq 2008-08-01  
过滤一下URL?
我确实要抓这个东西,希望能说的再清楚些
1 楼 zzxplayful 2008-07-31  
可以重写一下FrontierScheduler类,写一个类来继承FrontierScheduler,过滤一下URL就可以了

相关推荐

    Heritrix 源码和Jar

    Lucene是一个高性能、全文本搜索引擎库,可以用于索引Heritrix爬取的网页内容。将Heritrix与Lucene结合使用,可以快速建立一个强大的网页搜索引擎。 6. **Direct Web Remoting (DWR)**: DWR允许在浏览器端直接...

    lucene_heritrix 搜索引擎

    首先,Heritrix爬取互联网上的网页,并将其存储为本地文件。然后,这些文件可以被Lucene读取并建立索引。用户通过搜索接口提交查询,Lucene会快速查找匹配的索引条目,返回相关的搜索结果。这种组合提供了从海量网页...

    开发自己的搜索引擎lucene+heritrix(第2版)(ch13-ch15源码)

    1. **数据流集成**:Heritrix爬取的网页内容可以被直接送入Lucene进行索引,实现对互联网内容的实时搜索。 2. **深度搜索**:结合Heritrix的爬虫能力,Lucene的搜索引擎可以对互联网上的大量数据进行深度搜索,提高...

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    基于Lucene的小型搜索引擎

    通过Heritrix爬取数据,利用Lucene建立高效索引,JSP实现交互界面,形成了一套完整的搜索引擎系统。这样的实践项目不仅有助于理解搜索引擎的工作原理,也为实际的网页搜索应用提供了基础框架。对于学习和研究搜索...

    开发自己的搜索引擎——Lucene+Heritrix(第2版)_随书光盘.rar

    这涵盖了从数据获取(通过Heritrix爬取网页)、预处理(使用Lucene进行文本分析和索引)到搜索查询(利用Lucene的查询引擎)的整个流程。对于想从事搜索引擎开发或者对信息检索感兴趣的开发者来说,这是一个非常有...

    heritrix爬虫安装部署

    Heritrix的设计初衷是为了满足大规模网页归档的需求,但因其灵活的架构和丰富的API,也被广泛应用于数据挖掘、搜索引擎优化等领域。 #### 二、Heritrix下载、安装与配置 ##### 2.1 下载 - **下载地址**: 通常可以从...

    搜索引擎Lucene+Heritrix(第二版)4

    首先,Heritrix负责爬取互联网上的网页,生成一个网页集合。接着,Lucene对这些网页内容进行处理,建立倒排索引。最后,当用户输入查询时,Lucene根据查询语句在索引中寻找匹配的文档,并按照相关性排序返回结果。 ...

    heritrix1.14.0jar包

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页数据。在IT行业中,爬虫是获取大量网络数据的重要手段,Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

    Heritrix爬虫框架 完整版

    3. **多线程处理**:Heritrix支持多线程爬取,能同时处理多个连接,提高了爬取效率,尤其是在处理大量网页时。 4. **元数据管理**:Heritrix能够收集并存储关于抓取内容的元数据,如HTTP响应头、网页编码、抓取时间...

    heritrix爬虫工具的使用

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取互联网上的网页和资源。这个强大的工具允许用户自定义抓取策略,以便于构建自己的网络数据采集系统。Heritrix提供了高度可配置...

    Heritrix-User-Manual.rar_heritrix

    Heritrix是一款开源的网络爬虫工具,专为大规模、可扩展的网页抓取而设计。这个名为"Heritrix-User-Manual.rar_heritrix"的压缩包包含了Heritrix用户手册的PDF版本,是学习和操作Heritrix的重要资源。下面将详细介绍...

    heritrix-3.2.0

    - **深度爬取**:Heritrix 能够按照预设的规则持续地抓取互联网上的网页,从一个种子URL开始,深入到链接的页面,实现深度爬取。 - **可配置性**:通过XML配置文件,用户可以设置爬取策略,如抓取频率、深度限制、...

    heritrix源码

    Heritrix是互联网档案(Internet Archive)开发的一款开源网络爬虫工具,用于系统地抓取、存储和归档网页。这个“Heritrix源码”压缩包可能包含了Heritrix项目的完整源代码,以及相关的学习资料,对于深入理解...

    Heritrix(windows版)

    Heritrix的配置文件允许你定制爬虫的行为,比如设置爬取深度、定义过滤规则以及指定目标URL。 2. **heritrix-3.1.0-src.zip**:这个文件包含了Heritrix的源代码,适合开发者或者希望对软件进行定制的用户。通过源...

    Heritrix搭建好的工程

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页内容。这款工具被设计为可扩展和高度配置的,允许用户根据特定需求定制爬取策略。在本工程中,Heritrix已经被预...

    heritrix系统使用.ppt

    Heritrix是一个强大的开源网络爬虫工具,用于批量抓取互联网上的网页。它提供了一种高效、可配置的方式来收集和处理网页数据。本篇将详细解释Heritrix系统的使用、核心概念、工作原理以及关键组件。 首先,Heritrix...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix是一个开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    Heritrix是一个开源的网络爬虫工具,专为大规模网页抓取设计。它是由Internet Archive开发的,允许用户系统地、可配置地抓取互联网上的信息。Heritrix的版本1.4.4是一个较旧但仍然有其价值的版本,因其稳定性而被...

Global site tag (gtag.js) - Google Analytics