0 0

Heritrix扩展Extractor30

我用的版本是Heritrix1.14.0,扩展了Extractor,该Extractor通过正则表达式提取url,但是PostProcessor并没有收到该Extractor提取出的URL。
以下是部分代码,其中uri是提取出的链接,该链接格式正确。
private void addLinkFromString(CrawlURI curi, String uri,
CharSequence context, char hopType){
try {
curi.createAndAddLinkRelativeToBase(uri, context.toString(),hopType);
} catch (URIException e) {
System.out.println("出错了!"+uri);
}
}
2011年10月14日 17:32

2个答案 按时间排序 按投票排序

0 0

e.prinstack(0

2011年10月14日 21:38
0 0

} catch (URIException e) {
打印堆栈,我看看异常

2011年10月14日 21:37

相关推荐

    heritrix 中文API (自己整理) 网络爬虫

    Heritrix的这些链结构使得开发者可以根据需要定制复杂的爬虫策略,通过调整和扩展各个链中的处理器,实现对网络内容的精确抓取和处理。无论是处理DNS解析、HTTP请求,还是从各种格式的文档中提取链接,Heritrix的...

    heritrix-1.14.4

    Heritrix的核心组件包括调度器(Scheduler)、种子管理器(Seed Manager)、链接解析器(Link Extractor)、内容处理器(Content Handler)和存储器(Store)。调度器负责决定何时以及如何访问哪个URL;种子管理器则...

    heritrix3.1

    对于开发者来说,Heritrix 的强大之处在于其高度可扩展性和可定制性。你可以通过编写自定义模块来改变爬取行为,例如修改链接提取规则、增加新的数据处理器或改变存储格式。Heritrix 使用Spring框架进行依赖注入,...

    heritrix抓取指南

    - 选择Extractors,依次选择`org.archive.crawler.extractor.ExtractorHTTP`和`org.archive.crawler.extractor.ExtractorHTML`。 - 选择Writers,选择`org.archive.crawler.writer.MirrorWriterProcessor`。 - ...

    heritrix的学习-源码分析 1-10

    4. **扩展功能**:根据需求定制规则和插件,扩展Heritrix的功能。 通过上述分析,可以看出Heritrix的设计非常注重模块化和灵活性,这为开发者提供了很大的自由度去定制自己的爬虫系统。对于初学者而言,建议从理解...

    Heritrix在电子信息垂直搜索平台中的应用.pdf

    Heritrix是一个强大的网络爬虫框架,常用于构建电子信息垂直搜索平台。...开发者可以根据实际项目需求,对Heritrix的各个组件进行扩展和调整,以实现更高效、针对性更强的网络数据抓取和搜索功能。

    Java爬虫技术框架之Heritrix框架详解

    它的最大特点在于其强大的可扩展性,允许开发者根据需求自由选择或扩展不同的组件,实现定制化的抓取策略。 **一、Heritrix框架介绍** Heritrix采用模块化设计,由核心类和插件模块组成。核心类是不可覆盖的,但...

    基于Heritrix的主题网络爬虫设计与实现.pdf

    - **Processors**:一系列处理单元,如PreProcessor(预处理器)、Fetcher(抓取器)、Extractor(提取器)、Writer(写入器)和PostProcessor(后处理器),这些组件可以根据需求进行组合以完成复杂的处理流程。...

    heritrix相关文档(定时任务,增量,多线程)[收集].pdf

    它的设计目标是提供高度可配置性和扩展性,以适应各种复杂的抓取任务。本文将深入解析Heritrix的架构及其增量抓取的实现策略。 Heritrix的架构主要包括以下几个核心组件: 1. **Web Administrative Console**:这...

    论文研究-基于图书搜索引擎爬虫系统的关键技术研究和实现 .pdf

    本文深入探讨了设计和开发网络爬虫过程中的关键技术与难点,并对Heritrix爬虫框架的源码进行了分析,进而定制和扩展了爬虫的Extractor、QueueAssignmentPolicy和过滤器等组件,以实现对异步加载网页的高效抓取,并...

Global site tag (gtag.js) - Google Analytics