`
landows
  • 浏览: 18208 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

关于heritrix FrontierScheduler扩展配置

 
阅读更多
关于heritrix FrontierScheduler扩展配置

两种方式:
1.在扩展FrontierScheduler java工程中src目录下建立modules目录,并在目录下增加Processor.options文件
该文件内容为:com.lv.crawler.LvScheduler|LvScheduler ,其中com.lv.crawler.LvScheduler是继承自FrontierScheduler
最后打包成jar文件,放到heritrix\lib目录,重启就可在Select Post Processors的下拉选项中看到
2.在heritrix的jar文件中的modules目录下的Processor.options增加前面提到的内容,但这种方式不被推荐使用,原因你懂的

以下是heritrix关于Processor.options的配置说明:
To make your module known to Heritrix, you need to make mention of it in the appropriate src/conf/modules file: i.e. if your module is a Processor, it needs to be mentioned in the Processor.options file. The options files get built into the Heritrix jar.

“A little known fact about Heritrix: When trying to read modules/Processor.options Heritrix will concatenate any such files it finds on the classpath. This means that if you write your own processor and wrap it in a jar you can simply include in that jar a modules/Processor.options file with just the one line needed to add your processor. Then simply add the new jar to the $HERITRIX_HOME/lib directory and you are done. No need to mess with the Heritrix binaries. For an example of how this is done, look at the code for this project: deduplicator ” [Kristinn Siguresson on the mailing list, 3281].

If everything seems ok so far, then we are almost ready to write some real modules.
分享到:
评论

相关推荐

    heritrix正确完整的配置heritrix正确完整的配置

    8. **扩展与定制**: Heritrix允许开发自定义模块,以满足特定需求。这可能涉及Java编程,需对Heritrix的架构有深入理解。 9. **异常处理与恢复**: 配置如何处理网络错误、服务器拒绝等问题,以及在中断后如何恢复...

    heritrix抓取的操作和扩展

    通过调整配置和扩展,Heritrix可以适应各种复杂的抓取场景,提供稳定且灵活的服务。然而,由于其丰富的配置选项和复杂的架构,对于新手来说,学习和掌握Heritrix可能需要一定的时间。因此,深入理解Heritrix的工作...

    heritrix 的详细配置 与 使用资料

    在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个...

    heritrix的绿色配置包

    在“Heritrix的绿色配置包”中,我们可以理解为这个压缩包包含了Heritrix的精简版或便携版,可能已经预先配置好了一些基本设置,以便用户快速启动和运行爬虫项目。这种绿色配置通常意味着它不需要复杂的安装过程,...

    heritrix下载及配置

    本篇文章将详细讲解如何下载和配置Heritrix。 首先,Heritrix的下载过程非常简单。你可以访问www.sourceforge.net网站,搜索"heritrix",然后下载两个版本的文件:heritrix-1.14.0-RC1.zip(预编译版本)和heritrix...

    Heritrix的安装与配置

    选择源代码版本的原因在于可能需要对Heritrix进行自定义扩展以满足特定需求。下载完成后,解压缩文件,你会看到两个主要的文件夹:`lib`和`src`。 `lib`文件夹包含了Heritrix运行所需的第三方类库,这些.jar文件...

    Heritrix安装和配置流程

    Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录

    heritrix的配置

    ### Heritrix配置详解 #### 一、Heritrix简介 Heritrix是一款开源的网页爬虫工具,它被设计用于归档网络内容。这款工具能够帮助用户抓取和保存网页资源,支持复杂的爬行策略,是进行互联网数据采集的理想选择之一...

    Heritrix1.14.3配置流程

    Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具

    Eclipse下配置Heritrix

    Eclipse下配置Heritrix,具体配置步骤详细介绍。

    扩展Heritrix3指定内容提取.pdf

    接下来,文档深入分析了扩展接口,提供了关于如何在Heritrix的配置文件中插入新的内容提取器的详细说明。文档指出,FetchChain是整个抓取流程中的关键组成部分,它整合了一系列的抓取组件。这些组件可以按照特定的...

    Heritrix扩展散列算法

    Heritrix扩展散列算法

    扩展Heritrix3指定链接爬取

    在网上找了许多关于Heritrix的资源,但是关于新版本heritrix3的资源很少,最近由于项目需要,认真读了heritrix的源码,扩展了Heritrix3指定链接提取,内容详细,可以在实际中使用。

    网络爬虫Heritrix1.14.4可直接用

    3. **Heritrix运行与配置**:在`Heritrix1/src/org/archive/crawler/Heritrix.java`文件中启动Heritrix后,服务会在本地的8089端口监听。通过访问`https://localhost:8089`,我们可以使用内置的Web管理界面进行配置...

Global site tag (gtag.js) - Google Analytics