`
yeniu040209
  • 浏览: 30114 次
  • 来自: 浙江台州
社区版块
存档分类
最新评论

Heritrix配置

阅读更多
1)下载heritrix-1.14.3-src.zip
2)解压,并在eclipse3.2中配置heritrix工程
3)jdk1.5及以上,compliance level 1.5及以上
4)文件配置如下,将src/conf和src/webapps目录放到工程目录下面
5)修改conf目录下面的heritrix.properties文件,两个地方:
       @VERSION@ 改为 1.14.3
      heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm
      heritrix.cmdline.port =  改为 heritrix.cmdline.port = 8080
6)将conf目录下面的modules目录放到src/java目录下面
7)运行heritrix.java文件即可运行heritrix
8)heritrix的最大特定就是,抓取内容可定制,所以主要是自编两个类
      继承Extractor,实现extractor方法,对网页的特定内容进行抓取
     继承 FrontierScheduler,复写 schedule方法,抓取到的链接等放入到抓取列表
9)特别注意,如果自己实现Extractor类,那么必须实现构造函数
      构造函数(String name) {
this(name, "***");
      }
   如果不实现这个构造函数,那么就会报如下错误
    java.lang.reflect.InvocationTargetException

到此heritrix已经可以启动,并且可以定制自己的抓取任务了。接下来就是找个项目来试验如何抓取网页内容,并且如果结合lucene来实现垂直搜索引擎。


自悟:
自立、事业、少说多做、实干
分享到:
评论

相关推荐

    heritrix正确完整的配置heritrix正确完整的配置

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于...同时,文档阅读和社区交流也是学习Heritrix配置的重要途径。记得在实践中不断测试和完善配置,以实现高效、可控的网络爬取任务。

    heritrix 配置

    heritrix 配置 网络爬虫 工具 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix...

    heritrix-1.12.1-src.zip与heritrix 配置文档

    heritrix-1.12.1-src.zip与heritrix 配置文档

    Heritrix 配置

    它的配置和部署过程对于开发者来说是至关重要的,以下将详细讲解如何在Eclipse环境中配置Heritrix的开发环境。 首先,你需要下载两个压缩包:heritrix-1.14.3-src.zip和heritrix-1.14.3.zip。SRC包包含了源代码,...

    Heritrix在Eclipse中的源文件

    在Eclipse这样的集成开发环境中配置Heritrix源文件,可以方便开发者进行定制化开发、调试和理解Heritrix的工作原理。下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了...

    Heritrix1.14.3配置流程

    Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具

    Myeclipse下Heritrix1.14.4 图文环境搭建和配置

    1. 当Heritrix配置完成后,可以将其打包为可执行的jar文件,便于在其他环境中运行。 2. MyEclipse提供了方便的打包工具,选择“Export” -> “Java” -> “Runnable JAR file”,根据向导完成打包过程。 通过以上...

    开发自己的搜索引擎--Lucene+Heritrix.zip

    1. **网页抓取**:使用Heritrix配置和启动爬虫,定义爬取范围和策略。Heritrix会按照设定的规则抓取网页并存储在本地或远程存储系统中。 2. **内容预处理**:爬取下来的网页可能包含HTML标签和JavaScript等非文本...

    Heritrix用户手册

    Heritrix用户手册,Heritrix简介与入门 Heritrix配置与开发指南

    在heritrix中使用pagerank算法

    3. **Heritrix配置与编程** - **Java编程**:Heritrix使用Java编写,你需要具备Java编程能力,理解Heritrix的API和架构。 - **配置文件**:修改Heritrix的配置文件(如`crawldb.xml`,`fetcher.xml`等),指定...

    配置Heritrix及常见问题解决

    在配置Heritrix时,我们需要理解其核心概念,如工作流、存档项和处理器。 1. **工作流(Workflow)**: Heritrix的工作流定义了爬虫如何处理每个URL。它由一系列的处理器组成,每个处理器负责特定的任务,如HTTP...

    Heritrix的安装与配置

    在本文中,我们将深入探讨如何安装和配置Heritrix 1.14.4版本,这是一个基于Java的爬虫工具。 首先,我们需要从SourceForge网站下载Heritrix的源代码版本,文件名为`heritrix-1.14.4-src.zip`。选择源代码版本的...

    heritrix 的详细配置 与 使用资料

    在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个...

Global site tag (gtag.js) - Google Analytics