`
hj.learning
  • 浏览: 13905 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Windows, Eclipse下开发Heritrix 3.1 (一)环境搭建

阅读更多

花费了大半天时间在Window系统中搭建Heritrix 3.1的Eclipse开发环境。走了些弯路,但最终都搞定。将其中的经验跟大家分一下。
  • 相关软件准备
  • (1)安装JDK1.6, 做java开发的都会,不罗嗦了。
    (2)安装Maven2,版本2.2.1,具体步骤参考:待写教程
    (3)安装Git,具体步骤参考:待写教程
    (4)安装Eclipse,版本eclipse-jee-indigo-SR2-win32

  • 进入正题

  • (1)克隆Git源码库
    cd C:\Users\jHan\Developer\Heritrix3\source //需修改为自己本地实际的路径
    git clone git://github.com/internetarchive/heritrix3.git
    

    或者使用TortoiseGit克隆源码仓库

    (2)获取项目相关依赖包
    进入Command,
    cd C:\Users\jHan\Developer\Heritrix3\source\heritrix3  //heritrix3的源码目录
    mvn -Dmaven.test.skip=true install
    


    (3)修改.classpath文件--需要注意的地方
    源码中自带的.classpath有些问题,缺少一些依赖的jar包。具体如下:
    增加依赖包libidn-1.15.jar和archive-commons-1.0-SNAPSHOT.jar:
    <classpathentry kind="var" path="M2_REPO/org/gnu/inet/libidn/1.15/libidn-1.15.jar"/>
    <classpathentry kind="var" path="M2_REPO/org/archive/archive-commons/1.0-SNAPSHOT/archive-commons-1.0-SNAPSHOT.jar"/>
    
    删除依赖的工程archive-commons:
    <classpathentry combineaccessrules="false" kind="src" path="/archive-commons"/>
    


    (3)导入项目
    打开Eclipse,
    选择File / Import... / Existing Projects Into Workspace,选择C:\Users\jHan\Developer\Heritrix3\source\heritrix3
    


    (4)Eclipse中设置M2_REPO变量
    选择 Project > Properties > Java Build path > 
    选择 Libraries 标签 > Add variable > Configure variables > New
      Name: M2_REPO
      Path: C:/Users/jHan/.m2/repository //路径修改为自己本地maven仓库的实际位置
    


    (5)创建Debug/Run Configuration
    打开 Run / Debug Configurations...
    双击 Java Applications 创建一个新的
    选择 Main class: org.archive.crawler.Heritrix
    在Arguments标签中操作:
    在Program arguments中输入: -a admin:admin -l dist/src/main/conf/logging.properties
    在VM arguments中输入: -Dheritrix.development
    
    0
    7
    分享到:
    评论

    相关推荐

      heritrix3.1 官方指导手册

      Heritrix 3.0 和 3.1 版本对运行环境有一定的要求,主要包括操作系统、Java 版本等方面。具体来说: - **操作系统**:支持多种主流操作系统,如 Windows、Linux 和 macOS。 - **Java 版本**:建议使用 Java 8 或更...

      heritrix 3.1

      Heritrix 3.1是互联网档案馆开发的一款开源网络爬虫工具,专门用于抓取和保存网页。这款强大的爬虫软件广泛应用于学术研究、数据分析、网站备份等多个领域。了解Heritrix 3.1的默认配置以及类之间的关系对于有效使用...

      Eclipse下配置Heritrix

      Eclipse下配置Heritrix,具体配置步骤详细介绍。

      heritrix-3.1.0 最新jar包

      Heritrix 3.1.0 是一个强大的网络爬虫工具,主要用于抓取和存档互联网上的网页。这个最新版本的jar包包含了Heritrix的核心功能,为用户提供了一个高效的网页抓取框架。Heritrix的设计理念是模块化和可配置性,使得它...

      Myeclipse下Heritrix1.14.4 图文环境搭建和配置

      本文将详细阐述如何在MyEclipse环境下搭建和配置Heritrix 1.14.4。 首先,我们需要了解Heritrix的基本概念。Heritrix是一个可编程的、高度模块化的爬虫,支持定制化策略以满足各种抓取需求。它使用Java编写,因此在...

      heritrix3.1

      Heritrix 3.1.0 是一个强大的网络爬虫软件,主要被用于网页抓取、数据挖掘和互联网档案管理。这个源码包包含了项目的源代码以及构建后的可分发文件,让开发者能够深入理解其工作原理并进行定制化开发。 源码分析: ...

      Heritrix搭建好的工程

      在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...

      Heritrix lucene开发自己的搜索引擎(源码)1

      自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的FrontierScheduler类:163mobile 安装:直接在Eclipse中选取“import-&gt;Existing Project”...

      Heritrix在windows下运行成功

      其在Windows环境下成功运行的过程及配置细节,涉及到了Java环境的搭建、Heritrix软件的安装与配置、以及运行参数的设置,以下是对这些知识点的详细解析: ### 一、Java环境搭建 Heritrix基于Java平台运行,因此...

      Heritrix在Windows下的运行

      在Windows环境下运行Heritrix,需要了解一些关键步骤和配置,以便顺利进行网络抓取。 1. **环境准备**: 在Windows上运行Heritrix,首先需要安装Java Development Kit (JDK)。Heritrix是用Java编写的,因此需要JDK...

      Heritrix在Eclipse中的源文件

      在Eclipse这样的集成开发环境中配置Heritrix源文件,可以方便开发者进行定制化开发、调试和理解Heritrix的工作原理。下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了...

      Heritrix的安装与配置

      接下来,我们需要在集成开发环境(IDE)如Eclipse中创建一个新的Java项目,并命名为"Heritrix"。将`lib`文件夹拖入项目工程中,并将所有.jar文件添加到项目的构建路径中。这可以通过选中所有.jar文件,右键点击,...

      Heritrix—开发自己的搜索引擎

      Heritrix是一款强大的开源网络爬虫工具,专为构建自定义搜索引擎而设计。这款软件由互联网档案馆(Internet Archive)开发,旨在系统地抓取、保存并归档互联网上的网页内容。通过使用Heritrix,开发者可以构建自己的...

      很好的heritrix学习资料

      "Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...

      heritrix-1.4.4 源代码(eclipse可执行)

      Eclipse是一款强大的Java集成开发环境,支持各种项目类型的开发,包括Java Web和Java EE应用,因此非常适合处理Heritrix这样的Java项目。 要使用这个压缩包,你需要遵循以下步骤: 1. **下载与解压**:首先从提供...

      开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料

      这里我们关注的是基于开源项目Lucene 2.0和Heritrix的一本书——《开发自己的搜索引擎》的源码资料。Lucene是一个高性能、全文本搜索库,而Heritrix则是一个强大的网页抓取工具,它们共同构成了搜索引擎的基础架构。...

      利用 Heritrix 构建特定站点爬虫

      本章节将详细介绍如何在Eclipse环境下搭建Heritrix开发环境,包括类库导入、源代码拷贝、配置文件修改及运行参数设置等内容。 ##### 1. 导入类库 Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,...

    Global site tag (gtag.js) - Google Analytics