`
Eric_2007
  • 浏览: 24881 次
  • 性别: Icon_minigender_1
  • 来自: 辽宁
社区版块
存档分类
最新评论

Heritrix1.14.1在Eclipse下的配置总结(续)

    博客分类:
  • Java
阅读更多

前面做了一个Heritrix1.14.1在Eclipse下的配置总结,那种配置方法虽然可以在Eclipse把Heritrix运行起来,但是存在在WUI下建立JOB时,存在“Modules界面不能改变选择项”的问题。
  因此又试了一下,如果能够按以下方法配置,即可正常启动,并且不再发生上面提到的问题。简要说明如下:
  1、下载heritrix-1.14.1-src.zip和heritrix-1.14.1.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;
  2、在Eclipse下新建Java项目,取名Heritrix.1.14.1;
  3、复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下;
  4、复制SRC包下src下conf文件夹到项目根目录;
  5、复制SRC包下lib文件夹到项目根目录;
  6、复制ZIP包下webapps文件夹到项目根目录;
  7、修改项目下conf下heritrix.properties文件(修改内容同前)
  8、在项目上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成!
  9、在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行->java应用程序->命名为Heritrix->类路径选项卡->高级->添加文件夹->选择项目下conf文件夹,最后点击运行
  运行后控制台信息如下:

10:47:59.929 EVENT  Starting Jetty/4.2.23
10:48:00.054 WARN!! Delete existing temp dir C:\DOCUME~1\ycf\LOCALS~1\Temp\Jetty_127_0_0_1_8088__ for WebApplicationContext[/,jar:file:/E:/projects/eclipse_workspace/HERITRIX1.14.1b/webapps/admin.war!/]
10:48:00.398 EVENT  Started WebApplicationContext[/,Heritrix Console]
10:48:01.163 EVENT  Started SocketListener on 127.0.0.1:8088
10:48:01.163 EVENT  Started org.mortbay.jetty.Server@1f6f0bf
Heritrix version: 1.14.1

  heritrix.properties

##############################################################################
# HERITRIX PROPERTIES
##############################################################################

# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix 
# get copied into System.properties on startup so available via 
# System.getProperties. (For 'system.' properties, that prefix is stripped.
# (See Heritrix.loadProperties()). 

# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = 1.14.1

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8088
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

##############################################################################
# LOGGING
##############################################################################
 

  在浏览器地址栏输入:http://127.0.0.1:8088/即可登录WUI,输入用户名:admin密码:admin,即可登录设置抓取任务。

 

 

分享到:
评论

相关推荐

    Eclipse下配置Heritrix

    Eclipse下配置Heritrix,具体配置步骤详细介绍。

    heritrix抓取的操作和扩展

    核心配置文件`heritrix.properties`位于`conf`目录下,其中包含了Heritrix运行所需的许多参数,如WebUI登录信息、日志格式等。首次启动时,需在此文件中设置WebUI的用户名和密码,例如`heritrix.cmdline.admin=admin...

    Heritrix在Eclipse中的源文件

    在Eclipse这样的集成开发环境中配置Heritrix源文件,可以方便开发者进行定制化开发、调试和理解Heritrix的工作原理。下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了...

    heritrix正确完整的配置heritrix正确完整的配置

    2. **配置文件结构**: Heritrix的配置基于XML文件,主要包含`job.xml`(作业配置)、`engine.xml`(引擎配置)和各种模块的配置文件。理解这些文件的结构和作用是配置Heritrix的基础。 3. **作业配置** (`job.xml`)...

    heritrix-1.14.4控制台可执行版本

    近期需要使用heritrix-1.14.4,配了半天才配好,这个是控制台...注意:解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 使用控制台命令启动 : heritrix --admin=admin:admin

    很好的heritrix学习资料

    "Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...

    heritrix的安装和配置[归纳].pdf

    - 如果Eclipse的工作空间位于`D:\eclipse\search`,则新建的项目将在`D:\eclipse\search\Heritrix`目录下。 3. **配置Heritrix** - 将`heritrix-1.14.1.zip`解压后得到的`lib`目录下的所有JAR文件添加到项目的...

    Heritrix的安装与配置

    配置过程还包括将`src\conf\`目录下的所有文件和文件夹拖入Eclipse的`Heritrix`工程的`src`目录。`heritrix.properties`文件是Heritrix的主要配置文件,你可以在这里设置管理界面的用户名和密码,例如"admin:admin...

    Heritrix搭建好的工程

    在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...

    heritrix-1.4.4 源代码(eclipse可执行)

    在本案例中,"heritrix-1.4.4 源代码(eclipse可执行)" 表示这个压缩包包含了Heritrix 1.4.4版本的所有源码,这些源码是为Eclipse IDE准备的,可以直接在Eclipse环境下编译和运行。Eclipse是一款强大的Java集成开发...

    heritrix 的详细配置 与 使用资料

    在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个...

    heritrix下载及配置

    Heritrix是一款开源的网络...总结来说,Heritrix的下载与配置涉及到文件的解压、配置文件的修改、Eclipse工程的构建和启动。完成这些步骤后,你将能够通过Web界面管理Heritrix的爬虫任务,实现对互联网内容的高效抓取。

    Heritrix在windows下运行成功

    其在Windows环境下成功运行的过程及配置细节,涉及到了Java环境的搭建、Heritrix软件的安装与配置、以及运行参数的设置,以下是对这些知识点的详细解析: ### 一、Java环境搭建 Heritrix基于Java平台运行,因此...

    Heritrix 配置

    总结来说,配置Heritrix开发环境涉及下载源码和二进制文件,创建Eclipse项目,复制源代码和资源文件,配置系统属性,添加库文件,以及最终运行Heritrix主类。这个过程确保了开发者能够在本地环境中进行Heritrix的...

Global site tag (gtag.js) - Google Analytics