`
li_sir
  • 浏览: 114787 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

在myeclipse配置heritrix1.14.3

    博客分类:
  • java
阅读更多
[/b]最近要做个站内搜索,准备使用heritrix爬行数据,上午照着网上的例子,先使用了个1.14.1版本的,结果发现在module中没add按钮,导致没法改变writer,最后使用1.14.3版本,几经折腾,终于搞成功了。
[b]第一部分,配置heritrix
1,从http://sourceforge.net/网站上搜索heritrix,找到1.14.3版本,下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip,进行解压。
2在myeclipse中创建一个新的java工程heritrix,单击完成。
3,将heritrix-1.14.3-src下src/java目录中org、com和st目录拷到myeclipse项目工程下src目录下
4,将heritrix-1.14.3-src下src目录下conf和resourses文件夹复制到项目工程(heritrix)的根目录下
5,将heritrix-1.14.3(第二个解压包)下的webapps拷到项目工程的根目录下
6,将heritrix-1.14.3-src下lib目录拷到项目工程根目录下(可以不拷,只要构建classpath路径就行),把里面的所有jar都添加到classpath路径下
7,将heritrix-1.14.3-src下src/conf下的profiles拷到项目工程根目录下
8,修改项目工程下conf下的heritrix.properties文件,具体修改如下(红色标记部分):
heritrix.version = 1.14.3

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8080
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

其中heritrix.version版本号,heritrix.cmdline.admin登录用户名和密码,heritrix.cmdline.port 服务端口号
9,在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置->classpath->点击右边的ADVANCED->ADD FOLDERS->选择根目录下的conf->RUN 即可
启动成功,控制台打印
04:49:08.203 EVENT  Starting Jetty/4.2.23
04:49:08.796 EVENT  Started WebApplicationContext[/,Heritrix Console]
04:49:09.140 EVENT  Started SocketListener on 127.0.0.1:8080
04:49:09.140 EVENT  Started org.mortbay.jetty.Server@1f6f0bf
Heritrix version: 1.14.3

运行http://localhost:8080,出现登录页面,输入admin,admin登录成功,标明配置成功。
第二部分 建立Job
登录成功后,进入WEB控制台操作页面,
点击jobs,进入[img]http://dl.iteye.com/upload/picture/pic/65671/07609212-1c7f-34e7-ad4d-a37811a7d8b9.jpg [/img],选择With defaults 项,进入
[img]http://dl.iteye.com/upload/picture/pic/65669/4555ce7d-21fd-3990-9097-51582f4b9be9.jpg [/img],填写相关信息,其中seeds必须是以/结尾
点击Module,主要设置,中remove 掉原有的,add新选择的,然后点击settings,修改[img]http://dl.iteye.com/upload/picture/pic/65677/4a0e13af-f57c-319e-8d5a-b47ba3bcce45.jpg [/img],点击submit job,配置完成,可在Console中启动heritrix,则开始抓取
0
0
分享到:
评论

相关推荐

    Myeclipse下Heritrix1.14.4 图文环境搭建和配置

    本文将详细阐述如何在MyEclipse环境下搭建和配置Heritrix 1.14.4。 首先,我们需要了解Heritrix的基本概念。Heritrix是一个可编程的、高度模块化的爬虫,支持定制化策略以满足各种抓取需求。它使用Java编写,因此在...

    MyEclipse配置数据源

    本文将详细解析如何在MyEclipse环境中配置数据源,以实现与数据库的有效交互,主要聚焦于使用Microsoft SQL Server作为数据库服务器的情况。 ### 一、理解数据源(DataSource)概念 数据源(DataSource)是Java...

    在MyEclipse配置Tomcat5

    在MyEclipse配置Tomcat5 在MyEclipse配置Tomcat5

    MyEclipse中配置JBoss

    本篇将详细讲解如何在MyEclipse中配置JBoss,以便进行无缝的开发与调试。 【配置步骤】 1. **安装MyEclipse**:首先,确保已经安装了MyEclipse。可以从官方网站下载最新版本,并按照指引完成安装。 2. **下载...

    myeclipse配置tomcat服务器

    在深入探讨如何在MyEclipse中配置Tomcat服务器之前,让我们首先理解几个核心概念及其相互关系。MyEclipse、Tomcat以及JDK是构建Web应用程序时不可或缺的三个组件。 #### MyEclipse与Tomcat的关系 - **MyEclipse**...

    myeclipse配置flash bulid

    【描述】:本文将详细介绍如何在MyEclipse 6.5环境下配置并安装Adobe Flex Builder 3插件版,包括所需软件、安装步骤以及在MyEclipse中创建和部署Flex Web工程的方法。 【标签】:“myeclipse 配置 flash bulid” ...

    myeclipse配置tomcat7.0

    在配置Tomcat7.0时,还需要注意一些其他的设置,例如Server的配置、Context的配置、Mapping的配置等等。这些设置都是Tomcat7.0的基本配置,正确地配置这些设置才能确保Tomcat7.0的正常运行。 此外,MyEclipse也提供...

    heritrix的配置

    - 在`F:\workspace\myeclipse\heritrix\heritrix-1.14.1`目录下,删除`org`和`st`两个文件夹。 - 将解压后的`heritrix-1.14.1.src`文件夹下的`heritrix-1.14.1\src\java`目录下的`org`和`st`两个文件夹拷贝到`F:\...

    MyEclipse配置Tomcat服务器教程

    下面将详细讲解如何在MyEclipse中配置Tomcat服务器,这通常分为几个步骤,包括安装、设置以及验证配置。 首先,确保你的开发环境中已经安装了MyEclipse,并且系统中安装了Java Development Kit(JDK),因为Tomcat...

    MyEclipse 配置Tomcat 服务器

    在IT行业中,集成开发环境(IDE)如MyEclipse是Java开发者的重要工具,它提供了丰富的功能,包括代码编辑、调试、构建以及服务器配置等。Tomcat是一款广泛应用的开源Servlet容器,用于部署和运行Java Web应用。本文...

    myeclipse配置svn,附工具,及教程

    本文将详细讲解如何在MyEclipse集成环境中配置 SVN,以实现便捷的代码版本管理。 首先,我们需要了解MyEclipse。MyEclipse是一款强大的Java集成开发环境,它是Eclipse的商业扩展,提供了更多的Web、Java EE、数据库...

    myeclipse配置文件,字体设置,输入提示

    myeclipse配置文件 字体设置 输入提示,帮助新人完成myeclipse的配置,拥有个性化的的字体配置,减少眼睛的疲劳,提高代码的编写效率

    图文教程MyEclipse配置struts+hibernate+spring.doc

    本文档主要讲述了如何在MyEclipse中配置struts、hibernate和spring三个框架,以实现一个完整的Web应用程序。下面是从本文档中提取的重要知识点: 1.struts框架的配置 struts是一个基于MVC模式的Web应用程序框架。...

    Myeclipse10如何安装配置svn(包含配置所需文件)

    本教程将详细讲解如何在MyEclipse 10中安装并配置SVN,以实现高效、安全的代码版本控制。提供的压缩包文件包含了配置所需的全部资料,包括配置文件和详细的说明。 首先,我们需要理解SVN的作用。SVN是一种集中式的...

    MyEclipse10配置Tomcat

    本文将详细介绍如何在 MyEclipse 10 中配置 Tomcat 服务器。 一、打开服务器管理对话框 在 MyEclipse 10 中配置 Tomcat 服务器的第一步骤是打开服务器管理对话框。用户可以通过两种方法打开对话框:一是直接在工具...

    myeclipse配置文件

    myeclipse配置文件,配置自动提示等,myeclipse配置文件,配置自动提示等

    MyEclipse配置jre图文说明

    在本文中,我们将详细介绍如何在MyEclipse中配置JRE,以便于更好地理解和掌握MyEclipse的使用。 一、什么是JRE? JRE(Java Runtime Environment)是Java开发中不可或缺的一部分,它提供了Java虚拟机、类库和其他...

    MyEclipse 配置 Websphere6.1

    在MyEclipse中配置Websphere6.1可以让开发者在开发环境中直接进行调试和部署,提高效率。本文将详细介绍如何在MyEclipse 5.5.1中配置Websphere6.1。 **一、环境准备** 1. 开发环境: - JDK:1.5.0_11 - Eclipse:...

    day38 day38 06-MyEclipse配置Schema约束

    "day38 day38 06-MyEclipse配置Schema约束"这个标题指的是一个关于如何在MyEclipse中配置XML Schema约束的学习教程。在Java企业级开发中,XML文件常用于配置Spring框架的beans,因此这个主题对于理解和管理Java应用...

Global site tag (gtag.js) - Google Analytics