`

Eclipse下配置heritrix

阅读更多

一、需求文件
    heritrix-1.41.3-src.zip
    heritrix-1.14.3.zip
    在http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980可以下载

二、准备
    把下载的两个文件分别解压到不同的目录中

三、在eclipse中新建一个java appliction
    分别把heritrix-1.14.3.zip的解压文件中的conf,webapps,lib文件夹拷到工程中
    如图所示heritrix-1.jpg

                                                 heritrix-1


    把heritrix-1.14.3-src.zip的解压目录下的java目录中的META-INF,org,st目录拷贝到工程目录的src目录下,把heritrix-1.14.3.zip的解压文件中的profiles,mudules,selftest目录拷贝到src目录下
    配置后如图heritrix-2.jpg

                                                     heritrix-2
    在conf/heritrix.properties中配置用户名密码
    如图heritrix-3.jpg

                                        heritrix-3

四、工程基本搭建完成,把工程下的lib中的jar文件配置到工程中(Build Path)

五、运行org.archive.crawler.Heritrix类,工程启动

六、访问http://localhost:8080/

  • 大小: 16.1 KB
  • 大小: 9.6 KB
  • 大小: 25.3 KB
分享到:
评论
1 楼 pandarat 2010-05-04  
我按照上面的步骤试了下。
可是到最后“运行org.archive.crawler.Heritrix类”找不到这个类。
文件夹里有heritrix.class这个文件,可是放到eclipse里就看不到了。
有解决方法没?

相关推荐

    Eclipse下配置Heritrix

    Eclipse下配置Heritrix,具体配置步骤详细介绍。

    Heritrix在Eclipse中的源文件

    下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了Eclipse IDE以及Java Development Toolkit(JDK)。Eclipse Helios是Eclipse的一个版本,适用于Java开发,因此它是配置...

    Heritrix的安装与配置

    配置过程还包括将`src\conf\`目录下的所有文件和文件夹拖入Eclipse的`Heritrix`工程的`src`目录。`heritrix.properties`文件是Heritrix的主要配置文件,你可以在这里设置管理界面的用户名和密码,例如"admin:admin...

    Heritrix搭建好的工程

    在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...

    heritrix-1.4.4 源代码(eclipse可执行)

    在Eclipse的“Run Configurations”中创建一个新的Java Application配置,指定主类(通常是包含主方法的Heritrix启动类),然后设置必要的环境变量和参数。 5. **自定义与扩展**:Heritrix的设计允许用户根据需求...

    很好的heritrix学习资料

    "Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...

    Heritrix 配置

    将@VERSION@替换为1.14.3,并设置Heritrix的管理用户名和密码,例如改为`heritrix.cmdline.admin = admin:xxm`。同时,根据实际情况,你可能需要更改Heritrix监听的端口号,如将`heritrix.cmdline.port`更改为8090,...

    heritrix 的详细配置 与 使用资料

    首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个文件是必需的,因为源码包包含了构建项目所需的 Java 源代码,而二...

    heritrix下载及配置

    Heritrix是一款开源的网络...总结来说,Heritrix的下载与配置涉及到文件的解压、配置文件的修改、Eclipse工程的构建和启动。完成这些步骤后,你将能够通过Web界面管理Heritrix的爬虫任务,实现对互联网内容的高效抓取。

    Heritrix在Windows下的运行

    在Windows环境下运行Heritrix,需要了解一些关键步骤和配置,以便顺利进行网络抓取。 1. **环境准备**: 在Windows上运行Heritrix,首先需要安装Java Development Kit (JDK)。Heritrix是用Java编写的,因此需要JDK...

    利用 Heritrix 构建特定站点爬虫

    - 设置Heritrix的版本号为1.14.4。 ##### 4. 配置运行文件 为了在Eclipse中运行Heritrix,还需要进行一些额外的配置。 - **步骤**: - 右键单击MyHeritrix项目,选择“Run AsRun Configurations”。 - 在弹...

    Heritrix-1.14.4源代码

    6. **配置管理(Configuration)**:Heritrix的配置非常灵活,可以通过XML文件进行设置。源代码中包含了配置加载、解析和应用的逻辑。 7. **调度器(Scheduler)**:调度器根据策略安排待爬取的URL队列,例如可以...

    heritrix爬虫安装部署

    - 检查配置文件(`heritrix.properties`)中的设置是否正确。 - 确认所需的库文件是否都已加载。 - **连接问题**: - 确认网络连接是否正常。 - 检查防火墙或安全软件是否阻止了Heritrix的服务。 - **性能问题**: ...

    heritrix1.14.0jar包

    在搭建Heritrix工程时,将"heritrix-1.14.0"中的jar包导入到开发环境中(如Eclipse或IntelliJ IDEA)是必要的步骤。这通常涉及到创建一个新的Java项目,然后将lib目录下的所有jar文件添加到项目的类路径中。确保正确...

    Heritrix lucene开发自己的搜索引擎(源码)1

    在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...

Global site tag (gtag.js) - Google Analytics