1 到SourceForge.net上去下载Heritrix包,下载地址链接为:http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980下载heritrix-1.14.3-src包和heritrix-1.14.3包。
2 将下载的heritrix-1.14.3-src解压出来,自己新建一个项目文件夹,我这里建一个Heritrix文件夹(假如放到E盘下),依次加入如下文件:
(1)将heritrix-1.14.3-src里的src下的con文件夹里的文件全部复制到Heritrix项目文件夹里。
(2)将heritrix-1.14.3-src里的src下的java里的全部文件复制到Heritrix项目文件夹里。
(3)将heritrix-1.14.3-src里的src下的resources里的全部文件复制到Heritrix项目文件夹里。
(4)将heritrix-1.14.3(这里注意啦,不是用heritrix-1.14.3-src里的webapps包,而是用heritrix-1.14.3它里面打好包的webapps包,若用heritrix-1.14.3-src里的webapps的话,运行webUI后会产生target文件夹,应该是生成的sevlet文件,一flush项目就看到出错的标记,所以不要用它的webapps)里的webapps目录复制到Heritrix项目文件夹里。
3 在MyEclipse里新建一个javaProject,选择从存在的项目来新建,选择E:\Heritrix,点击确定,将生成javaProject。这里生成的javaProject很多错误,因为是javaProject,它把放在项目下的文件夹都变成包的形式。
4 将lib下的所有包加入构建路径下,就可以将错误减少不少。
5 将complier设置为1.5,可能是它里面用到了1.5支持的老类。
6 修改项目根目录下的heritrix.properties属性文件:
(1)heritrix.version = 1.14.3(自己的heritrix版本号)
(2)heritrix.jobsdir = jobs(抓下来的文件存放的目录)
(3)heritrix.cmdline.admin = admin:123456(登录的用户名和密码,用冒号隔开)
(4)heritrix.cmdline.port = 8085(heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,为了不如Tomcat等的端口冲突,可以设置一个空闲的端口号给它)
7 运行包org.archive.crawler下Heritrix.java类,在控制台可以看到Heritrix打印出至版本号就说明开启成功了。
8 在浏览器里输入 http://localhost:8085便可以进行抓页面的工作了。
分享到:
相关推荐
本文将详细阐述如何在MyEclipse环境下搭建和配置Heritrix 1.14.4。 首先,我们需要了解Heritrix的基本概念。Heritrix是一个可编程的、高度模块化的爬虫,支持定制化策略以满足各种抓取需求。它使用Java编写,因此在...
【标题】:“MyEclipse中配置JBoss” 在IT行业中,MyEclipse是一款深受开发者喜爱的集成开发环境(IDE),尤其对于Java EE项目开发来说,它提供了强大的支持。而JBoss则是一个开源的应用服务器,广泛用于部署和管理...
### MyEclipse 下配置 Websphere6 的详细步骤与注意事项 #### 一、概述 在进行 MyEclipse 下配置 Websphere6 的过程中,相比于其他服务器的配置,我们需要额外注意和执行更多的步骤。这是因为 Websphere6 的特殊性...
MyEclipse 10 配置 Tomcat 服务器详解 MyEclipse 10 是一个功能强大的集成开发环境(IDE),它提供了大量的开发工具和插件,方便开发者快速构建和部署应用程序。Tomcat 服务器是 Java Web 应用程序的常用服务器,...
MyEclipse下配置mysql驱动的方法 MyEclipse下配置mysql驱动的方法
此为MyEclipse下Struts2的配置使用文档,附件包括配置步骤文档及源码,文档为本人学习struts2配置一步一步所写,完全为个人对struts2的学习理解,如有不正确的地方,请留言批评指正,谢谢!附件包含项目源码,为本人...
在MyEclipse中配置Tomcat是一项重要的步骤,它允许开发者在集成开发环境中便捷地运行和调试基于Java Servlet和JavaServer Pages(JSP)的应用程序。以下是一个详细的步骤指南,涵盖了如何在MyEclipse中安装和配置...
本文将详细解析如何在MyEclipse环境中配置数据源,以实现与数据库的有效交互,主要聚焦于使用Microsoft SQL Server作为数据库服务器的情况。 ### 一、理解数据源(DataSource)概念 数据源(DataSource)是Java...
3. **关联项目到SVN**:在MyEclipse的“Team”菜单下,选择“Share Project”,在弹出的对话框中选择刚配置的SVN连接,然后按照提示完成项目的版本控制关联。 4. **首次提交**:项目关联成功后,你可以在“Team”...
接下来,我们将深入探讨如何在MyEclipse中配置Web服务。 首先,确保你已经安装了MyEclipse并启动了它。在MyEclipse中创建一个新项目,可以选择"Web"类别下的"Dynamic Web Project"。在项目创建过程中,你可以为项目...
MyEclipse智能配置 MyEclipse 配置文件 MyEclipse智能配置 MyEclipse 配置文件
### myEclipse 6.0.1 配置详尽指南 #### 一、安装与配置 JDK 1.6 为了确保 myEclipse 6.0.1 能够正常运行,首先需要安装 Java 开发工具包 (JDK) 1.6。以下是安装和配置 JDK 1.6 的步骤: 1. **下载 JDK 1.6** ...
myeclipse下配置resin服务器.doc 非常给力的文档!
### XFire在MyEclipse中配置详解 #### XFire与MyEclipse的融合:搭建高效Web Service开发环境 XFire是一款高性能的Java SOAP框架,以其轻量级、易用性及对多种标准的支持(如JAXB、XMLBeans、Java5和JAX-WS等)而...
- **设置.gwt.xml**:在项目根目录下,编辑`.gwt.xml`文件,定义模块配置,如项目的版本、兼容的浏览器等。 - **选择GWT模块**:在项目属性中,选择要使用的GWT模块,并配置开发服务器端口。 - **开发模式**:...
在IT行业中,集成开发环境(IDE)如MyEclipse是Java开发者的重要工具,它提供了丰富的功能,包括代码编辑、调试、构建以及服务器配置等。Tomcat是一款广泛应用的开源Servlet容器,用于部署和运行Java Web应用。本文...
【MyEclipse下配置Flex】涉及的技术点主要包括Java与Flex的集成方式、Flex插件的安装、BlazeDS的使用以及Flex项目的创建。以下是详细解释: 1. **Java与Flex的集成方式**: - **独立配置**:在这种模式下,Java...