`
hz_chenwenbiao
  • 浏览: 1019761 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

MyEclipse下配置Heritrix

阅读更多
1 到SourceForge.net上去下载Heritrix包,下载地址链接为:http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980下载heritrix-1.14.3-src包和heritrix-1.14.3包。 2 将下载的heritrix-1.14.3-src解压出来,自己新建一个项目文件夹,我这里建一个Heritrix文件夹(假如放到E盘下),依次加入如下文件: (1)将heritrix-1.14.3-src里的src下的con文件夹里的文件全部复制到Heritrix项目文件夹里。 (2)将heritrix-1.14.3-src里的src下的java里的全部文件复制到Heritrix项目文件夹里。 (3)将heritrix-1.14.3-src里的src下的resources里的全部文件复制到Heritrix项目文件夹里。 (4)将heritrix-1.14.3(这里注意啦,不是用heritrix-1.14.3-src里的webapps包,而是用heritrix-1.14.3它里面打好包的webapps包,若用heritrix-1.14.3-src里的webapps的话,运行webUI后会产生target文件夹,应该是生成的sevlet文件,一flush项目就看到出错的标记,所以不要用它的webapps)里的webapps目录复制到Heritrix项目文件夹里。 3 在MyEclipse里新建一个javaProject,选择从存在的项目来新建,选择E:\Heritrix,点击确定,将生成javaProject。这里生成的javaProject很多错误,因为是javaProject,它把放在项目下的文件夹都变成包的形式。 4 将lib下的所有包加入构建路径下,就可以将错误减少不少。 5 将complier设置为1.5,可能是它里面用到了1.5支持的老类。 6 修改项目根目录下的heritrix.properties属性文件: (1)heritrix.version = 1.14.3(自己的heritrix版本号) (2)heritrix.jobsdir = jobs(抓下来的文件存放的目录) (3)heritrix.cmdline.admin = admin:123456(登录的用户名和密码,用冒号隔开) (4)heritrix.cmdline.port = 8085(heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,为了不如Tomcat等的端口冲突,可以设置一个空闲的端口号给它) 7 运行包org.archive.crawler下Heritrix.java类,在控制台可以看到Heritrix打印出至版本号就说明开启成功了。 8 在浏览器里输入 http://localhost:8085便可以进行抓页面的工作了。
分享到:
评论

相关推荐

    Myeclipse下Heritrix1.14.4 图文环境搭建和配置

    本文将详细阐述如何在MyEclipse环境下搭建和配置Heritrix 1.14.4。 首先,我们需要了解Heritrix的基本概念。Heritrix是一个可编程的、高度模块化的爬虫,支持定制化策略以满足各种抓取需求。它使用Java编写,因此在...

    heritrix的配置

    **配置Heritrix属性文件** - 打开`src\heritrix.properties`文件,并修改其中的`heritrix.cmdline.admin`属性。将其改为`heritrix.cmdline.admin=admin:sun`。这里的`admin:sun`是用于设置Heritrix的用户名和密码...

    heritrix 的详细配置 与 使用资料

    首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个文件是必需的,因为源码包包含了构建项目所需的 Java 源代码,而二...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是...

    最新Java-培训大纲.docx

    强调Java SE和Java EE在实际项目中的应用,结合JBoss、Tomcat服务器,MyEclipse开发工具,以及Oracle、MySQL数据库,使用Struts、Struts 2.0、Spring、Hibernate等框架,结合EJB 3.0、Web Services等技术,构建企业...

    JavaEE技术总括

    它可以与MyEclipse集成,也可通过Eclipse的Tomcat插件使用。 - **Jetty**:这是一个轻量级的Java编写服务器容器,常用于嵌入式环境,例如开源爬虫Heritrix。Jetty具有可插拔性,易于配置,并且已加入Eclipse项目。 ...

    Java-培训大纲.doc

    - **搜索引擎**:Lucene、HTMLParser、Heritrix等工具,用于文本搜索和网页爬取。 - **工作流**:JBPM,实现业务流程管理。 - **XML**:语法解析,了解XML文档的结构和处理方式。 #### 四、主流企业开发技术 - **...

    参考简历模板三.doc

    - **开发环境**:Windows7 + MyEclipse8 + JDK 1.5 + Oracle 9i - **项目技术**:Struts2 + Ibatis3 + JQuery + OGNL + POI - **生产环境**:Linux + Tomcat6 + Apache + Oracle10g - **项目描述**:系统分为权限...

Global site tag (gtag.js) - Google Analytics