`
xiamizy
  • 浏览: 90077 次
  • 性别: Icon_minigender_1
  • 来自: 南京
博客专栏
78437efc-ad8e-387c-847f-a092d52e81a6
spring framew...
浏览量:4891
社区版块
存档分类
最新评论

heritrix 3.2.0 -- 环境搭建

阅读更多

heritrix作为一个比较经典的开源爬虫,写这篇文章目的是因为,3.X之后的heritrix的介绍以及配置的文章比较少了。

heritrix 3.x 以后使用maven 2配置jar包引用,但是总是有好多包没法从maven库下载。所以,这里讲的环境搭建直接使用了编译好的工程来做,heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz

 

具体方法如下:

新建java工程(非maven)


将heritrix-3.2.0-dist.tar.gz解压放到工程目录

添加源代码引用,使用heritrix-3.2.0-src.zip:



 


 尝试启动heritrix,heritrix内核使用jetty所以不需要依附tomcat或者其他web容器。

入口类是这个org.archive.crawler.Heritrix



 
 

 启动成功:

Oracle Corporation Java(TM) SE Runtime Environment 1.7.0_55-b13
Using ad-hoc HTTPS certificate with fingerprint...
SHA1:7C:99:FC:BC:62:13:DD:F3:B8:24:2F:EF:B7:60:0E:E2:AF:A1:13:8E
Verify in browser before accepting exception.
2014-07-11 01:54:31.408 警告 thread-1 org.archive.crawler.framework.Engine.findJobConfigs() invalid job directory: .\jobs\.gitignore where job expected from: .\jobs\.gitignore
2014-07-11 01:54:31.550:INFO::Logging to STDERR via org.mortbay.log.StdErrLog
2014-07-11 01:54:31.552:INFO::jetty-6.1.26
2014-07-11 01:54:31.753:INFO::Started SslSocketConnector@localhost:9095
engine listening at port 9095
operator login set per command-line
NOTE: We recommend a longer, stronger password, especially if your web 
interface will be internet-accessible.
Heritrix version: 3.2.0

请求: https://localhost:9095/



 现在可以正常使用了。

heritrix 3.2.0 dist 包下载见http://mitchz.iteye.com/blog/2088134

  • 大小: 15.2 KB
  • 大小: 6.6 KB
  • 大小: 95.7 KB
  • 大小: 67.9 KB
  • 大小: 25.3 KB
  • 大小: 28.5 KB
分享到:
评论
2 楼 xiamizy 2014-10-28  
zhang_637 写道
赞楼主。按照楼主的方法改成支持maven的方式
call mvn install:install-file -DgroupId=it.unimi.dsi -DartifactId=fastutil -Dversion=5.0.7 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\fastutil-5.0.7.jar
call mvn install:install-file -DgroupId=org.archive.overlays -DartifactId=archive-overlay-commons-httpclient -Dversion=3.1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\archive-overlay-commons-httpclient-3.1.jar
call mvn install:install-file -DgroupId=com.anotherbigidea -DartifactId=javaswf -Dversion=CVS-SNAPSHOT-1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\javaswf-CVS-SNAPSHOT-1.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=minlog -Dversion=1.2 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\minlog-1.2.jar
call mvn install:install-file -DgroupId=org.dnsjava -DartifactId=dnsjava -Dversion=2.0.3 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\dnsjava-2.0.3.jar
call mvn install:install-file -DgroupId=it.unimi.dsi -DartifactId=mg4j -Dversion=1.0.1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\mg4j-1.0.1.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=kryo -Dversion=1.01 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\kryo-1.01.jar
call mvn install:install-file -DgroupId=org.archive -DartifactId=ia-web-commons -Dversion=1.0-SNAPSHOT -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\ia-web-commons-1.0-SNAPSHOT.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=reflectasm -Dversion=0.8 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\reflectasm-0.8.jar
call mvn install:install-file -DgroupId=joda-time -DartifactId=joda-time -Dversion=1.6 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\joda-time-1.6.jar


 
1 楼 zhang_637 2014-10-28  
赞楼主。按照楼主的方法改成支持maven的方式
call mvn install:install-file -DgroupId=it.unimi.dsi -DartifactId=fastutil -Dversion=5.0.7 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\fastutil-5.0.7.jar
call mvn install:install-file -DgroupId=org.archive.overlays -DartifactId=archive-overlay-commons-httpclient -Dversion=3.1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\archive-overlay-commons-httpclient-3.1.jar
call mvn install:install-file -DgroupId=com.anotherbigidea -DartifactId=javaswf -Dversion=CVS-SNAPSHOT-1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\javaswf-CVS-SNAPSHOT-1.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=minlog -Dversion=1.2 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\minlog-1.2.jar
call mvn install:install-file -DgroupId=org.dnsjava -DartifactId=dnsjava -Dversion=2.0.3 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\dnsjava-2.0.3.jar
call mvn install:install-file -DgroupId=it.unimi.dsi -DartifactId=mg4j -Dversion=1.0.1 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\mg4j-1.0.1.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=kryo -Dversion=1.01 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\kryo-1.01.jar
call mvn install:install-file -DgroupId=org.archive -DartifactId=ia-web-commons -Dversion=1.0-SNAPSHOT -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\ia-web-commons-1.0-SNAPSHOT.jar
call mvn install:install-file -DgroupId=com.esotericsoftware -DartifactId=reflectasm -Dversion=0.8 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\reflectasm-0.8.jar
call mvn install:install-file -DgroupId=joda-time -DartifactId=joda-time -Dversion=1.6 -Dpackaging=jar -Dfile=D:\workspace\heritrix-package-master\heritrix-3.2.0\lib\joda-time-1.6.jar

相关推荐

    heritrix3.2.0源文件

    Heritrix 3.2.0 是一个开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发并维护。这个版本的源代码是研究网络爬虫技术、数据抓取和网页保存的理想平台。Heritrix 提供了一个高度可配置和可扩展的框架,...

    heritrix-3.2.0

    - **heritrix-3.2.0-src.tar.gz** 和 **heritrix-3.2.0-src.zip**:这两个文件包含了Heritrix的源代码,适合开发者研究其内部机制、调试或定制功能。你可以使用Java IDE打开源代码,了解其实现细节,并根据需求进行...

    heritrix-3.4.0-SNAPSHOT-src.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用

    heritrix-1.14.4-src

    要使用Heritrix-1.14.4-src,你需要首先安装Java开发环境(JDK),然后遵循提供的构建指示编译源代码。一旦编译成功,你可以配置Heritrix以适应你的爬虫需求,例如设置爬行深度、排除某些URL模式,或者定制链接解析...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...

    heritrix-3.2.0 源码

    Heritrix 3.2.0 是一个开源的网络爬虫工具,专为大规模、可扩展的互联网数据抓取设计。这款爬虫软件由互联网档案馆(Internet Archive)开发,旨在帮助用户系统地抓取、存储和归档互联网上的网页。源码的提供对于...

    heritrix-3.4.0-SNAPSHOT-dist.zip

    - `heritrix-3.4.0-SNAPSHOT`目录:这是Heritrix的主目录,包含了所有运行所需的基本文件,如jar包、配置文件、文档等。 - `bin`子目录:存放启动和停止Heritrix的脚本,通常在Unix/Linux环境下使用`start.sh`和`...

    heritrix-3

    1. **heritrix-3.2.0-dist.tar.gz**:这是一个预编译的Heritrix 3发行版,包含了运行爬虫所需的所有文件。解压后,用户可以直接使用,无需进行编译过程。这解决了描述中提到的由于某些JAR文件难以下载导致的编译问题...

    Heritrix3-可扩展web级别的Java爬虫项目

    Heritrix3是一款高度可扩展的Java爬虫项目,专为大规模Web抓取设计,用于构建数字档案馆和网络存档。它是一个开源工具,由Internet Archive维护,旨在收集、保存并提供对互联网上的网页和其他资源的访问。Heritrix3...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    总的来说,Heritrix-1.4.4是用于构建自定义网络抓取应用的强大工具,结合MyEclipse可以提供一个便捷的开发和调试环境。对于想要了解网络爬虫技术或需要大量网页数据的人来说,这是一个值得学习和使用的平台。然而,...

    heritrix-1.12.1-src.zip与heritrix 配置文档

    heritrix-1.12.1-src.zip与heritrix 配置文档

    heritrix-1.14.4

    这个"heritrix-1.14.4"版本是Heritrix的特定发行版,提供了对互联网资源进行系统性抓取的功能,帮助用户构建自己的网络存档。 标题"heritrix-1.14.4"表明这是Heritrix的1.14.4版本,这是一个重要的标识,因为每个...

    heritrix 的详细配置 与 使用资料

    接着,需要解压 heritrix-1.12.1.jar 文件,并将解压后的所有内容(除了 org、st、com、META-INF 和 effective_tld_names.dat 文件)复制到项目源代码目录下。这一步是为了合并必要的类和资源文件。 在配置阶段,你...

    heritrix-1.14.4-docs.rar

    "heritrix-1.14.4-docs.rar"这个压缩包包含了该版本的文档,帮助用户理解和使用Heritrix。 文档通常包括用户手册、开发者指南、API参考等,这些内容对于熟悉Heritrix的架构、配置和编程接口至关重要。由于文件较大...

    heritrix3-master.zip

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    heritrix-1.14.4控制台可执行版本

    近期需要使用heritrix-1.14.4,配了半天才配好,这个是控制台执行版本. 注意:解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 使用控制台命令启动 : heritrix --admin=...

    heritrix-1.14.0-src 网络爬虫

    Heritrix是开源社区开发的一款强大的网络爬虫工具,它基于Java编程语言,以其灵活性、可扩展性和稳定性闻名。在IT行业中,网络爬虫扮演着重要角色,它们用于抓取和索引互联网上的大量信息,为搜索引擎、数据分析、...

    Heritrix-User-Manual.rar_heritrix

    这个名为"Heritrix-User-Manual.rar_heritrix"的压缩包包含了Heritrix用户手册的PDF版本,是学习和操作Heritrix的重要资源。下面将详细介绍Heritrix的基本概念、安装步骤、任务创建以及任务分析。 1. **Heritrix...

    heritrix下载及配置

    1. 解压heritrix-1.14.0-RC1.zip和heritrix-1.14.0-RC1-src.zip,将jar文件放在E:/MyWork/heritrix/heritrix-1.14-jar目录下,源码放在E:/MyWork/libs/heritrix/heritrix-1.14.0-RC1-src/heritrix-1.14.0-RC1目录下...

    heritrix正确完整的配置heritrix正确完整的配置

    安装完成后,通过命令行启动Heritrix,如在Java环境中使用`java -jar heritrix.jar`。 2. **配置文件结构**: Heritrix的配置基于XML文件,主要包含`job.xml`(作业配置)、`engine.xml`(引擎配置)和各种模块的...

Global site tag (gtag.js) - Google Analytics