关于编程启动 Heritrix -

12616383

浏览: 52070 次
性别:
来自: 待定

最近访客更多访客>>

jhon_brucey

moonlight111

xuyiooo

liuzidong

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

关于编程启动 Heritrix

博客分类：

Heritrix

编程 Tomcat XML UI QQ

最近项目要用到 Heritrix 需要集成到我们的工程中，编程启动.... 起初的思路想深入研究 Heritrix 的源代码，企图自己组织 Heritrix 内部的方法，来实现抓取，研究数日无果.....

参考各方面的资料，虽然了解其内部的实现的实现流程，但依然无法集成入我们的工程。资料可参考

http://www.cnblogs.com/hustcat/archive/2008/10/11/1308866.html

后决定曲线救国，就利用 Heritrix 提供的 UI 页面上现成的方法好了。

以下是一点小心得，

抓取步骤：

1 创建初始化话的配置文件。order.xml,seeds.txt,state.job

2 启动 startCrawler() 方法，最终调用setupForCrawlStart() 方法抓取

思路：

自己用io生成任务文件夹包括order.xml,seeds.txt,state.job 三个文件。

-----------------
order.xml 配置文件，就是我们再UI 界面里 Modules，Settings,设置参数，比较重要的有

Select Writers 保存方式--MirrorWriterProcessor

user-agent: --版本号， IP
from: 邮箱（只要符合格式就好了）

------------------
seeds.txt 你要爬取的网址。

----------------------

state.job 一些参数，比如编号，名称，状态，配置文件名--order.xml

注意：这里比较重要的一个参数，第三个要设置成 Pending 这个参数表示任务当前的状态

有Running ，Finished ，等。一定要 Pending 才可以被识别成可抓取状态的。

将3个文件写入一个任务文件夹，文件夹依然写入到jobs 。

***************************************************
以上我已经试验了，可以正常爬取，程序里调用没有试呢还。
**************

写完后再你程序里调用 ../.../action.jsp?action=stop/star   即可暂停/开始任务了

好偷懒的思路了哈哈！
**********************
多提建议啊通知们   有更好的方法的欢迎探讨啊

qq 12616383 注明 Heritrix

分享到：

关于重写，重载，多态的精辟解释 | 写了个解析抓取百度搜索结果的类，比较简 ...

2008-12-09 15:22
浏览 2323
评论(4)
论坛回复 / 浏览 (3 / 4686)
查看更多

4 楼 lionsadness 2008-12-24

朋友我也在弄heritrix，想试图把它从jetty中脱离出来，然后植入TOMCAT服务器中。
想和你交流一下思想：
heritrix通过JETTY启动主要目的是加载heritrix.property文件。也就是说只要能让tomcat服务器去接管jetty的工作应该是可以实现的。因为其主要是实现监听方面的工作。（还没实现，只是理论上行得通）
还有你对那个Bdbfrontier这个类你研究过没。heritrix的抓取时的网页状态如（200，505）.我一直没找着。

3 楼 12616383 2008-12-12

没人顶啊！！

2 楼 12616383 2008-12-10

order.xml ,state.job ,seeds.txt 三个是必须的！

1 楼 12616383 2008-12-09

现在还再研究怎么把 Heritrix 从 jetty 里剥离出来，利用工程的 tomcat
有经验的朋友给点好方法啊

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于编程启动 Heritrix

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于 编程启动 Heritrix

评论

发表评论

相关推荐

Heritrix的架构

最近访客更多访客>>

关于编程启动 Heritrix