浏览 4677 次
锁定老帖子 主题:关于 编程启动 Heritrix
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2008-12-09
最后修改:2008-12-09
http://www.cnblogs.com/hustcat/archive/2008/10/11/1308866.html 后决定曲线救国,就利用 Heritrix 提供的 UI 页面上现成的 方法好了。 以下是一点小心得, 抓取步骤: 1 创建初始化话的 配置文件。order.xml,seeds.txt,state.job 2 启动 startCrawler() 方法,最终调用setupForCrawlStart() 方法抓取 思路: 自己用io生成 任务文件夹 包括order.xml,seeds.txt,state.job 三个文件。 ----------------- order.xml 配置文件,就是我们再UI 界面里 Modules,Settings,设置参数,比较重要的有 Select Writers 保存方式--MirrorWriterProcessor user-agent: --版本号 , IP from: 邮箱(只要符合格式就好了) ------------------ seeds.txt 你要爬取的网址。 ---------------------- state.job 一些参数,比如 编号,名称, 状态,配置文件名--order.xml 注意:这里比较重要的一个参数, 第三个 要设置成 Pending 这个参数表示任务当前的状态 有Running ,Finished ,等 。一定要 Pending 才可以被识别成 可抓取状态的。 将3个文件写入一个任务文件夹 ,文件夹依然写入到jobs 。 *************************************************** 以上我已经试验了,可以正常爬取,程序里调用没有试呢还。 ************** 写完后 再你程序里 调用 ../.../action.jsp?action=stop/star 即可 暂停/开始 任务了 好偷懒的 思路了 哈哈! ********************** 多提建议啊 通知们 有更好的方法的 欢迎探讨啊 qq 12616383 注明 Heritrix 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2008-12-09
现在还再研究怎么把 Heritrix 从 jetty 里剥离出来,利用工程的 tomcat
有经验的朋友 给点好方法啊 |
|
返回顶楼 | |
发表时间:2008-12-10
order.xml ,state.job ,seeds.txt 三个是必须的!
|
|
返回顶楼 | |
发表时间:2008-12-24
朋友我也在弄heritrix,想试图把它从jetty中脱离出来,然后植入TOMCAT服务器中。
想和你交流一下思想: heritrix通过JETTY启动主要目的是加载heritrix.property文件。也就是说只要能让tomcat服务器去接管jetty的工作应该是可以实现的。因为其主要是实现监听方面的工作。(还没实现,只是理论上行得通) 还有你对那个Bdbfrontier这个类你研究过没。heritrix的抓取时的网页状态如(200,505).我一直没找着。 |
|
返回顶楼 | |