论坛首页 入门技术论坛

heritrix爬取动态网页

浏览 4745 次
该帖已经被评为新手帖
作者 正文
   发表时间:2008-07-31  
刚接手heritrix,试了一试,抓取文件很顺利,可是却发现了一个问题。
用heritrix抓取了jsp文件,可是抓取的文件名如下:show_hotelshopid=102&catid=2.jsp
可实际想要的url是show_hotel.jsp?shopid=102&catid=2
如何将文件名与url相关联起来?
要重写writer么?或是其他
由于windows file system不允许"?"出现在文件名中,这个限制造成了这一麻烦,可是怎么解决呢?
   发表时间:2008-07-31  
可以重写一下FrontierScheduler类,写一个类来继承FrontierScheduler,过滤一下URL就可以了
0 请登录后投票
   发表时间:2008-08-01  
过滤一下URL?
我确实要抓这个东西,希望能说的再清楚些
0 请登录后投票
   发表时间:2009-04-18  
我也希望得到该方面的答案,希望知道的朋友能够详述下,谢谢
0 请登录后投票
论坛首页 入门技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics