浏览 4745 次
锁定老帖子 主题:heritrix爬取动态网页
该帖已经被评为新手帖
|
|
---|---|
作者 | 正文 |
发表时间:2008-07-31
用heritrix抓取了jsp文件,可是抓取的文件名如下:show_hotelshopid=102&catid=2.jsp 可实际想要的url是show_hotel.jsp?shopid=102&catid=2 如何将文件名与url相关联起来? 要重写writer么?或是其他 由于windows file system不允许"?"出现在文件名中,这个限制造成了这一麻烦,可是怎么解决呢? 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2008-07-31
可以重写一下FrontierScheduler类,写一个类来继承FrontierScheduler,过滤一下URL就可以了
|
|
返回顶楼 | |
发表时间:2008-08-01
过滤一下URL?
我确实要抓这个东西,希望能说的再清楚些 |
|
返回顶楼 | |
发表时间:2009-04-18
我也希望得到该方面的答案,希望知道的朋友能够详述下,谢谢
|
|
返回顶楼 | |