- 浏览: 1365 次
- 性别:
- 来自: 北京
最新评论
-
凤凰山:
我也希望得到该方面的答案,希望知道的朋友能够详述下,谢谢
heritrix爬取动态网页 -
richiewlq:
过滤一下URL?
我确实要抓这个东西,希望能说的再清楚些
heritrix爬取动态网页 -
zzxplayful:
可以重写一下FrontierScheduler类,写一个类来继 ...
heritrix爬取动态网页
文章列表
刚接手heritrix,试了一试,抓取文件很顺利,可是却发现了一个问题。
用heritrix抓取了jsp文件,可是抓取的文件名如下:show_hotelshopid=102&catid=2.jsp
可实际想要的url是show_hotel.jsp?shopid=102&catid=2
如何将文件名与url相关联起来?
要重写writer么?或是其他
由于windows file system不允许"?"出现在文件名中,这个限制造成了这一麻烦,可是怎么解决呢?