0

0

回答

311 浏览

heritrix绕过去登录验证[已解决]3

heritrix爬虫的时候,比如公司的项目都是带用户登陆的,heritrix怎么实现绕过去登录那? 目前的想法是: 1.模拟登录,传递cookie的方式。 2.开个后门,在爬的时候不进行验证。 第一种方式需要修改源码,比较费劲。第二种方式需要修改原有的项目,也不太理想。 不知道大侠们有没有好的思路或者实现方式? 问题补充另外,heritrix1.14版本中的order.xml可以配置登录的信息, ...

2013年5月24日 09:05
0

1

回答

182 浏览

爬虫的选取[已解决]5

大四学生一枚 最近在做毕业设计 需要使用爬虫爬中国教育在线 摘取论文关键信息,用java实现。不知道用什么爬虫 Crawler? heritrix? 由于技术很差 求大神给建议 给比较。跪谢  Orz  Orz  Orz  Orz  

2013年5月07日 16:30
0

1

回答

219 浏览

Heritrix,WebSPHINX,JSpider,Encog技术选型[已解决]15

最近公司要做搜索项目,需要爬虫技术爬网页,有用过相关技术的亲吗? 我看到晚上基本都是Heritrix,WebSPHINX,JSpider,Encog,但是没找到相关的比较,麻烦大神们分享下经验啊!

2013年1月09日 11:04
0

0

回答

220 浏览

Heritrix,WebSPHINX,JSpider,Encog等技术选型[已解决]5

最近公司要做漫画项目,需要爬虫技术爬网页,有用过相关技术的亲吗? 我看到晚上基本都是Heritrix,WebSPHINX,JSpider,Encog,但是没找到相关的比较,麻烦大神们分享下经验啊!

2013年1月08日 15:04

本周活跃投票用户

最新评论

Global site tag (gtag.js) - Google Analytics