锁定老帖子 主题:轻量级网络爬虫框架讨论
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2014-02-18
推荐最多的就是Nutch,但是基于以下几点: 1. 重量级 2. 存储格式不符合需求,需要文件系统存储格式 3. 功能复杂,学习成本高 所以暂时不准备用这个框架。 后来又搜索到Jsoup,客观来讲这个比较简单易用,现在也在研究。但是发现在下载网页图片的时候碰到一些问题,所以还需要一些时间验证是否可行。 发个帖子讨论下,希望有大虾提供轻量级框架,必须是开源框架,最少有自己的website。因为本身我需要的功能不是很复杂,depth=1。如果使用一个冷门的框架,还不如我自己写,更方便维护。 谢! 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2014-02-18
HttpClient+Jsoup 就可以了 下载图片出问题 跟这Jsoup框架没关系。
|
|
返回顶楼 | |
发表时间:2014-02-19
一个wget就好了;配合linux脚本;好用得很。
|
|
返回顶楼 | |
发表时间:2014-02-19
huafeng880830 写道 HttpClient+Jsoup 就可以了 下载图片出问题 跟这Jsoup框架没关系。
恩,和框架本身没关系。我渴望的功能是连带第一层的图片,JS,CSS也一起都下载下来,并更新相应的src。但是发现JSOUP只是比httpclient用起来方便一些,选取node什么的都很全。但是要想下载图片还得自己写。。。 supermy 写道 一个wget就好了;配合linux脚本;好用得很。
wget试用了一下,蛮好用。可以结合Runtime一起搞搞,谢了! 顺便问个问题: wget.exe --page-requisites -q http://www.your_web_site_url.com 照理应该把图片和CSS等东西都下载下来吧,但是为什么只有一个HTML页面? |
|
返回顶楼 | |
发表时间:2014-02-20
爬虫主要是怎么动态配置抽取数据的逻辑,java的代码能象脚本那样配置成参数,根据不同url参数来eval执行吗?
|
|
返回顶楼 | |
发表时间:2014-02-21
yakczh 写道 爬虫主要是怎么动态配置抽取数据的逻辑,java的代码能象脚本那样配置成参数,根据不同url参数来eval执行吗?
传入的参数是更新的,而且暂时还不准备做成通用的。个人用,实现功能即可。后期可能会考虑改进。 |
|
返回顶楼 | |
发表时间:2014-02-21
登录, 推荐一个吧
crawler4j + Jsoup. |
|
返回顶楼 | |
发表时间:2014-02-22
最后修改:2014-02-22
heritrix
|
|
返回顶楼 | |
发表时间:2014-02-23
WebMagic,这是一个国人写的,挺不错的,希望能帮到你
|
|
返回顶楼 | |
发表时间:2014-02-24
爬虫应该用filter模式, 获取url是一个fiter, 抽取信息是一个filter,存储信息是一个filter
不过多个filter之间传递参数的时候同抽象成同一类型 可以用list容器包装一下,缺省是多条,里面取出来再用instanceof 去判断 |
|
返回顶楼 | |