论坛首页 Java企业应用论坛

轻量级网络爬虫框架讨论

浏览 8537 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2014-02-18  
最近准备写一个小工具用来做kindle网页推送,需要用到网络爬虫功能。

推荐最多的就是Nutch,但是基于以下几点:
1. 重量级
2. 存储格式不符合需求,需要文件系统存储格式
3. 功能复杂,学习成本高
所以暂时不准备用这个框架。

后来又搜索到Jsoup,客观来讲这个比较简单易用,现在也在研究。但是发现在下载网页图片的时候碰到一些问题,所以还需要一些时间验证是否可行。

发个帖子讨论下,希望有大虾提供轻量级框架,必须是开源框架,最少有自己的website。因为本身我需要的功能不是很复杂,depth=1。如果使用一个冷门的框架,还不如我自己写,更方便维护。


谢!
   发表时间:2014-02-18  
HttpClient+Jsoup 就可以了  下载图片出问题 跟这Jsoup框架没关系。
0 请登录后投票
   发表时间:2014-02-19  
一个wget就好了;配合linux脚本;好用得很。
0 请登录后投票
   发表时间:2014-02-19  
huafeng880830 写道
HttpClient+Jsoup 就可以了  下载图片出问题 跟这Jsoup框架没关系。



恩,和框架本身没关系。我渴望的功能是连带第一层的图片,JS,CSS也一起都下载下来,并更新相应的src。但是发现JSOUP只是比httpclient用起来方便一些,选取node什么的都很全。但是要想下载图片还得自己写。。。


supermy 写道
一个wget就好了;配合linux脚本;好用得很。



wget试用了一下,蛮好用。可以结合Runtime一起搞搞,谢了!

顺便问个问题: wget.exe --page-requisites -q http://www.your_web_site_url.com
照理应该把图片和CSS等东西都下载下来吧,但是为什么只有一个HTML页面?
0 请登录后投票
   发表时间:2014-02-20  
爬虫主要是怎么动态配置抽取数据的逻辑,java的代码能象脚本那样配置成参数,根据不同url参数来eval执行吗? 
0 请登录后投票
   发表时间:2014-02-21  
yakczh 写道
爬虫主要是怎么动态配置抽取数据的逻辑,java的代码能象脚本那样配置成参数,根据不同url参数来eval执行吗? 



传入的参数是更新的,而且暂时还不准备做成通用的。个人用,实现功能即可。后期可能会考虑改进。
0 请登录后投票
   发表时间:2014-02-21  
登录, 推荐一个吧
crawler4j + Jsoup.
0 请登录后投票
   发表时间:2014-02-22   最后修改:2014-02-22
heritrix
0 请登录后投票
   发表时间:2014-02-23  
WebMagic,这是一个国人写的,挺不错的,希望能帮到你
0 请登录后投票
   发表时间:2014-02-24  
爬虫应该用filter模式, 获取url是一个fiter, 抽取信息是一个filter,存储信息是一个filter
不过多个filter之间传递参数的时候同抽象成同一类型 可以用list容器包装一下,缺省是多条,里面取出来再用instanceof 去判断
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics