轻量级网络爬虫框架讨论

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 8985 次

锁定老帖子主题：轻量级网络爬虫框架讨论精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
kilroy 等级: 初级会员性别: 文章: 8 积分: 50 来自: 长沙	发表时间：2014-02-18 相关推荐: 在Linux环境下使用ReiserFS文件系统解析Linux环境下的ReiserFS文件系统 linux内核编译一些经验 ReiserFS是一个非常优秀的文件系统 linux入门内核模块管理,Linux(入门基础)113---内核模块（depmod、lsmod、modinfo、insmod、rmmod、modprobe）... 更多相关推荐爬虫最近准备写一个小工具用来做kindle网页推送，需要用到网络爬虫功能。推荐最多的就是Nutch，但是基于以下几点： 1. 重量级 2. 存储格式不符合需求，需要文件系统存储格式 3. 功能复杂，学习成本高所以暂时不准备用这个框架。后来又搜索到Jsoup，客观来讲这个比较简单易用，现在也在研究。但是发现在下载网页图片的时候碰到一些问题，所以还需要一些时间验证是否可行。发个帖子讨论下，希望有大虾提供轻量级框架，必须是开源框架，最少有自己的website。因为本身我需要的功能不是很复杂，depth=1。如果使用一个冷门的框架，还不如我自己写，更方便维护。谢！声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

huafeng880830 等级: 初级会员性别: 文章: 3 积分: 30 来自: 北京	发表时间：2014-02-18 HttpClient+Jsoup 就可以了下载图片出问题跟这Jsoup框架没关系。
返回顶楼	回帖地址 0 0 请登录后投票

supermy 等级: 性别: 文章: 46 积分: 266	发表时间：2014-02-19 一个wget就好了；配合linux脚本；好用得很。
返回顶楼	回帖地址 0 0 请登录后投票

kilroy 等级: 初级会员性别: 文章: 8 积分: 50 来自: 长沙	发表时间：2014-02-19 huafeng880830 写道 HttpClient+Jsoup 就可以了下载图片出问题跟这Jsoup框架没关系。恩，和框架本身没关系。我渴望的功能是连带第一层的图片，JS,CSS也一起都下载下来，并更新相应的src。但是发现JSOUP只是比httpclient用起来方便一些，选取node什么的都很全。但是要想下载图片还得自己写。。。 supermy 写道一个wget就好了；配合linux脚本；好用得很。 wget试用了一下，蛮好用。可以结合Runtime一起搞搞，谢了！顺便问个问题： wget.exe --page-requisites -q http://www.your_web_site_url.com 照理应该把图片和CSS等东西都下载下来吧，但是为什么只有一个HTML页面？
返回顶楼	回帖地址 0 0 请登录后投票

yakczh 等级: 初级会员性别: 文章: 5 积分: 30 来自: 北京	发表时间：2014-02-20 爬虫主要是怎么动态配置抽取数据的逻辑，java的代码能象脚本那样配置成参数，根据不同url参数来eval执行吗？
返回顶楼	回帖地址 0 0 请登录后投票

kilroy 等级: 初级会员性别: 文章: 8 积分: 50 来自: 长沙	发表时间：2014-02-21 yakczh 写道爬虫主要是怎么动态配置抽取数据的逻辑，java的代码能象脚本那样配置成参数，根据不同url参数来eval执行吗？　传入的参数是更新的，而且暂时还不准备做成通用的。个人用，实现功能即可。后期可能会考虑改进。
返回顶楼	回帖地址 0 0 请登录后投票

暗夜骑士0376 等级: 初级会员性别: 文章: 5 积分: 30 来自: 信阳	发表时间：2014-02-21 登录，推荐一个吧 crawler4j + Jsoup.
返回顶楼	回帖地址 0 0 请登录后投票

凤凰山等级: 性别: 文章: 87 积分: 100 来自: 重庆	发表时间：2014-02-22 最后修改：2014-02-22 heritrix
返回顶楼	回帖地址 0 0 请登录后投票

mc90716 等级: 初级会员性别: 文章: 1 积分: 30 来自: 北京	发表时间：2014-02-23 WebMagic，这是一个国人写的，挺不错的，希望能帮到你
返回顶楼	回帖地址 0 0 请登录后投票

yakczh 等级: 初级会员性别: 文章: 5 积分: 30 来自: 北京	发表时间：2014-02-24 爬虫应该用filter模式, 获取url是一个fiter, 抽取信息是一个filter,存储信息是一个filter 不过多个filter之间传递参数的时候同抽象成同一类型可以用list容器包装一下,缺省是多条,里面取出来再用instanceof 去判断
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: