论坛首页 综合技术论坛

HCrawler 项目介绍

浏览 1425 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-12-24   最后修改:2010-12-27
最近学习了下爬虫,而且有很多开源的基于java的爬虫项目,自己对java有些些兴趣,决定在之后的一段时间内写个简单的爬虫,想实现跟Heritrix这样的项目一样的效果确实很难,做个简单的,实现对某个网站上所有资源的下载,保存到本地,便于分析(如Lucene建立索引 来实现搜索引擎等)。

首先确定下需要的东西和大致计划:

HttpClient 4 和 HTMLParser2.0 首先实现单线程的抓取。今明两天争取搞定。 20101224

熬了三天,终于搞了个雏形出来,不过可以开始快速抓取网页了。不过考虑的没有像Heritrix那样周到。界面截图如下:







附件中有我的这个的源代码,大概1300行。 20101227
  • 大小: 27.5 KB
  • 大小: 7.5 KB
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics