浏览 1425 次
锁定老帖子 主题:HCrawler 项目介绍
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2010-12-24
最后修改:2010-12-27
首先确定下需要的东西和大致计划: HttpClient 4 和 HTMLParser2.0 首先实现单线程的抓取。今明两天争取搞定。 20101224 熬了三天,终于搞了个雏形出来,不过可以开始快速抓取网页了。不过考虑的没有像Heritrix那样周到。界面截图如下: 附件中有我的这个的源代码,大概1300行。 20101227 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |