HCrawler 项目介绍

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 1444 次

锁定老帖子主题：HCrawler 项目介绍精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
hanyuanbo 等级: 初级会员性别: 文章: 4 积分: 60 来自: 深圳	发表时间：2010-12-24 最后修改：2010-12-27 相关推荐: 嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip 训练导控系统设计.pdf 嵌入式八股文面试题库资料知识宝典-网络编程.zip 人脸转正GAN模型的高效压缩.pdf 少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip 更多相关推荐网络应用最近学习了下爬虫，而且有很多开源的基于java的爬虫项目，自己对java有些些兴趣，决定在之后的一段时间内写个简单的爬虫，想实现跟Heritrix这样的项目一样的效果确实很难，做个简单的，实现对某个网站上所有资源的下载，保存到本地，便于分析(如Lucene建立索引来实现搜索引擎等)。首先确定下需要的东西和大致计划： HttpClient 4 和 HTMLParser2.0 首先实现单线程的抓取。今明两天争取搞定。 20101224 熬了三天，终于搞了个雏形出来，不过可以开始快速抓取网页了。不过考虑的没有像Heritrix那样周到。界面截图如下：附件中有我的这个的源代码，大概1300行。 20101227 HTMLParser-2.0-SNAPSHOT-bin.zip (323.5 KB) 下载次数: 35 httpcomponents-client-4.0.3-bin.zip (2 MB) 下载次数: 36 httpcomponents-core-4.1-bin.zip (2.4 MB) 下载次数: 36 大小: 27.5 KB 大小: 7.5 KB HCrawler.rar (45.3 KB) 下载次数: 29 查看图片附件声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 综合技术版

跳转论坛: