论坛首页 → 综合技术论坛 →

web爬虫

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 18402 次

锁定老帖子主题：web爬虫精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
风雪涟漪等级: 性别: 文章: 258 积分: 498 来自: 大连->北京	发表时间：2010-11-20 最后修改：2011-04-14 相关推荐: Scrapy Web爬虫框架 v1.3.3 web爬虫合集.zip Python实现简易Web爬虫详解 Scrapy Web爬虫框架 v1.3.0 ECommerceCrawlers Web爬虫-其他更多相关推荐互联网这篇文章主要是对web爬虫有个大概的认知。概览web爬虫 web爬虫主要功能是从web中发现，下载以及存储内容。广泛应用于各种搜索引擎中。一个典型的web爬虫主要由以下的部分组成：能被爬虫识别的URL库。文档下载模块，主要用于从web中下载内容。文档解析模块，用于解析下载文档中的内容，如解析HTML,PDF,Word等等。这个模块还要提取网页中的URL和一些对于索引有用的数据。存储文档的元数据以及内容的库。规范化URL模块，把URL转成标准的格式。 URL过滤器，爬虫可以过滤掉不需要的URL。设计与实现上述模块，主要取决于你的爬虫到底要爬取什么以及要抓取的范围。最简单的例子是从一个已知的站点抓取一些网页，这个爬虫代码用一页纸就可以写完。互联网应用中，可能会碰到这种十分简单的需求，但是如果要实现一个爬取大量文档的爬虫，就不是那么简单了。一般来说这个爬虫就是N个应用组成，并且难点是基于分布式的。爬虫的两个阶段一个典型的爬虫主要有如下两个阶段 URL库初始化然后开始爬取。爬虫读取没有访问过的URL，来确定它的工作范围。对于要抓取的URL，要进行如下的不重获取URL的内容解析内容，获取URL以及所需的数据。存储有价值的数据。规范化新抓取的URL。过滤掉不需要爬去的URL。把要抓取的URL更新到URL库中。重复步骤2，直到抓取的网页深度完毕为止。从广度进行分类的话，爬虫有两类。通用型和集中型。通用型是采集所有能解析的文档。它们主要通过URL过滤技术来实现这一过程。而集中型爬虫主要爬取特定内容的文档，如爬取sina博客，格式为固定内容也是我们感兴趣的。幸运的是，有开源的爬虫可以使用在java中，nutch和heritrix都提供了爬虫的实现。Nutch是apache lucene的子项目，地址是http://lucene.apache.org/nutch/。这个项目非常稳定，并且文档丰富。Nutch把多个网页存储在一个文件中。对于大的爬虫来说，这么降低I/O读写，性能更加优秀。 Heritrix是互联网存档的web爬虫。项目地址为http://crawler.archive.org/。Heritrix专注于大型爬虫的实现。许可证为LGPL。另外提一下，还有一个项目值得关注，那就是apache tika。项目地址为http://tika.apache.org/。tika使用解析器从文档中发现以及提取元数据和文本内容。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

yuhe 等级: 初级会员性别: 文章: 57 积分: 40 来自: 杭州	发表时间：2010-12-08 是连载么？
返回顶楼	回帖地址 0 0 请登录后投票

cxmin121 等级: 初级会员性别: 文章: 11 积分: 30 来自: 北京	发表时间：2010-12-10 获取source (url or urls in table) 使用rule来将得到的数据存储在target中。重复这个过程，直到将网站感兴趣的内容都存储到本地
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 综合技术版

跳转论坛:

Global site tag (gtag.js) - Google Analytics