爬虫基本原理及概念 -

wangwei3

浏览: 122469 次
性别:
来自: 北京

最近访客更多访客>>

jeffkuang

蔚蓝之天空

whut0503

lincolnlee1982

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

爬虫基本原理及概念

博客分类：

heritrix

算法 Web 工作 HTML

爬虫在网络中爬行的时候，将Web 上的网页集合看成是一个有向图，从给定的起始
URL 开始，沿着网页中的链接，按照一定的策略进行。通常用到以下几种遍历算法：
1、深度优先算法
该算法是指网络爬虫会从选定的一个超链接开始，按照一条线路，一个一个链接访
问下去，直到达到这条线路的叶子节点，即不包含任何超链接的HTML 文件，处理完这
条线路之后再转入下一个起始页，继续访问新的起始页面所包含的链接中的一条，直到
到达叶子结点。这个方法有个优点是网络爬虫在设计的时候比较容易。
2、广度优先算法
广度优先算法是指网络爬虫会先抓取起始网页中包含链接的所有网页，然后再选择
其中的一个链接网页，继续抓取在这个网页中链接的所有网页。这种搜索方法是实现通
用网络爬虫的最佳方法，因为它的特点是易于实现，并且能够避免陷进一个无穷尽的深
层分支中去，可以让网络爬虫并行处理，从而提高其抓取速度。
3、启发式搜索算法
源于人工智能，即先通过在线获得的领域知识评价待访问链接的价值，借以推断信
息资源的分布情况，然后按一定的原则选择价值最大的链接进行下一步的搜索，找到到
达目标节点的最佳路径，删除不好节点，保留那些好的节点，该算法主要用于主题爬虫。

分布式网络爬虫可以看做由多个集中式网络爬虫组合而成。分布式系统中的每个节
点都可以看作一个集中式网络爬虫。分布式爬虫与集中式爬虫工作原理基本相同，但前
者需要各个节点协作完成网页的爬行，从而使得分布式爬虫的效率远远高于集中式爬
虫。分布式爬虫的系统结构有很多种，工作方式也各不相同。对于典型的分布式爬虫系
统，它的每个节点不仅从web 页面获得URL，同时也从其它节点接收URL。然后节点
对URL 对应的网页进行解析，并将不属于自己爬行范围的URL 转发给其它节点。

分享到：

Heritrix源码分析(十三) Heritrix的控制中 ... | mysql locked 解决方案

2010-10-22 17:35
浏览 2216
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

爬虫基本原理及概念

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

爬虫基本原理及概念

评论

发表评论

相关推荐

出售分布式网络爬虫程序

Heritrix中的SURT和SurtPrefixedDecideRule

heritrix设计详解(一) 总述

spider技术综述

Heritrix源码之 处理链

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

heritrix 下载不通过服务器缓存

转 互联网反爬虫策略

爬虫被封原因

网站防爬虫

Heritrix 学习笔记1.Heritrix defined codes

Heritrix去重

heritrix无法抓取中文URL的问题解决方案

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

heritrix在原有基础上抓取

job配置经验分享

elfhash多线程抓取

heritrix入门及配置

最近访客更多访客>>

Heritrix源码之处理链

转互联网反爬虫策略