宽度优先遍历爬虫的python实现 -

zoulc001

浏览: 31105 次
性别:
来自: 成都

最近访客更多访客>>

searchtree

KevinLoveDev

l1002k

orzzone

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (6)

社区版块

存档分类

宽度优先遍历爬虫的python实现

爬虫宽度优先遍历 python

网上很著名的一本爬虫教程《自己手动写网络爬虫》，该书所有源码是用java编写的，

其中提到了宽度优先遍历算法，闲来无事我把他用python实现了一遍。代码量少了将近一半，呵呵。

宽度优先算法介绍

参考:http://book.51cto.com/art/201012/236668.htm

整个的宽度优先爬虫过程就是从一系列的种子节点开始，把这些网页中的"子节点"(也就是超链接)提取出来，放入队列中依次进行抓取。被处理过的链接需要放入一张表(通常称为Visited表)中。每次新处理一个链接之前，需要查看这个链接是否已经存在于Visited表中。如果存在，证明链接已经处理过，跳过，不做处理，否则进行下一步处理。

初始的URL地址是爬虫系统中提供的种子URL(一般在系统的配置文件中指定)。当解析这些种子URL所表示的网页时，会产生新的URL(比如从页面中的<a href= "http://www.admin.com "中提取出http://www.admin.com 这个链接)。然后，进行以下工作：

(1) 把解析出的链接和Visited表中的链接进行比较，若Visited表中不存在此链接，表示其未被访问过。

(2) 把链接放入TODO表中。

(3) 处理完毕后，再次从TODO表中取得一条链接，直接放入Visited表中。

(4) 针对这个链接所表示的网页，继续上述过程。如此循环往复。

表1.3显示了对图1.3所示的页面的爬取过程。

表1.3 网络爬取

TODO 表	Visited 表
A	空
BCDEF	A
CDEF	A,B
DEF	A,B,C

续表

TODO 表	Visited 表
EF	A,B,C,D
FH	A,B,C,D,E
HG	A,B,C,D,E,F
GI	A,B,C,D,E,F,H
I	A,B,C,D,E,F,H,G
空	A,B,C,D,E,F,H,G,I

宽度优先遍历是爬虫中使用最广泛的一种爬虫策略，之所以使用宽度优先搜索策略，主要原因有三点：

重要的网页往往离种子比较近，例如我们打开新闻网站的时候往往是最热门的新闻，随着不断的深入冲浪，所看到的网页的重要性越来越低。

万维网的实际深度最多能达到17层，但到达某个网页总存在一条很短的路径。而宽度优先遍历会以最快的速度到达这个网页。

宽度优先有利于多爬虫的合作抓取，多爬虫合作通常先抓取站内链接，抓取的封闭性很强。

宽度优先遍历爬虫的python实现

#encoding=utf-8
from BeautifulSoup import BeautifulSoup
import socket
import urllib2
import re

class MyCrawler:
    def __init__(self,seeds):
        #使用种子初始化url队列
        self.linkQuence=linkQuence()
        if isinstance(seeds,str):
            self.linkQuence.addUnvisitedUrl(seeds)
        if isinstance(seeds,list):
            for i in seeds:
                self.linkQuence.addUnvisitedUrl(i)
        print "Add the seeds url \"%s\" to the unvisited url list"%str(self.linkQuence.unVisited)
    #抓取过程主函数
    def crawling(self,seeds,crawl_count):
        #循环条件：待抓取的链接不空且专区的网页不多于crawl_count
        while self.linkQuence.unVisitedUrlsEnmpy() is False and self.linkQuence.getVisitedUrlCount()<=crawl_count:
            #队头url出队列
            visitUrl=self.linkQuence.unVisitedUrlDeQuence()
            print "Pop out one url \"%s\" from unvisited url list"%visitUrl
            if visitUrl is None or visitUrl=="":
                continue
            #获取超链接
            links=self.getHyperLinks(visitUrl)
            print "Get %d new links"%len(links)
            #将url放入已访问的url中
            self.linkQuence.addVisitedUrl(visitUrl)
            print "Visited url count: "+str(self.linkQuence.getVisitedUrlCount())
            #未访问的url入列
            for link in links:
                self.linkQuence.addUnvisitedUrl(link)
            print "%d unvisited links:"%len(self.linkQuence.getUnvisitedUrl())
            
    #获取源码中得超链接
    def getHyperLinks(self,url):
        links=[]
        data=self.getPageSource(url)
        if data[0]=="200":
            soup=BeautifulSoup(data[1])
            a=soup.findAll("a",{"href":re.compile(".*")})
            for i in a:
                if i["href"].find("http://")!=-1:
                    links.append(i["href"]) 
        return links
    
    #获取网页源码
    def getPageSource(self,url,timeout=100,coding=None):
        try:
            socket.setdefaulttimeout(timeout)
            req = urllib2.Request(url)
            req.add_header('User-agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)')
            response = urllib2.urlopen(req)
            if coding is None:
                coding= response.headers.getparam("charset")
            if coding is None:
                page=response.read()
            else:
                page=response.read()
                page=page.decode(coding).encode('utf-8')
            return ["200",page]
        except Exception,e:
            print str(e)
            return [str(e),None]
        
class linkQuence:
    def __init__(self):
        #已访问的url集合
        self.visted=[]
        #待访问的url集合
        self.unVisited=[]
    #获取访问过的url队列
    def getVisitedUrl(self):
        return self.visted
    #获取未访问的url队列
    def getUnvisitedUrl(self):
        return self.unVisited
    #添加到访问过得url队列中
    def addVisitedUrl(self,url):
        self.visted.append(url)
    #移除访问过得url
    def removeVisitedUrl(self,url):
        self.visted.remove(url)
    #未访问过得url出队列
    def unVisitedUrlDeQuence(self):
        try:
            return self.unVisited.pop()
        except:
            return None
    #保证每个url只被访问一次
    def addUnvisitedUrl(self,url):
        if url!="" and url not in self.visted and url not in self.unVisited:
            self.unVisited.insert(0,url)
    #获得已访问的url数目
    def getVisitedUrlCount(self):
        return len(self.visted)
    #获得未访问的url数目
    def getUnvistedUrlCount(self):
        return len(self.unVisited)
    #判断未访问的url队列是否为空
    def unVisitedUrlsEnmpy(self):
        return len(self.unVisited)==0
    
def main(seeds,crawl_count):
    craw=MyCrawler(seeds)
    craw.crawling(seeds,crawl_count)
if __name__=="__main__":
    main(["http://www.baidu.com","http://www.google.com.hk"],50)

分享到：