`

[转]Python 网络爬虫

阅读更多
#FileName: toolbox_insight.py
from sgmllib import SGMLParser
import threading
import time
import urllib2
import StringIO
import gzip
import string
import os
#rewrite SGMLParser for start_a
class Basegeturls(SGMLParser):   #这个Basegeturls类作用是分析下载的网页,把网页中的所有链接放在self.url中。
    def reset(self):
        self.url = []
        SGMLParser.reset(self)
    def start_a(self, attrs):
        href = [v for k, v in attrs if k == 'href']
        if href:
            self.url.extend(href)
#for quickly finding
class Newlist(list):#这个类其实是一个添加了find方法的LIST。当num变量在LIST中,返回True,当不在LIST中,返回False并把num按二分法插入LIST中
    def find(self, num):
        l = len(self)
        first = 0
        end = l - 1
        mid = 0
        if l == 0:
            self.insert(0,num)
            return False
        while first < end:
            mid = (first + end)/2
            if num > self[mid]:
                first = mid + 1
            elif num < self[mid]:
                end = mid - 1
            else:
                break
        if first == end:
            if self[first] > num:
                self.insert(first, num)
                return False
            elif self[first] < num:
                self.insert(first + 1, num)
                return False
            else:
                return True
        elif first > end:
            self.insert(first, num)
            return False
        else:
            return True
#下面的reptile顾名思义是一个爬虫        
class reptile(threading.Thread):
    #Name:       是爬虫是名字,queue是任务队列,所有的爬虫共用同一个任务队列
    #从中取出一个任务项进行运行,每个任务项是一个要下载网页的URL
    #result:     也是一个队列,将下载的网页中包含的URL放入该队列中
    #inittime:   在本程序中没有用,只是一个为了以后扩展用的
    #downloadway:是下载的网页存放的路径
    #configfile: 是配置文件,存放网页的URL和下载下后的路径
    #maxnum:     每个爬虫有个最大下载量,当下载了这么多网页后,爬虫dead
    def __init__(self, Name, queue, result, Flcok, inittime = 0.00001, downloadway = 'D:\\bbs\\',configfile = 'D:\\bbs\\conf.txt', maxnum = 10000):
        threading.Thread.__init__(self, name = Name)
        self.queue = queue
        self.result = result
        self.Flcok = Flcok
        self.inittime = inittime
        self.mainway = downloadway
        self.configfile = configfile
        self.num = 0          #已下载的网页个数
        self.maxnum = maxnum
        os.makedirs(downloadway + self.getName())      #系统调用:在存放网页的文件夹中创建一个以该爬虫name为名字的文件夹
        self.way = downloadway + self.getName() + '\\'
    def run(self):
        opener = urllib2.build_opener()     #创建一个开启器
        while True:
            url = self.queue.get()          #从队列中取一个URL
            if url == None:                 #当取得一个None后表示爬虫结束工作,用于外部方便控制爬虫的生命期
                break
            parser = Basegeturls()          #创建一个网页分析器
            request = urllib2.Request(url) #网页请求
            request.add_header('Accept-encoding', 'gzip')#下载的方式是gzip压缩后的网页,gzip是大多数服务器支持的一种格式
            try:                                         #这样可以减轻网络压力
                page = opener.open(request)#发送请求报文
                if page.code == 200:       #当请求成功
                    predata = page.read() #下载gzip格式的网页
                    pdata = StringIO.StringIO(predata)#下面6行是实现解压缩
                    gzipper = gzip.GzipFile(fileobj = pdata)
                    try:
                        data = gzipper.read()
                    except(IOError):
                        print 'unused gzip'
                        data = predata#当有的服务器不支持gzip格式,那么下载的就是网页本身
                    try:
                        parser.feed(data)#分析网页
                    except:
                        print 'I am here'#有的网页分析不了,如整个网页就是一个图片
                    for item in parser.url:
                        self.result.put(item)#分析后的URL放入队列中
                    way = self.way + str(self.num) + '.html'#下面的是网页的保存,不多说了
                    self.num += 1
                    file = open(way, 'w')
                    file.write(data)
                    file.close()
                    self.Flcok.acquire()
                    confile = open(self.configfile, 'a')
                    confile.write( way + ' ' + url + '\n')
                    confile.close()
                    self.Flcok.release()
                page.close()
                if self.num >= self.maxnum:#达到最大量后退出
                    break
            except:
                print 'end error'
#和爬虫一样是个线程类,作用是将爬虫中的result中存入的URL加以处理。只要同一个服务器的网页
class proinsight(threading.Thread):
    def __init__(self, queue, list, homepage, inqueue):
        threading.Thread.__init__(self)
        self.queue = queue#和爬虫中的result队列是同一个
        self.list = list#是上面Newlist的对象
        self.homepage = homepage#主页
        self.inqueue = inqueue#处理完后的URL的去处
    def run(self):
        length = len(self.homepage)
        while True:
            item = self.queue.get()
            if item == None:
                break
            if item[0:4] == '\r\n':
                item = item[4:]
            if item[-1] == '/':
                item = item[:-1]
            if len(item) >= len('http://') and item[0:7] == 'http://':
                if len(item) >= length and item[0:length] == self.homepage:
                    if self.list.find(item) == False:
                        self.inqueue.put(item)
            elif item[0:5] == '/java' or item[0:4] == 'java':
                pass
            else:   
                if item[0] != '/':
                    item = '/' + item
                item = self.homepage + item
                if self.list.find(item) == False:
                    self.inqueue.put(item)
下面的是一个主函数过程
我下载的网站是http://bbs.hit.edu.cn
开始网页是http://bbs.hit.edu.cn/mainpage.php
#FileName:test
from toolbox_insight import *
from Queue import Queue
import threading
import sys
num = int(raw_input('Enter the number of thread:'))
pnum = int(raw_input('Enter the number of download pages:'))
mainpage = str(raw_input('The mainpage:'))
startpage = str(raw_input('Start page:'))
queue = Queue()
key = Queue()
inqueue = Queue()
list = Newlist()
thlist = []
Flock = threading.RLock()
for i in range(num):
    th = reptile('th' + str(i), queue, key, Flock)
    thlist.append(th)
pro = proinsight(key, list, mainpage, inqueue)
pro.start()
for i in thlist:
    i.start()
queue.put(startpage)
for i in range(pnum):
    queue.put(inqueue.get())
for i in range(num):
    queue.put(None)

分享到:
评论

相关推荐

    玩转python网络爬虫配书源码.rar

    本书"玩转Python网络爬虫"旨在帮助读者深入理解和掌握Python爬虫技术,通过源码学习可以更直观地理解爬虫的工作原理和实现细节。 在Python中,最常用的爬虫库包括requests和BeautifulSoup,它们分别用于发送HTTP...

    玩转Python网络爬虫_python爬虫_

    【标题】"玩转Python网络爬虫"与【描述】中的信息揭示了本主题的核心——使用Python编程语言来构建网络爬虫。网络爬虫是一种自动提取网页数据的程序,它可以帮助我们高效地获取互联网上的大量信息,对于数据分析、...

    Python网络爬虫实战.pdf

    本书从Python的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。本书共8章,涵盖的内容有Python语言的...

    《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf

    《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10...

    Python网络爬虫技术_习题答案.rar

    Python网络爬虫技术是当前IT领域中非常热门的一个分支,尤其在大数据分析和人工智能应用中起着关键作用。本资源“Python网络爬虫技术_习题答案.rar”看似是一个教学资料,包含了一些图像文件和章节内容,我们可以从...

    2:python网络爬虫权威指南_python网络爬虫权威指南_python爬虫指南_

    网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

    Python网络爬虫代码

    【Python网络爬虫代码】是基于Python3编程语言实现的一款数据抓取工具,主要用于从互联网上,特别是百度百科这类网站,自动获取指定网页中的信息。爬虫技术在信息技术领域扮演着重要角色,它能帮助我们高效地提取...

    解析Python网络爬虫_复习大纲.docx

    解析Python网络爬虫_复习大纲.docx 本文档是关于Python网络爬虫的复习大纲,涵盖了爬虫的基本概念、实现原理、技术、网页请求原理、抓取网页数据、数据解析、并发下载、抓取动态内容、图像识别与文字处理、存储爬虫...

    解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫全套教学资料

    Python网络爬虫是一种用于自动化网页数据抓取的技术,它能够高效地从互联网上获取大量信息。本套教学资料深入解析了Python爬虫的核心技术、Scrapy框架以及分布式爬虫的实现,旨在帮助学习者掌握这一领域的核心技能。...

    《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pptx

    爬取App和PC客户端数据 《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据全文共34页,当前为第1页。 本章导读 7 第 章 随着Web端的反爬虫方式越来越多,JavaScript调用越来越复杂,爬虫...

    Python网络爬虫与数据采集.pdf

    Python网络爬虫与数据采集是一门技术课程,主要内容包括网络爬虫的基础知识、网络爬虫请求的基本处理、使用Python相关库进行网络请求、理解HTTP协议及其相关技术,以及如何应对常见的反爬虫策略等。 网络爬虫基础...

    完整版精品Python网络爬虫教程 数据采集 信息提取课程 全套PPT课件 共12个章节.rar

    Python网络爬虫教程 数据采集 信息提取课程 01-Requests库入门(共59页).pptx Python网络爬虫教程 数据采集 信息提取课程 02-网络爬虫的盗亦有道(共19页).pptx Python网络爬虫教程 数据采集 信息提取课程 03-...

    Python网络爬虫技术 完整教案.docx

    ### Python网络爬虫技术知识点详解 #### 一、Python网络爬虫技术概览 ##### 1.1 网络爬虫概念与原理 - **定义**:网络爬虫(Web Crawler),也称为网页蜘蛛或自动索引器,是一种按照一定的规则自动地抓取互联网...

    Python网络爬虫技术-教学大纲.pdf

    《Python网络爬虫技术》教学大纲详细解析 Python网络爬虫技术是一门针对大数据技术类专业的必修课程,旨在培养学生利用Python语言进行网络数据抓取的能力。课程总学时为32学时,包括14学时的理论教学和18学时的实验...

    《Python网络爬虫》实验报告六.docx

    Python 网络爬虫实验报告六 Python 网络爬虫实验报告六是关于使用 Python 语言进行网络爬虫的实验报告,主要内容包括抓取学习强国下学习金句的内容,并保存音频资源至本地。下面是实验报告的详细内容: 一、上机...

    Python网络爬虫技术手册 源码

    Python网络爬虫技术手册 Python网络爬虫技术手册 Python网络爬虫技术手册 Python网络爬虫技术手册 Python网络爬虫技术手册 Python网络爬虫技术手册

    PYTHON 网络爬虫实战

    本书从Python的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。本书共8章,涵盖的内容有Python语言的...

    Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案.docx

    爬虫:Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python...

    python网络爬虫学习教程资料 简明易懂

    python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程资料 简明易懂python网络爬虫学习教程...

Global site tag (gtag.js) - Google Analytics