`
xiagu1
  • 浏览: 48190 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

学习python之改造改造数据抓取程序为多线程

阅读更多

前面的数据抓取程序虽然完工了,但是运行中发现,每定时运行一次需要几十秒,有点太慢,查阅资料,希望能改成多线程的,加快运行速度。查了以后知道python里面多线程可以用queue来弄成队列。

经过搜索以后找到的python多线程、线程池参考内容如下:

中国的:http://prokee.com/?p=4

外国的:http://www.davidnaylor.co.uk/threaded-data-collection-with-python-including-examples.html

上面两个很相似到差不多雷同的样子,区别仅仅是中文、英文的问题,都是伪代码,可能相互借鉴过。

下面这个例子可以使用,是rss的东西

http://www.doughellmann.com/PyMOTW/Queue/

下面这个是涉及sqlite,可以运行。

http://stackoverflow.com/questions/1506023/duplicate-insertions-in-database-using-sqlite-sqlalchemy-python

里面指出是参考了下面的文章,下面这个也可以运行。

http://www.halotis.com/2009/07/07/how-to-get-rss-content-into-an-sqlite-database-with-python-fast/

 

看完参考资料,那就开始动手,把线程池import进来,然后改动程序,实际上我们需要多线程的就是urlopen这一部分,程序的数据库写入部分每次就一百多条,实际测试花不了1秒,不必改。其他的部分多线程提高不了多大效率。

首先根据上面的参考资料,多线程的主要结构如下:

THREAD_LIMIT = 20
jobs = Queue.Queue(0)
#定义全局变量c,用于storedata使用
#c在dealwithdatat的时候进行修改
global c
c=[{},{},{},{},{}]
#Rest of file completes the threading process     
def thread():
        while True:
                try:
                        url = jobs.get(False) # False = Don't wait
                except Queue.Empty:
                        return
                xml=get_datat(url)   
                #print xml
                #处理数据写入c里面供storedatat使用
                dealwith_datat(xml)

def q1(url_price):
    for i in url_price.keys(): # Queue them up
            #print i,url_price[i]
            jobs.put(url_price[i])
    
    for n in xrange(THREAD_LIMIT):
            t = threading.Thread(target=thread)
            t.start()
            print n
    
    while threading.activeCount() > 1 or not jobs.empty():
            print datetime.datetime.now()
            time.sleep(1)

 上面getdatat为改过的抓取函数,原来的函数是一次获取所有的地址,循环抓取,这里改成每次读一个地址。线程中最大线程数为20,利用了queue,实现了线程的复用。

def get_datat(url):
    xmlr = urllib2.Request(url)
    price = urllib2.urlopen(xmlr)
    p_xml=price.read()
    price.close()     
    return p_xml

 deal_withdatat则是改过的处理函数,这次是每次抓取一个地址的数据,所以处理函数改为每次处理一个,这里设定了一个全局变量c,处理之后的数据直接存放在c中需要注意的是c必须实例化,而不能仅仅定义一下。

global c
c=[{},{},{},{},{}] 
def dealwith_datat(price):
    """正则处理页面获取有效数据"""
    temp1={}
    temp2={}
    temp3={}
    temp4={}
    temp5={}
    xmlprice=re.findall(re.compile(r"<price>(\d+)</price>"),price)
    iii1=re.findall(re.compile(r"<iid>(\d+)</iid>"),price)
    iii=iii1[0]
    print iii
    #print xmlprice 中出现最多的价格
    zuiduo={}
    for i in xmlprice:
            try:
                zuiduo[i]+=1
            except:
                zuiduo[i]=1
    for i in zuiduo.keys():
            if zuiduo[i]==max(zuiduo.values()):
                #print i,zuiduo[i]
                temp4[iii]=i
                temp5[iii]=zuiduo[i]
    xmlprice=[int(i)for i in xmlprice]
    temp1[iii]=min(xmlprice)
    temp2[iii]=max(xmlprice)
    temp3[iii]=xmlprice[-1]
    #return    temp1,temp2,temp5,temp4,temp3   
    c[0][iii]=temp1[iii]
    c[1][iii]=temp2[iii]
    c[2][iii]=temp5[iii]
    c[3][iii]=temp4[iii]
    c[4][iii]=temp3[iii]

 改造后的deal_withdatat最终返回的结果仍与原函数一致,但是每次读取的仅仅是一个地址的数据。

这样完成了多线程抓取,原来需要30秒以上的抓取过程现在仅需要几秒就能完成

 

0
0
分享到:
评论

相关推荐

    基于Linux的python多线程爬虫程序设计.pdf

    总体来看,基于Linux平台的Python多线程爬虫程序设计,不仅可以实现高效的数据抓取,还能通过多种存储方式灵活地管理数据,这对于微博数据挖掘工作来说,是一项十分有价值的工具。而且,随着社交网络数据量的不断...

    10个线程的Python多线程爬虫(采集新浪数据).rar

    一个Python多线程爬虫,在工作时,开10个线程来抓取新浪网页的数据,抓取并保存页面, 并且根据deep返回页面链接,根据key确定是否保存该页面,其中:  deep == 0时,是抓取的最后一层深度,即只抓取并保存页面,不...

    Python基于多线程实现抓取数据存入数据库的方法

    在学习如何使用Python实现多线程抓取数据并存入数据库之前,我们需要先了解Python中的几个核心概念和技术点,包括Python的多线程编程、数据库操作以及网络数据抓取。 首先,Python的多线程编程允许我们在同一个程序...

    Python-淘宝天猫商品数据抓取代码和exe都在里面

    【Python-淘宝天猫商品数据抓取代码和exe都在里面】 ...通过学习和理解这些代码,你不仅可以掌握Python爬虫技术,还能了解到如何处理淘宝天猫的数据抓取问题,进一步提升数据分析和网络爬虫能力。

    基于Linux的python多线程爬虫程序设计.zip

    在Python编程领域,多线程爬虫是一种高效的数据抓取技术,尤其在处理大量网页时,可以显著提高爬取速度。本主题“基于Linux的Python多线程爬虫程序设计”将深入探讨如何在Linux环境下利用Python实现多线程爬虫,以...

    Python3 多线程抓取淘女郎照片并分类保存

    自己写的一个多线程爬虫,在当前目录下创建目录保存相应图片,共100行代码,可以正常运行

    python selenium chrome 多开 多线程

    本主题聚焦于如何使用Python的Selenium与Chrome浏览器进行多开和多线程操作,结合phantomjs和chromedriver这两个关键组件来实现。首先,让我们详细了解一下这些概念。 1. **Selenium**: Selenium是一个强大的Web...

    Python程序设计:多线程爬虫.pptx

    在Python程序设计中,多线程爬虫是一种高效的数据抓取技术,尤其适用于需要处理大量网页并行抓取的场景。本主题主要探讨了多线程爬虫的基本原理,以及如何在Python中实现这一技术。 ### 进程与线程概念 **进程** ...

    python抓取高德POI数据,突破数据量限制

    本文将深入探讨如何利用Python抓取高德地图的POI数据,并解决数据量限制的问题。通过提供的文件`GetAmapPOIbyPolygon.py`,我们可以看到一个Python脚本,它用于获取高德地图在特定区域内的POI数据。 首先,`...

    python写的多线程抓取代理服务器,保存,验证程序-烤火C知识网 c#

    学习用的,python写的多线程抓取代理服务器,保存,验证程序-烤火C知识网

    地图瓦片抓取之python

    6. **多线程/异步处理**:为了提高抓取效率,可以利用Python的`concurrent.futures`模块进行多线程或异步请求。这将同时获取多个瓦片,加快下载速度。 7. **文件管理**:保存瓦片时,需要一个合理的文件系统结构,...

    python百度图片自动爬取程序多线程升级版

    本项目"Python百度图片自动爬取程序多线程升级版"聚焦于利用Python编写一个能够高效、批量下载百度图片的工具,这涉及到多个关键知识点。 首先,我们需要了解**Python爬虫框架**。该项目可能使用了如`requests`库来...

    完整版 Python高级开发课程 高级教程 08 Python多线程 多进程开发.pptx

    在Python高级开发中,多线程和多进程是两个重要的概念,它们被广泛应用于提高程序的并发性能,尤其是在处理大量数据或需要同时执行多个任务时。本课程将深入讲解这两个主题,帮助开发者提升Python应用程序的效率。 ...

    Python爬虫技术的网页数据抓取与分析.zip

    Python爬虫技术是互联网数据挖掘和分析的重要工具,它能够自动化地从网页中提取大量信息,为数据分析、市场研究、网站优化等提供强有力的支持。在本资料包中,"Python爬虫技术的网页数据抓取与分析.pdf"将详细介绍这...

    美科新闻抓取程序源码

    10. **Scrapy框架**:虽然这个项目没有明确提到使用Scrapy,但这是一个高级的Python爬虫框架,适用于更复杂的抓取任务,包括自动处理cookies、session,以及多线程、分布式爬虫等。 通过学习和实践这款新闻抓取程序...

    python抓取百度搜索的数据

    ### Python抓取百度搜索的数据 在本篇教程中,我们将详细介绍如何使用Python抓取百度搜索引擎...通过以上步骤的学习,你将能够熟练掌握使用Python抓取百度搜索数据的方法,并为进一步探索网络爬虫技术打下坚实的基础。

    基于Python爬虫技术的网页数据抓取与分析研究.zip

    这篇研究深入探讨了如何利用Python进行网页数据的抓取与分析,为那些想要进入这个领域的初学者提供了宝贵的指导。我们将从以下几个方面详细讲解这个主题: 1. **Python爬虫基础** - Python语言特性:Python以其...

    Python学习笔记之抓取某只基金历史净值数据实战案例

    在本篇Python学习笔记中,我们将探讨如何抓取特定基金的历史净值数据,这涉及到网络爬虫技术以及数据库交互。我们将使用Python的Selenium库来模拟浏览器行为,抓取页面数据,然后利用MySQL进行数据存储。以下是一些...

Global site tag (gtag.js) - Google Analytics