`
jinheking
  • 浏览: 78424 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

Python通过HTTP协议定期抓取文件(ZT)

阅读更多
#!usr/bin/python

import urllib2,time;
class ErrorHandler(urllib2.HTTPDefaultErrorHandler):
    def http_error_default(self, req, fp, code, msg, headers):
        result = urllib2.HTTPError(req.get_full_url(), code, msg, headers, fp)
        result.status = code
        return result

URL='http://www.ibm.com/developerworks/js/ajax1.js'
req=urllib2.Request(URL)
mgr=urllib2.build_opener(ErrorHandler())

while True:
    ns=mgr.open(req)
    if(ns.headers.has_key('last-modified')):
        modified=ns.headers.get('last-modified')
    if(ns.code==304):
        print '''
          ==============================
              NOT MODIFIED
          ==============================
        '''
    elif(ns.code==200):
        print ns.read()
    else:
        print 'there is an error';
        
    if(not locals().has_key('modified')):
        modified=time.time();
    req.add_header('If-Modified-Since',modified)
    time.sleep(10)
分享到:
评论

相关推荐

    python爬虫手把手教你抓取微博评论(完整代码)

    Python爬虫技术在数据获取和分析中扮演着重要角色,特别是在社交媒体信息的抓取上,如本例中的微博评论抓取。以下是一个完整的Python爬虫代码教程,它演示了如何利用Python来抓取微博的评论。 首先,我们需要导入一...

    python+selenium+chromedriver实现爬虫示例代码

    Python+Selenium+Chromedriver是实现自动化网页抓取和测试的一种常见组合。在这个场景中,我们将探讨如何使用这些工具来创建一个简单的爬虫。 首先,Selenium是一个强大的Web应用程序测试框架,它允许开发者模拟...

    采坑Python制作全国疫情地图

    看了微信大牛用Python绘制全国疫情地图,也手痒试一把。 基本步骤就是: 1.安装环境 2.抓取数据 3.绘制地图 4.输出网页 一、爬取数据 1)安装常用的python爬虫工具:beautifulsoup4、requests pip install requests ...

    Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】

    至此,你已经具备了创建一个能抓取并保存英雄联盟高清壁纸的Python3爬虫的基本知识。在实际运行过程中,还需注意处理异常,避免重复下载,以及遵守网站的robots.txt规则,确保爬虫行为合法且道德。最后,可以通过`...

    仿做菜网程序,最新版本,完整无错,上线即用

    - "zt"和"t"这两个文件或文件夹的含义不明确,可能包含特定的功能代码或资源文件。 总结来说,这个压缩包提供了一个完整的做菜网程序,包括源代码、必要的配置文件和部署指南,适合对烹饪网站感兴趣的开发者或运营...

Global site tag (gtag.js) - Google Analytics