#!usr/bin/python
import urllib2,time;
class ErrorHandler(urllib2.HTTPDefaultErrorHandler):
def http_error_default(self, req, fp, code, msg, headers):
result = urllib2.HTTPError(req.get_full_url(), code, msg, headers, fp)
result.status = code
return result
URL='http://www.ibm.com/developerworks/js/ajax1.js'
req=urllib2.Request(URL)
mgr=urllib2.build_opener(ErrorHandler())
while True:
ns=mgr.open(req)
if(ns.headers.has_key('last-modified')):
modified=ns.headers.get('last-modified')
if(ns.code==304):
print '''
==============================
NOT MODIFIED
==============================
'''
elif(ns.code==200):
print ns.read()
else:
print 'there is an error';
if(not locals().has_key('modified')):
modified=time.time();
req.add_header('If-Modified-Since',modified)
time.sleep(10)
分享到:
相关推荐
Python爬虫技术在数据获取和分析中扮演着重要角色,特别是在社交媒体信息的抓取上,如本例中的微博评论抓取。以下是一个完整的Python爬虫代码教程,它演示了如何利用Python来抓取微博的评论。 首先,我们需要导入一...
Python+Selenium+Chromedriver是实现自动化网页抓取和测试的一种常见组合。在这个场景中,我们将探讨如何使用这些工具来创建一个简单的爬虫。 首先,Selenium是一个强大的Web应用程序测试框架,它允许开发者模拟...
看了微信大牛用Python绘制全国疫情地图,也手痒试一把。 基本步骤就是: 1.安装环境 2.抓取数据 3.绘制地图 4.输出网页 一、爬取数据 1)安装常用的python爬虫工具:beautifulsoup4、requests pip install requests ...
至此,你已经具备了创建一个能抓取并保存英雄联盟高清壁纸的Python3爬虫的基本知识。在实际运行过程中,还需注意处理异常,避免重复下载,以及遵守网站的robots.txt规则,确保爬虫行为合法且道德。最后,可以通过`...
- "zt"和"t"这两个文件或文件夹的含义不明确,可能包含特定的功能代码或资源文件。 总结来说,这个压缩包提供了一个完整的做菜网程序,包括源代码、必要的配置文件和部署指南,适合对烹饪网站感兴趣的开发者或运营...