·思路简介:
时间是关键, 如果能抓准服务器的时间, 可以说胜算将得到很大的提高, 如何抓取服务器时间? 我们知道在通过HTTP对服务器发起请求时, 在响应的服务器头文件中包含所请求网页的相关条件信息, 其中有个Date头域, 里面记录着相关的时间, 我们就通过这个来获取cnblogs的服务器时间。
#!/usr/bin/python #------------------------------------------------------------------------------- # Name: GrabBook.py # Purpose: # # Author: Mr.Wid # # Created: 22-10-2012 # Copyright: (c) Mr.Wid 2012 # Licence: GNU GPL #------------------------------------------------------------------------------- import re import time import urllib import urllib2 import httplib import cookielib username = 'mr_wid' #你的用户名, 改为你的 password = 'xxxxxxxx' #你的密码 #先定义好编码转换函数 def en(x): return x.encode('utf-8') def cn(x): return x.decode('utf-8') #获取cnblogs服务器时间 def GetCnblogsServerTime(): """获取cnblogs服务器时间 GetCnblogsServerTime() -> list NOTE: 原理是通过服务器头文件响应获取服务器时间 """ conn = httplib.HTTPConnection( 'www.cnblogs.com' ) conn.request( 'GET', '/' ) response = conn.getresponse() ts = response.getheader('date') ltime = time.strptime( ts[5:25], '%d %b %Y %H:%M:%S' ) #按照特定时间格式将字符串转换为时间类型 serverTime = time.strftime( '%H:%M:%S', time.localtime(time.mktime(ltime)+ 8*3600 )).split(':') #将GMT时间转换为北京时间并以列表形式返回, -> [ hour, minute, second ] return serverTime #登录博客园 def cnblogs_login(): """登录博客园 cnblogs_login() -> None """ params_post = urllib.urlencode({ '__EVENTTARGET': '', '__EVENTARGUMENT': '', '__VIEWSTATE': r'/wEPDwULLTE1MzYzODg2NzZkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcm1QYDyKKI9af4b67Mzq2xFaL9Bt', '__EVENTVALIDATION': r'/wEWBQLWwpqPDQLyj/OQAgK3jsrkBALR55GJDgKC3IeGDE1m7t2mGlasoP1Hd9hLaFoI2G05', 'tbUserName':en(username), 'tbPassword':en(password), 'btnLogin':en('登录') }) cookie=cookielib.CookieJar() opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) urllib2.install_opener(opener) login_response=urllib2.urlopen('http://passport.cnblogs.com/login.aspx?',params_post) #给大叔发表一条评论 def PuhsishContent( content ): """给大叔发表一条评论 PuhsishContent( string content ) -> None """ comment_post = urllib.urlencode({ '__VIEWSTATE':en('/wEPDwUJNDYwODU2NjU1ZGQ='), 'txbComment': en(content), 'btnSubmint': en('提交评论') }) page = urllib2.urlopen( r'http://m.cnblogs.com/mobileAddComment.aspx?id=101461&entry=2733027', comment_post ) data = page.read() page.close() print cn( data ) #开始抢书 def PuhsishContentInTime(): luckHour = [ 10, 12, 14, 16, 18, 20 ] #这是幸运小时数 cnblogs_login() #登录博客园 while True: serverTime = GetCnblogsServerTime() #获取服务器时间 print serverTime if int(serverTime[0]) in luckHour and int(serverTime[1]) == 59: #当最新评论的分钟数为59分59秒时准备抢书 for i in range( int(serverTime[2]), 60 ): #进入最后倒计时阶段 time.sleep(1) time.sleep(0.75) #在59分59秒750毫秒时开始提交评论, 可自行调节毫秒数, sleep参数单位为秒 PuhsishContent( '大叔我来抢书啦~抢抢抢抢抢......' ) print '抢书任务完成, 下一轮抢书任何将在55分钟后自动执行, 等待...' time.sleep(55 * 60) #休息55分钟, 汤姆大叔说了, 连评无效 #time.sleep(1) #休息1秒再获取服务器时间 #执行抢书动作 PuhsishContentInTime() #这次真可以慢慢挂这个抢书了, 挂三天说不定就真有了!
在
time.sleep(0.75) #59分59秒后延迟750毫秒后开始抢书, 可自行调节毫秒数, sleep参数为秒
这行就是可自行调节的毫秒数, 输入小数表示毫秒级。
提示: 这里是使用了一个while True的死循环, 在获取时间是会产生大量的请求, 如果cnblogs一定时间内的请求数量有限制的话, 可以在while True里加上time.sleep(1)休息一秒再获取服务器时间, 对抢书的动作执行是没多大影响的, 在示例代码中我已将该句添加, 但是又将其注释掉了,
#time.sleep(1) ##休息1秒再获取服务器时间
这样就会产生大量的请求, 注释掉的原因是为了可以方便的查看每秒能产生多少次请求, 即每秒与服务器时间校对的频率, wid这平均每秒校对15次左右, 确保时间与服务器同步, 剩下的就仅是网络的延迟问题了。
来自:http://www.cnblogs.com/mr-wid/archive/2012/10/22/2734695.html
相关推荐
在Python编程领域,网页截图是一项常见的任务,尤其在自动化测试、数据抓取或者网页快照保存等场景中。本项目"python实现网页截图(v1.0.0)"是作者学习过程中的一个实践,旨在掌握如何利用Python库来完成网页的截取...
**Python-urlwatch:网页更新监控利器** `Python-urlwatch` 是一个基于 Python 开发的开源工具,用于监控网页内容的变化。它能够定期检查指定的URL,一旦发现网页内容有更新,就会通过邮件、终端提示或其他自定义...
Python网络爬虫是一种用于自动化获取网页内容的程序,它能够帮助我们从互联网上抓取大量信息,例如新闻、数据、文章等。在这个过程中,我们主要会用到Python的一些库,如requests、BeautifulSoup和Scrapy等。下面...
描述中提到,“网页监控更新工具”是一个能够检测网页内容变化并报告差异的软件。它指出该工具运行在Windows 7操作系统上,并且需要Python 2.7.3版本的支持。这意味着你需要具备一定的Python基础知识,以及一个兼容...
在Python编程中,有时我们需要与浏览器交互,例如自动化测试、数据抓取或模拟用户操作。在这样的场景下,调用浏览器的某些功能,比如打印网页,就显得尤为重要。本篇文章将详细讲解如何使用Python调用IEHtmlWindow来...
**Python网页信息抓取技术详解** 网页信息抓取,也称为网络爬虫或网页抓取,是通过自动化程序从互联网上获取大量数据的过程。在这个领域,Python语言因其强大的库支持和简洁的语法而成为首选工具。本教程将深入探讨...
Python网页OA系统POC漏洞检测系统 框架FLask + python + OAPOC payload 角色介绍 管理员 admin 123456 模块介绍 登录模块 首页模块 OA安全检测子模块(支持多个url或者单个url检测,调用payload并在界面回馈检测...
在本主题中,我们将深入探讨如何使用Python进行视频中的目标检测。目标检测是计算机视觉领域的一个重要任务,它涉及识别并定位图像或视频帧中的特定对象。Python由于其丰富的库和简洁的语法,成为了实现这一功能的...
Python基于Scrapy的页面敏感词检测工具是一种高效的数据抓取和处理框架,它结合了Scrapy库的强大功能,用于从网页中抓取信息并进行特定的敏感词检测。本工具适用于那些需要监控网络内容,避免违规信息发布的场景,如...
"基于Python的网页自动化工具"是指利用Python编写脚本,实现对网页的自动控制和数据处理。这类工具能够极大地提高工作效率,减少重复性劳动,尤其是在网页测试、数据抓取和网络爬虫等方面。 首先,我们要提到的一个...
一个简单的python示例,实现抓取 嗅事百科 首页内容 ,大家可以自行运行测试
为了方便测试,用本地文本文件代替抓取网页 步骤二、处理数据,如果页面代码比较规范标准,可以用HTMLParser进行简单处理,只是具体情况需要具体分 析,感觉还是用正则比较好一些,顺便练习一下刚学习的正则表达式。...
Python爬虫爬取网页信息是网络数据采集的重要技术,它允许开发者通过自动化程序获取大量网页内容。本资源基于Python3.5环境,旨在教授如何利用Python编写爬虫来抓取百度百科上的1000个词条信息。在这个过程中,我们...
pythonweb大作业,实现增删改查。分享pythonweb大作业,云认证平台登录,使用的是mongodb数据库。可查看运行教程 链接:https://blog.csdn.net/weixin_43960044/article/details/101012182
在Python编程领域,Selenium是一个强大的自动化测试工具,它能够模拟真实用户操作浏览器,进行网页交互。本教程将深入探讨如何使用Selenium实现网页的全屏截图以及选取特定区域进行截图,并通过Web服务展示这些截图...
总的来说,这个Python爬虫项目展示了如何结合网络请求、HTML解析、文件下载和多媒体处理等技术,实现自动抓取和合成m3u8网页视频。通过学习和实践此类项目,开发者不仅可以提升自己的Python编程能力,还能深入理解...
在Python编程领域,开发网页应用批量提取导出核酸结果是一个典型的任务,这涉及到网络爬虫技术、数据分析以及用户界面设计。下面将详细讲解这个过程涉及的知识点。 首先,我们需要了解Python作为开发语言的优势。...
Python的应用广泛,涵盖游戏开发、网页制作、人工智能、数据分析、科学计算、云计算和网络爬虫等多个方面。测试让孩子们选择他们最感兴趣的领域,这有助于激发他们的学习动力并确定教学方向。 6. **编程认知与动机...
本项目基于Python语言实现了一款网页篡改检测工具,它能够有效地检查网页文本和图片是否发生变动,确保网站信息的准确性和安全性。下面将详细阐述这款工具的核心功能和实现原理。 首先,该工具的核心功能分为两部分...
5. **集成与扩展**:作为一个Python库,AGENT可以方便地与其他Python测试框架集成,如pytest。同时,它的开放源码特性允许开发者根据具体需求进行定制和扩展,增强了工具的灵活性。 在实际应用中,“Python-AGENT”...