
最近在研究怎么样做个自动发帖器,要完成这个工具难度蛮大的,验证码就是一个大问题(还没有想到解决办法哦,不管了),先要解决的是如何抓取,分析和提交页面的问题。
下面是用python写的,使用lxml来做html分析,从网上看到的,说是分析速度最快的哦,不过没有验证过。好了,上代码。
import urllib
import urllib2
import urlparse
import lxml.html
def url_with_query(url, values):
parts = urlparse.urlparse(url)
rest, (query, frag) = parts[:-2], parts[-2:]
return urlparse.urlunparse(rest + (urllib.urlencode(values), None))
def make_open_http():
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
opener.addheaders = [] # pretend we're a human -- don't do this
def open_http(method, url, values={}):
if method == "POST":
return opener.open(url, urllib.urlencode(values))
else:
return opener.open(url_with_query(url, values))
return open_http
open_http = make_open_http()
tree = lxml.html.fromstring(open_http("GET", "http://www.google.com").read())
form = tree.forms[0]
form.fields["q"] = "eplussoft"
form.action="http://www.google.com/search"
response = lxml.html.submit_form(form,open_http=open_http)
html = response.read()
doc = lxml.html.fromstring(html)
lxml.html.open_in_browser(doc)
恩,验证码是个大问题。还有今天看了一些百度贴吧上的东西,更是坏了心情,它的验证码是用ajax取的图片,这就更加麻烦了。不过好像现在大多数的论坛和博客的验证码都是这样的了。这样第一次抓取下来的页面就不会包含有验证码图片了,更不要说分析验证码图片了。要解决的问题还是很多的。。。
还是小猫幸福,睡觉先。
分享到:
相关推荐
自动从txt读取flag并提交指定平台python脚本,AWD比赛专用,可以自定义内容,批量提交等,确保速度
"基于Python的网页自动化工具"是指利用Python编写脚本,实现对网页的自动控制和数据处理。这类工具能够极大地提高工作效率,减少重复性劳动,尤其是在网页测试、数据抓取和网络爬虫等方面。 首先,我们要提到的一个...
标题中的“使用Python编写的自动下载工具”表明这是一个利用Python编程语言开发的程序,它的主要功能是自动...掌握这些知识点,将有助于理解和复用这个Python自动下载工具,或者为自己的项目创建类似的自动化下载功能。
在Windows平台上,Python被广泛用于自动化任务,包括模拟用户交互,例如在网页上自动填写表单和提交内容。本示例将重点介绍如何使用Python的`pywin32`库来实现这一目标,特别是针对自动打卡场景。`pywin32`是一个...
4. **网络爬虫技术**:如果flag隐藏在网页的动态加载或多级导航中,可能需要用到网络爬虫技术,如Scrapy框架,来遍历和抓取整个网站内容。 5. **安全与加密**:在CTF比赛中,flag往往经过加密或混淆处理。参赛者...
下面是用python写的,使用lxml来做html分析,从网上看到的,说是分析速度最快的哦,不过没有验证过。好了,上代码。 复制代码 代码如下: import urllib import urllib2 import urlparse import lxml....
这通常涉及到网页表单的填充和提交,可以使用`selenium`的`find_element_by_*`方法定位元素,`send_keys`方法输入信息,然后`click`方法触发提交。为了确保登录成功,可以结合网页状态判断,例如检查登录后的特定...
标题中的"DakeleSign.zip_python 论坛_python签到_网页自动签到_自动签到"揭示了这个压缩包文件的主要内容,它包含了一个用Python编程语言编写的自动签到程序,特别针对论坛和网页签到场景。这个程序能够帮助用户...
该项目是关于利用Python进行自动化网页抢票的实现,主要涉及到了Selenium库的使用、Cookie的获取以及完整的网页信息解析。接下来,我们将深入探讨这些关键知识点。 首先,**Selenium** 是一个强大的Web应用程序测试...
6. **模拟登录**:抢票前通常需要用户登录,Python可以通过模拟填写表单和提交登录信息来实现自动登录,如使用requests库配合cookie管理,或者利用Selenium直接操作登录界面。 7. **验证码识别**:对于有验证码的...
使用工具如Burpsuite截获提交问卷时的数据包,这一步骤是为了获取提交问卷所需的数据格式。在截获的数据包中,可以看到提交的数据通常为一个字符串,例如`submitdata=1$2}2$3}3$3}4$4}5$3}6$2}7$4}8$2}9$3}10$3`。...
在Python编程领域,爬虫是一种常见的技术,用于自动地遍历和抓取互联网上的信息。本项目主要关注如何使用Python来获取顶级域名下的所有Host,并提取网页的关键信息,如Keyword、Title和Description。这里我们将详细...
本项目针对这一需求,通过Python编程语言结合Selenium工具,实现了一个自动化的网页抢票系统。Selenium是一个强大的自动化测试工具,它能够模拟用户在浏览器上的各种操作,例如点击、输入等,因此非常适合于进行自动...
在IT行业中,Python3已经成为广泛使用的编程语言,尤其在数据处理和自动化任务中表现突出。在本主题中,我们将深入探讨如何使用Python3和`python-gitlab`库通过GitLab API来获取GitLab仓库、用户以及用户组的相关...
总的来说,这个基于Python的大麦网自动抢票工具实现了从获取网页信息、解析数据、模拟用户行为到执行购票的一系列自动化流程,结合了多种Python技术,是Python应用的一个典型实例。通过这个项目,不仅可以学习Python...
1. **网络请求**:使用Python的requests库与大麦网服务器进行交互,发送HTTP请求获取网页内容或提交表单数据。 2. **网页解析**:由于网站内容通常是HTML格式,因此需要解析这些页面以提取所需信息。BeautifulSoup...
标题中的“Python全自动输入某网页测题的...总的来说,这个项目涵盖了Python编程、Web自动化测试、数据处理以及可能的网页抓取等多个方面,对于学习和理解如何使用Python和Selenium进行自动化操作具有很高的实践价值。
Python自动化测试框架是指使用Python语言实现自动化测试的框架,旨在提高测试效率和减少人工测试工作量。在这个框架中,我们可以使用Python语言来编写测试脚本,来自动化测试Web应用程序、桌面应用程序、移动应用...
总结起来,该软件是为了解决票务紧张时期无法手动快速购票的问题而设计的,它通过Python和selenium库的结合使用,实现了自动化抢票的过程。尽管该软件为用户提供了便利,但用户在使用时需遵守相关法律法规,不应对...
本篇内容将详细介绍如何利用Python语言和Selenium工具来自动化抓取同程旅行网站上的飞机票信息,并将这些数据存储到Excel文件中,供进一步的数据分析和处理使用。 在开始介绍之前,需要强调的是,网络爬虫虽然功能...