- 浏览: 13852 次
- 性别:
- 来自: 北京
最新评论
文章列表
最后是将程序进行发布,安装pyinstaller,直接CMD到python文件的位置,运行命令 pyinstaller start.py 即可,然后将firefox浏览器放到相应的文件夹里。
看下最后的运行效果:
Python实现的淘宝直通车数据抓取(1)
Python实现的淘宝直通车数据抓取(2)
Python实现的淘宝直通车数据抓取(3)
Python实现的淘宝直通车数据抓取(4)
商家那里给出的是一个有几千行的excel表,这里使用openpyxl来读取excel。
class read_write:
def __init__(self,token,cookiestr):
self.subway=subwayquery(token,cookiestr)
self.threadpool=threadpool.ThreadPool(32)
self.centeralignment=openpyxl.styles.Alignment(horizontal='center')
self.perc ...
再看我们要抓取的数据,网页是这样的:
这里是我们要抓取的数据:
打开chrome的调试工具发现数据是通过一个Ajax请求来获取的:
这样的话,获取数据就太简单了,因为完全不需要去解析html页面,只需要将返回的json串解析即可得到数据
class subwayquery:
url='http://subway.simba.taobao.com/report/getNetworkPerspective.htm'
def __init__(self,token,cookiestr):
self.data= {
...
最近帮一个朋友做一个抓取淘宝直通车数据的小项目,感觉ython比较适合写爬虫程序,决定使用Python来做程序。
首先是登陆程序,因为淘宝的登陆校验很复杂,所以不能直接使用命令行的形式输入账号密码。查阅资料后,发现可以使用Selenium的自动测试框架,决定用这个框架实现登陆。
首先下载一个纯净版的firefox浏览器,放到主目录下,然后用python打开浏览器:
def openbrowser_login():
binary=FirefoxBinary(os.getcwd()+'/Firefox/Firefox.exe')
profile=Firef ...