再看我们要抓取的数据,网页是这样的:
这里是我们要抓取的数据:
打开chrome的调试工具发现数据是通过一个Ajax请求来获取的:
这样的话,获取数据就太简单了,因为完全不需要去解析html页面,只需要将返回的json串解析即可得到数据
class subwayquery:
url='http://subway.simba.taobao.com/report/getNetworkPerspective.htm'
def __init__(self,token,cookiestr):
self.data= {
'sla':'json',
'isAjaxRequest':'true',
'token':token,
'_referer':'/tools/insight/queryresult?tab=tabs-region&start=&end=&kws=',
}
self.token=token
self.postdata=urllib.parse.urlencode(self.data).encode('utf-8')
self.startDate=(datetime.datetime.now()-datetime.timedelta(days=8)).strftime('%Y-%m-%d')
self.endDate=(datetime.datetime.now()-datetime.timedelta(days=1)).strftime('%Y-%m-%d')
self.headers= {
'Host':'subway.simba.taobao.com',
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Language':'zh-CN,zh;q=0.8',
'Connection' : 'Keep-Alive',
'Cookie' : cookiestr,
'Origin':'http://subway.simba.taobao.com',
'Cache-Control':'max-age=0',
'X-Requested-With':'XMLHttpRequest'
}
self.http=urllib3.PoolManager(headers=self.headers,timeout=15,retries=15)
def query(self,keyword,perspectiveType):
tourl=self.url+'?bidwordstr='+urllib.parse.quote(keyword)+'&startDate='+self.startDate+'&endDate='+self.endDate+'&perspectiveType='+perspectiveType
data= {
'sla':'json',
'isAjaxRequest':'true',
'token':self.token,
'_referer':'/tools/insight/queryresult?kws='+urllib.parse.quote(keyword)+'&tab=tabs-region&start=&end=',
}
try:
#10次重试保证返回值
i=0;
while(True):
response=self.http.request_encode_body('POST',tourl,fields=data)
parse=json.loads(response.data.decode())
if(parse['code']=='200'):
if(parse['result']):
return parse
else:
i+=1
if(i==10):
# print(keyword)
return False
else:
return False
return False
except Exception as e:
print(e)
return False
这里使用了urllib3的http连接池,可以方便地设置超时重连和重试次数。不知道为什么,经常会得到空的数据,返回json串的result中没有内容,所以这里设置了10次重试,基本可以保证不会得到空的值。
Python实现的淘宝直通车数据抓取(1)
Python实现的淘宝直通车数据抓取(2)
Python实现的淘宝直通车数据抓取(3)
Python实现的淘宝直通车数据抓取(4)
- 大小: 81.8 KB
- 大小: 55.6 KB
- 大小: 57 KB
分享到:
相关推荐
基于python实现的民宿房源数据抓取以及可视化分析项目源码(高分项目).zip 已获老师指导并通过的高分毕业设计项目,也可作为期末大作业和课程设计,纯手打高分项目,小白实战没难度。 基于python实现的民宿房源...
【Python-淘宝天猫商品数据抓取代码和exe都在里面】 这个资源主要涵盖了使用Python进行网络爬虫技术,特别是针对淘宝和天猫平台的商品数据抓取。Python作为一种强大的编程语言,因其简洁明了的语法和丰富的库支持,...
"Python爬虫技术的网页数据抓取与分析" 在信息化时代,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状。本文通过...
综上所述,文章介绍了基于Python的51-job数据抓取程序的设计与实现过程,强调了Python在数据抓取领域的应用优势,并通过实验验证了程序的效率和实用性。该程序不仅能够帮助用户快速获取职位信息,还为后续的数据分析...
淘宝美食抓取 存储到Mongodb和txt文件中 服务器端:通过web服务器的配置来指定编码参数,为所有text/html类型的文档指定带有正确编码信息的Content-Type头信息。例如Content-Type: text/html;charset=UTF-8 ...
本项目为淘宝天猫商品数据抓取及可视化设计源码,主要使用Python编写,辅以CSS、JavaScript和HTML等技术。项目包含677个文件,涵盖522个pyc文件、58个dll文件、29个py文件、19个pyd文件、10个exe文件、6个json文件、...
课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip课设项目基于python实现的...
【作品名称】:基于Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目...
python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...
获取淘宝直通车接口加密参数_h的值,跟随直通车后台不定时更新。(下载之后解压缩,python源码和js文件都在里面,运行py文件即可。如果遇到问题可以私聊我解决
在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...
首先,网页数据抓取是通过Python中的库如BeautifulSoup或Scrapy来实现的。BeautifulSoup库允许我们解析HTML和XML文档,通过选择器定位到特定的数据节点,提取所需信息。例如,在`anadata.py`和`anadata2.py`中可能...
项目概述:本项目采用Python语言开发,旨在实现对携程机票数据的爬取。整个项目由多个模块组成,包括...简单描述:本项目基于Python爬虫技术,针对携程机票数据进行高效抓取与处理,实现了数据整合与利用的前期工作。
Python车牌识别、车牌抓取源程序,运行程序前需先导入cv2和numpy包。
该项目是一款基于Python开发的电子商务数据抓取系统源码,包含380个文件,涵盖128个Python脚本、75个GIF图片、41个Markdown文档、27个JavaScript文件、22个CSV文件、18个JSON文件、18个HTML文件、10个TXT文件、10个...
Python爬虫工程师-App数据抓取思维导图,便捷整理思路,目标、对项目、公司、个人的意义、爬虫工程师技术储备
由于提供的文件信息中并没有具体的Python数据抓取技术与实战内容,我无法生成具体的技术知识点。但是,我可以根据标题“Python数据抓取技术与实战.pdf”来构建一些关于Python数据抓取的基础知识点和实战技巧。 知识...
在本压缩包中,我们拥有一个使用Python编程语言编写的淘宝爬虫示例,特别针对天猫平台的数据抓取。Python是一种流行的高级编程语言,尤其在数据处理和网络爬虫领域广泛应用。下面将详细介绍这个示例源码涉及的核心...
爬取淘宝手机月销售数据,以excel表格形式存储,以条形图形式展示不同品牌手机在淘宝的月销售量。可以通过更改关键字手机实现对其他商品的爬取。详细介绍...
基于对知乎热榜话题的数据抓取分析与可视化python实现源码+文档说明(高分完整项目)基于对知乎热榜话题的数据抓取分析与可视化python实现源码+文档说明(高分完整项目)基于对知乎热榜话题的数据抓取分析与可视化...