再看我们要抓取的数据,网页是这样的:
这里是我们要抓取的数据:
打开chrome的调试工具发现数据是通过一个Ajax请求来获取的:
这样的话,获取数据就太简单了,因为完全不需要去解析html页面,只需要将返回的json串解析即可得到数据
class subwayquery:
url='http://subway.simba.taobao.com/report/getNetworkPerspective.htm'
def __init__(self,token,cookiestr):
self.data= {
'sla':'json',
'isAjaxRequest':'true',
'token':token,
'_referer':'/tools/insight/queryresult?tab=tabs-region&start=&end=&kws=',
}
self.token=token
self.postdata=urllib.parse.urlencode(self.data).encode('utf-8')
self.startDate=(datetime.datetime.now()-datetime.timedelta(days=8)).strftime('%Y-%m-%d')
self.endDate=(datetime.datetime.now()-datetime.timedelta(days=1)).strftime('%Y-%m-%d')
self.headers= {
'Host':'subway.simba.taobao.com',
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Language':'zh-CN,zh;q=0.8',
'Connection' : 'Keep-Alive',
'Cookie' : cookiestr,
'Origin':'http://subway.simba.taobao.com',
'Cache-Control':'max-age=0',
'X-Requested-With':'XMLHttpRequest'
}
self.http=urllib3.PoolManager(headers=self.headers,timeout=15,retries=15)
def query(self,keyword,perspectiveType):
tourl=self.url+'?bidwordstr='+urllib.parse.quote(keyword)+'&startDate='+self.startDate+'&endDate='+self.endDate+'&perspectiveType='+perspectiveType
data= {
'sla':'json',
'isAjaxRequest':'true',
'token':self.token,
'_referer':'/tools/insight/queryresult?kws='+urllib.parse.quote(keyword)+'&tab=tabs-region&start=&end=',
}
try:
#10次重试保证返回值
i=0;
while(True):
response=self.http.request_encode_body('POST',tourl,fields=data)
parse=json.loads(response.data.decode())
if(parse['code']=='200'):
if(parse['result']):
return parse
else:
i+=1
if(i==10):
# print(keyword)
return False
else:
return False
return False
except Exception as e:
print(e)
return False
这里使用了urllib3的http连接池,可以方便地设置超时重连和重试次数。不知道为什么,经常会得到空的数据,返回json串的result中没有内容,所以这里设置了10次重试,基本可以保证不会得到空的值。
Python实现的淘宝直通车数据抓取(1)
Python实现的淘宝直通车数据抓取(2)
Python实现的淘宝直通车数据抓取(3)
Python实现的淘宝直通车数据抓取(4)

- 大小: 81.8 KB

- 大小: 55.6 KB

- 大小: 57 KB
分享到:
相关推荐
基于python实现的民宿房源数据抓取以及可视化分析项目源码(高分项目).zip 已获老师指导并通过的高分毕业设计项目,也可作为期末大作业和课程设计,纯手打高分项目,小白实战没难度。 基于python实现的民宿房源...
【Python-淘宝天猫商品数据抓取代码和exe都在里面】 这个资源主要涵盖了使用Python进行网络爬虫技术,特别是针对淘宝和天猫平台的商品数据抓取。Python作为一种强大的编程语言,因其简洁明了的语法和丰富的库支持,...
本文将深入探讨一个基于Python的游戏协议数据抓取解析工具,该工具利用了wxWidgets、pywin32和WinPcap库来实现其功能。让我们逐一了解这些关键组件。 首先,`wxWidgets` 是一个跨平台的GUI工具包,用于帮助开发者...
综上所述,文章介绍了基于Python的51-job数据抓取程序的设计与实现过程,强调了Python在数据抓取领域的应用优势,并通过实验验证了程序的效率和实用性。该程序不仅能够帮助用户快速获取职位信息,还为后续的数据分析...
本项目是一个全面的商品数据分析与可视化平台,旨在通过Python编程实现对淘宝和天猫的商品数据进行高效抓取,并利用多种技术手段对数据进行可视化处理。项目的开发采用Python语言,并结合了前端技术,包括CSS、...
淘宝美食抓取 存储到Mongodb和txt文件中 服务器端:通过web服务器的配置来指定编码参数,为所有text/html类型的文档指定带有正确编码信息的Content-Type头信息。例如Content-Type: text/html;charset=UTF-8 ...
课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip课设项目基于python实现的...
【作品名称】:基于Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目...
python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...
获取淘宝直通车接口加密参数_h的值,跟随直通车后台不定时更新。(下载之后解压缩,python源码和js文件都在里面,运行py文件即可。如果遇到问题可以私聊我解决
首先,网页数据抓取是通过Python中的库如BeautifulSoup或Scrapy来实现的。BeautifulSoup库允许我们解析HTML和XML文档,通过选择器定位到特定的数据节点,提取所需信息。例如,在`anadata.py`和`anadata2.py`中可能...
项目概述:本项目采用Python语言开发,旨在实现对携程机票数据的爬取。整个项目由多个模块组成,包括...简单描述:本项目基于Python爬虫技术,针对携程机票数据进行高效抓取与处理,实现了数据整合与利用的前期工作。
项目文件中包含了49个Python脚本,这些脚本实现了从海豚比赛相关网站中抓取数据的核心功能。脚本的编写涉及到网络请求的发送、响应的解析、数据的提取和清洗等多个步骤,充分展示了Python在Web数据抓取方面的强大...
Python车牌识别、车牌抓取源程序,运行程序前需先导入cv2和numpy包。
内容概要:本文介绍了使用 Python 实现淘宝商品图片自动抓取的技术方法。作者以家中淘宝店主的实际需求为例,通过 Python 和正则表达式工具,实现网页 HTML 代码抓取,解析并提取出商品详情页面 URL,然后进一步获取...
Python爬虫工程师-App数据抓取思维导图,便捷整理思路,目标、对项目、公司、个人的意义、爬虫工程师技术储备
基于Python的ECommerceCrawlers系统就是其中之一,它作为一个强大的数据抓取系统,不仅支持多种编程语言,还能够抓取包括但不限于商品信息、价格、评论、用户行为等多种数据。 该项目的源码包含了380个文件,分布在...
它广泛应用于搜索引擎、市场分析、数据监控等多个领域,其中网络爬虫是实现数据抓取的核心工具之一。本项目以Python语言为依托,专注于开发一款针对兼职猫平台的数据抓取系统。兼职猫作为一款提供兼职信息的在线平台...
由于提供的文件信息中并没有具体的Python数据抓取技术与实战内容,我无法生成具体的技术知识点。但是,我可以根据标题“Python数据抓取技术与实战.pdf”来构建一些关于Python数据抓取的基础知识点和实战技巧。 知识...
在本压缩包中,我们拥有一个使用Python编程语言编写的淘宝爬虫示例,特别针对天猫平台的数据抓取。Python是一种流行的高级编程语言,尤其在数据处理和网络爬虫领域广泛应用。下面将详细介绍这个示例源码涉及的核心...