`
raphael10241024
  • 浏览: 13852 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Python实现的淘宝直通车数据抓取(2)

阅读更多
  再看我们要抓取的数据,网页是这样的:



  这里是我们要抓取的数据:



  打开chrome的调试工具发现数据是通过一个Ajax请求来获取的:




这样的话,获取数据就太简单了,因为完全不需要去解析html页面,只需要将返回的json串解析即可得到数据
class  subwayquery:
    url='http://subway.simba.taobao.com/report/getNetworkPerspective.htm'
    def __init__(self,token,cookiestr):
       self.data= {
           'sla':'json',
           'isAjaxRequest':'true',
           'token':token,
           '_referer':'/tools/insight/queryresult?tab=tabs-region&start=&end=&kws=',
           }
       self.token=token
       self.postdata=urllib.parse.urlencode(self.data).encode('utf-8')
       self.startDate=(datetime.datetime.now()-datetime.timedelta(days=8)).strftime('%Y-%m-%d')
       self.endDate=(datetime.datetime.now()-datetime.timedelta(days=1)).strftime('%Y-%m-%d')
       self.headers= {
            'Host':'subway.simba.taobao.com',
            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
            'Accept':'application/json, text/javascript, */*; q=0.01',
            'Accept-Language':'zh-CN,zh;q=0.8',
            'Connection' : 'Keep-Alive',
            'Cookie' : cookiestr,
            'Origin':'http://subway.simba.taobao.com',
            'Cache-Control':'max-age=0',
            'X-Requested-With':'XMLHttpRequest'
        }
       self.http=urllib3.PoolManager(headers=self.headers,timeout=15,retries=15)
    def query(self,keyword,perspectiveType):
        tourl=self.url+'?bidwordstr='+urllib.parse.quote(keyword)+'&startDate='+self.startDate+'&endDate='+self.endDate+'&perspectiveType='+perspectiveType
        data= {
           'sla':'json',
           'isAjaxRequest':'true',
           'token':self.token,
           '_referer':'/tools/insight/queryresult?kws='+urllib.parse.quote(keyword)+'&tab=tabs-region&start=&end=',
           }
        try:
            #10次重试保证返回值
            i=0;
            while(True):
                response=self.http.request_encode_body('POST',tourl,fields=data)
                parse=json.loads(response.data.decode())
                if(parse['code']=='200'):
                    if(parse['result']):
                        return parse
                    else:
                        i+=1
                        if(i==10):
                     #       print(keyword)
                            return False
                else:
                    return False
            return False
        except Exception as e:
            print(e)
            return False

这里使用了urllib3的http连接池,可以方便地设置超时重连和重试次数。不知道为什么,经常会得到空的数据,返回json串的result中没有内容,所以这里设置了10次重试,基本可以保证不会得到空的值。
Python实现的淘宝直通车数据抓取(1)
Python实现的淘宝直通车数据抓取(2)
Python实现的淘宝直通车数据抓取(3)
Python实现的淘宝直通车数据抓取(4) 
  • 大小: 81.8 KB
  • 大小: 55.6 KB
  • 大小: 57 KB
1
2
分享到:
评论

相关推荐

    基于python实现的民宿房源数据抓取以及可视化分析项目源码(高分项目).zip

    基于python实现的民宿房源数据抓取以及可视化分析项目源码(高分项目).zip 已获老师指导并通过的高分毕业设计项目,也可作为期末大作业和课程设计,纯手打高分项目,小白实战没难度。 基于python实现的民宿房源...

    Python-淘宝天猫商品数据抓取代码和exe都在里面

    【Python-淘宝天猫商品数据抓取代码和exe都在里面】 这个资源主要涵盖了使用Python进行网络爬虫技术,特别是针对淘宝和天猫平台的商品数据抓取。Python作为一种强大的编程语言,因其简洁明了的语法和丰富的库支持,...

    Python爬虫技术的网页数据抓取与分析.pdf

    "Python爬虫技术的网页数据抓取与分析" 在信息化时代,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状。本文通过...

    基于Python的51-job数据抓取程序设计.pdf

    综上所述,文章介绍了基于Python的51-job数据抓取程序的设计与实现过程,强调了Python在数据抓取领域的应用优势,并通过实验验证了程序的效率和实用性。该程序不仅能够帮助用户快速获取职位信息,还为后续的数据分析...

    python淘宝美食数据抓取

    淘宝美食抓取 存储到Mongodb和txt文件中 服务器端:通过web服务器的配置来指定编码参数,为所有text/html类型的文档指定带有正确编码信息的Content-Type头信息。例如Content-Type: text/html;charset=UTF-8 ...

    基于Python的淘宝天猫商品数据抓取及可视化设计源码

    本项目为淘宝天猫商品数据抓取及可视化设计源码,主要使用Python编写,辅以CSS、JavaScript和HTML等技术。项目包含677个文件,涵盖522个pyc文件、58个dll文件、29个py文件、19个pyd文件、10个exe文件、6个json文件、...

    课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip

    课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip课设项目基于python实现的...

    基于Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析

    【作品名称】:基于Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目...

    python爬虫,如何抓取网页数据

    python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...

    直通车 ztc_h python 源码

    获取淘宝直通车接口加密参数_h的值,跟随直通车后台不定时更新。(下载之后解压缩,python源码和js文件都在里面,运行py文件即可。如果遇到问题可以私聊我解决

    python抓取淘宝天猫网页商品详情Demo

    在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...

    Python网页数据抓取以及表格的制作

    首先,网页数据抓取是通过Python中的库如BeautifulSoup或Scrapy来实现的。BeautifulSoup库允许我们解析HTML和XML文档,通过选择器定位到特定的数据节点,提取所需信息。例如,在`anadata.py`和`anadata2.py`中可能...

    基于Python实现的携程机票数据爬取源码

    项目概述:本项目采用Python语言开发,旨在实现对携程机票数据的爬取。整个项目由多个模块组成,包括...简单描述:本项目基于Python爬虫技术,针对携程机票数据进行高效抓取与处理,实现了数据整合与利用的前期工作。

    Python车牌识别、车牌抓取源代码

    Python车牌识别、车牌抓取源程序,运行程序前需先导入cv2和numpy包。

    基于Python的ECommerceCrawlers电子商务数据抓取设计源码

    该项目是一款基于Python开发的电子商务数据抓取系统源码,包含380个文件,涵盖128个Python脚本、75个GIF图片、41个Markdown文档、27个JavaScript文件、22个CSV文件、18个JSON文件、18个HTML文件、10个TXT文件、10个...

    01-Python爬虫工程师-App数据抓取

    Python爬虫工程师-App数据抓取思维导图,便捷整理思路,目标、对项目、公司、个人的意义、爬虫工程师技术储备

    Python数据抓取技术与实战.pdf

    由于提供的文件信息中并没有具体的Python数据抓取技术与实战内容,我无法生成具体的技术知识点。但是,我可以根据标题“Python数据抓取技术与实战.pdf”来构建一些关于Python数据抓取的基础知识点和实战技巧。 知识...

    python 淘宝爬虫示例源码(抓取天猫数据).zip

    在本压缩包中,我们拥有一个使用Python编程语言编写的淘宝爬虫示例,特别针对天猫平台的数据抓取。Python是一种流行的高级编程语言,尤其在数据处理和网络爬虫领域广泛应用。下面将详细介绍这个示例源码涉及的核心...

    python爬取淘宝手机销售数据

    爬取淘宝手机月销售数据,以excel表格形式存储,以条形图形式展示不同品牌手机在淘宝的月销售量。可以通过更改关键字手机实现对其他商品的爬取。详细介绍...

    基于对知乎热榜话题的数据抓取分析与可视化python实现源码+文档说明(高分完整项目)

    基于对知乎热榜话题的数据抓取分析与可视化python实现源码+文档说明(高分完整项目)基于对知乎热榜话题的数据抓取分析与可视化python实现源码+文档说明(高分完整项目)基于对知乎热榜话题的数据抓取分析与可视化...

Global site tag (gtag.js) - Google Analytics