`
raphael10241024
  • 浏览: 13849 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Python实现的淘宝直通车数据抓取(1)

阅读更多
  最近帮一个朋友做一个抓取淘宝直通车数据的小项目,感觉ython比较适合写爬虫程序,决定使用Python来做程序。
  首先是登陆程序,因为淘宝的登陆校验很复杂,所以不能直接使用命令行的形式输入账号密码。查阅资料后,发现可以使用Selenium的自动测试框架,决定用这个框架实现登陆。
  首先下载一个纯净版的firefox浏览器,放到主目录下,然后用python打开浏览器:
def openbrowser_login():    
    binary=FirefoxBinary(os.getcwd()+'/Firefox/Firefox.exe')
    profile=FirefoxProfile()
    profile.set_preference("browser.cache.disk.enable",False)
    profile.set_preference("browser.cache.offline.enable",False)    
    driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=profile)
    driver.get('http://zhitongche.taobao.com/')
    while(True):
        if(len(driver.window_handles)>1):
           print('检测到页面跳转!')
           driver.switch_to.window(driver.window_handles[1]);
           time.sleep(3)
           driver.get(driver.current_url)
           time.sleep(5)
           break;
        else:
           time.sleep(2)
    cookie = [item["name"] + "=" + item["value"] for item in driver.get_cookies()]
    cookiestr=';'.join(item for item in cookie)
    try:
        driver.quit()
    except Exception as e:
        pass
    return cookiestr

  实现的方式就是先去文件目录下找到firefox的启动文件,然后使用浏览器打开淘宝直通车的登陆页,程序每隔两秒检测一次页面,如果发现新开了额外的标签,就认为是登录成功,这时把页面的cookie保存下来并返回。打开浏览器时同时设置了一些属性,profile是浏览器属性设置文件,这里将浏览器缓存功能关闭。
  下面是实现检查登陆的函数:
def check_login(cookiestr):
    print('开始登陆验证!') 
    url='https://i.taobao.com/my_taobao.htm'
    headers= {
            'Host':'i.taobao.com',
            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
            'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
#            'Accept-Encoding':'gzip, deflate',
            'Referer' :'https://www.taobao.com',
            'Content-Type': 'application/x-www-form-urlencoded',
            'Connection' : 'Keep-Alive',
            'Cookie' : cookiestr,
            'Cache-Control':'max-age=0',
        }
    request=urllib.request.Request(url,headers=headers)
    try:
        response=urllib.request.urlopen(request)
 #       print(response.geturl())
        if(response.geturl()==url):
            print('登陆验证通过!')
            return True        
    except Exception as e:
        print(e)
    print('登陆验证失败!请重新登陆!')
    return False

然后是检查淘宝直通车权限,如果检查权限通过,就将cookie文件保存下来方便下次使用:
def check_subway(cookiestr):
    print('开始淘宝直通车验证!')
    url='http://subway.simba.taobao.com/bpenv/getLoginUserInfo.htm'
    headers= {
            'Host':'subway.simba.taobao.com',
            'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
            'Accept':'application/json, text/javascript, */*; q=0.01',
            'Accept-Language':'zh-CN,zh;q=0.8',
            'Connection' : 'Keep-Alive',
            'Cookie' : cookiestr,
            'Origin':'http://subway.simba.taobao.com',
            'Cache-Control':'max-age=0',
            'X-Requested-With':'XMLHttpRequest'
        }
    request=urllib.request.Request(url,headers=headers)
    data={'_referer':'/tools/insight/index'}
    postdata=urllib.parse.urlencode(data).encode('utf-8')
    try:
        response=urllib.request.urlopen(request,data=postdata)
        string=response.read().decode()
        parse=json.loads(string)
        if(parse['code']=='200'):
            print('淘宝直通车验证通过!您当前以<'+parse['result']['nickName']+'>登陆')
            fp=open('cookie','wt')
            fp.write(cookiestr)
            fp.close()
            print('登陆cookie已经保存!')
            return parse['result']['token']        
    except Exception as e:
        print(e)
    print('淘宝直通车验证失败!请重新登陆!')
    return False

在主函数中,程序将优先加载cookie文件,cookie失效或没有cookie文件时打开浏览器进行登陆:
#主函数
if(os.path.exists('cookie')):
    print('检测到cookie文件!将使用cookie登陆!')
    fp=open('cookie','r')
    cookiestr=fp.read()
    fp.close()
else:
    cookiestr=openbrowser_login()
while(True):
    if(check_login(cookiestr)):
        token=check_subway(cookiestr)
        if(token!=False):
            break;
    cookiestr=openbrowser_login()

Python实现的淘宝直通车数据抓取(1)
Python实现的淘宝直通车数据抓取(2)
Python实现的淘宝直通车数据抓取(3)
Python实现的淘宝直通车数据抓取(4) 
分享到:
评论

相关推荐

    基于python实现的民宿房源数据抓取以及可视化分析项目源码(高分项目).zip

    基于python实现的民宿房源数据抓取以及可视化分析项目源码(高分项目).zip 已获老师指导并通过的高分毕业设计项目,也可作为期末大作业和课程设计,纯手打高分项目,小白实战没难度。 基于python实现的民宿房源...

    Python-淘宝天猫商品数据抓取代码和exe都在里面

    【Python-淘宝天猫商品数据抓取代码和exe都在里面】 这个资源主要涵盖了使用Python进行网络爬虫技术,特别是针对淘宝和天猫平台的商品数据抓取。Python作为一种强大的编程语言,因其简洁明了的语法和丰富的库支持,...

    Python爬虫技术的网页数据抓取与分析.pdf

    "Python爬虫技术的网页数据抓取与分析" 在信息化时代,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状。本文通过...

    基于Python的51-job数据抓取程序设计.pdf

    综上所述,文章介绍了基于Python的51-job数据抓取程序的设计与实现过程,强调了Python在数据抓取领域的应用优势,并通过实验验证了程序的效率和实用性。该程序不仅能够帮助用户快速获取职位信息,还为后续的数据分析...

    python淘宝美食数据抓取

    淘宝美食抓取 存储到Mongodb和txt文件中 服务器端:通过web服务器的配置来指定编码参数,为所有text/html类型的文档指定带有正确编码信息的Content-Type头信息。例如Content-Type: text/html;charset=UTF-8 ...

    基于Python的淘宝天猫商品数据抓取及可视化设计源码

    本项目为淘宝天猫商品数据抓取及可视化设计源码,主要使用Python编写,辅以CSS、JavaScript和HTML等技术。项目包含677个文件,涵盖522个pyc文件、58个dll文件、29个py文件、19个pyd文件、10个exe文件、6个json文件、...

    课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip

    课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip课设项目基于python实现的美团酒店评论抓取和情感分析源码+项目说明(jupter notebook运行).zip课设项目基于python实现的...

    基于Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析

    【作品名称】:基于Python实现豆瓣电影TOP250抓取,然后对爬取的数据进行分析 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目...

    python爬虫,如何抓取网页数据

    python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...

    直通车 ztc_h python 源码

    获取淘宝直通车接口加密参数_h的值,跟随直通车后台不定时更新。(下载之后解压缩,python源码和js文件都在里面,运行py文件即可。如果遇到问题可以私聊我解决

    python抓取淘宝天猫网页商品详情Demo

    在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...

    Python网页数据抓取以及表格的制作

    首先,网页数据抓取是通过Python中的库如BeautifulSoup或Scrapy来实现的。BeautifulSoup库允许我们解析HTML和XML文档,通过选择器定位到特定的数据节点,提取所需信息。例如,在`anadata.py`和`anadata2.py`中可能...

    基于Python实现的携程机票数据爬取源码

    项目概述:本项目采用Python语言开发,旨在实现对携程机票数据的爬取。整个项目由多个模块组成,包括...简单描述:本项目基于Python爬虫技术,针对携程机票数据进行高效抓取与处理,实现了数据整合与利用的前期工作。

    Python车牌识别、车牌抓取源代码

    Python车牌识别、车牌抓取源程序,运行程序前需先导入cv2和numpy包。

    基于Python的ECommerceCrawlers电子商务数据抓取设计源码

    该项目是一款基于Python开发的电子商务数据抓取系统源码,包含380个文件,涵盖128个Python脚本、75个GIF图片、41个Markdown文档、27个JavaScript文件、22个CSV文件、18个JSON文件、18个HTML文件、10个TXT文件、10个...

    01-Python爬虫工程师-App数据抓取

    Python爬虫工程师-App数据抓取思维导图,便捷整理思路,目标、对项目、公司、个人的意义、爬虫工程师技术储备

    Python数据抓取技术与实战.pdf

    由于提供的文件信息中并没有具体的Python数据抓取技术与实战内容,我无法生成具体的技术知识点。但是,我可以根据标题“Python数据抓取技术与实战.pdf”来构建一些关于Python数据抓取的基础知识点和实战技巧。 知识...

    python 淘宝爬虫示例源码(抓取天猫数据).zip

    在本压缩包中,我们拥有一个使用Python编程语言编写的淘宝爬虫示例,特别针对天猫平台的数据抓取。Python是一种流行的高级编程语言,尤其在数据处理和网络爬虫领域广泛应用。下面将详细介绍这个示例源码涉及的核心...

    python爬取淘宝手机销售数据

    爬取淘宝手机月销售数据,以excel表格形式存储,以条形图形式展示不同品牌手机在淘宝的月销售量。可以通过更改关键字手机实现对其他商品的爬取。详细介绍...

    基于对知乎热榜话题的数据抓取分析与可视化python实现源码+文档说明(高分完整项目)

    基于对知乎热榜话题的数据抓取分析与可视化python实现源码+文档说明(高分完整项目)基于对知乎热榜话题的数据抓取分析与可视化python实现源码+文档说明(高分完整项目)基于对知乎热榜话题的数据抓取分析与可视化...

Global site tag (gtag.js) - Google Analytics