Cookie
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)
比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。
1.Opener
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是urlopen。它是一个特殊的opener,传入的参数仅仅是url,data,timeout。
如果我们需要用到Cookie,只用这个opener是不能达到目的的,所以我们需要创建更一般的opener来实现对Cookie的设置。
2.Cookielib
cookielib模块的主要作用是提供可存储cookie的对象,我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送,比如可以实现模拟登录 功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它们的关系:CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar
Python3中,cookielib改成 http.cookiejar,方法里也需改成 http.cookiejar
1)获取Cookie保存到变量
- import urllib.request
- import http.cookiejar
- #声明一个CookieJar对象实例来保存cookie
- cookie = http.cookiejar.CookieJar()
- #利用urllib.request库的HTTPCookieProcessor对象来创建cookie处理器
- handler=urllib.request.HTTPCookieProcessor(cookie)
- #通过handler来构建opener
- opener = urllib.request.build_opener(handler)
- #此处的open方法同urllib.request的urlopen方法,也可以传入request
- response = opener.open('http://www.baidu.com')
- for item in cookie:
- print('Name = '+item.name)
- print('Value = '+item.value)
结果:
- Name = BAIDUID
- Value = B07B663B645729F11F659C02AAE65B4C:FG=1
- Name = BAIDUPSID
- Value = B07B663B645729F11F659C02AAE65B4C
- Name = H_PS_PSSID
- Value = 12527_11076_1438_10633
- Name = BDSVRTM
- Value = 0
- Name = BD_HOME
- Value = 0
2)保存Cookie到文件
在上面的方法中,我们将cookie保存到了cookie这个变量中,如果我们想将cookie保存到文件中该怎么做呢?这时,我们就要用到FileCookieJar这个对象了,在这里我们使用它的子类MozillaCookieJar来实现Cookie的保存
- import http.cookiejar
- import urllib.request
- #设置保存cookie的文件,同级目录下的cookie.txt
- filename = 'cookie.txt'
- #声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件
- cookie = http.cookiejar.MozillaCookieJar(filename)
- #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
- handler = urllib.request.HTTPCookieProcessor(cookie)
- #通过handler来构建opener
- opener = urllib.request.build_opener(handler)
- #创建一个请求,原理同urllib2的urlopen
- response = opener.open("http://www.baidu.com")
- #保存cookie到文件
- cookie.save(ignore_discard=True, ignore_expires=True)
3)从文件中获取Cookie并访问
那么我们已经做到把Cookie保存到文件中了,如果以后想使用,可以利用下面的方法来读取cookie并访问网站
- import http.cookiejar
- import urllib.request
- #创建MozillaCookieJar实例对象
- cookie = http.cookiejar.MozillaCookieJar()
- #从文件中读取cookie内容到变量
- cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
- #创建请求的request
- req = urllib.request.Request("http://www.baidu.com")
- #利用urllib2的build_opener方法创建一个opener
- opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
- response = opener.open(req)
- print(response.read())
如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie,那么我们提取出这个cookie文件内容,就可以用以上方法模拟这个人的账号登录百度
例子:
创建一个带有cookie的opener,在访问登录的URL时,将登录后的cookie保存下来,然后利用这个cookie来访问其他网址。
如登录之后才能查看的成绩查询呀,本学期课表呀等等网址,模拟登录就这么实现啦
- import urllib
- import urllib2
- import cookielib
- filename = 'cookie.txt'
- #声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件
- cookie = cookielib.MozillaCookieJar(filename)
- opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
- postdata = urllib.urlencode({
- 'stuid':'201200131012',
- 'pwd':'23342321'
- })
- #登录教务系统的URL
- loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'
- #模拟登录,并把cookie保存到变量
- result = opener.open(loginUrl,postdata)
- #保存cookie到cookie.txt中
- cookie.save(ignore_discard=True, ignore_expires=True)
- #利用cookie请求访问另一个网址,此网址是成绩查询网址
- gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'
- #请求访问成绩查询网址
- result = opener.open(gradeUrl)
- print result.read()
===========================================================================================
(登录后获取cookie,然后将cookie放入header中传入请求)
我们尝试使用以下登录之后的Cookie:
使用Cookie有两种方式:
1、直接将Cookie写在header头部
# coding=utf-8 import requests from bs4 import BeautifulSoup #登录后cookie cookie = '''cisession=19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60;CNZZDATA1000201968=1815846425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483922031;Hm_lvt_f805f7762a9a237a0deac37015e9f6d9=1482722012,1483926313;Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9=1483926368''' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36', 'Connection': 'keep-alive', 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Cookie': cookie} url = 'https://kankandou.com/book/view/22353.html' wbdata = requests.get(url,headers=header).text soup = BeautifulSoup(wbdata,'lxml') print(soup)
2、使用requests插入Cookie
# coding=utf-8 import requests from bs4 import BeautifulSoup #登录后cookie cookie = { "cisession":"19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60", "CNZZDATA100020196":"1815846425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483922031", "Hm_lvt_f805f7762a9a237a0deac37015e9f6d9":"1482722012,1483926313", "Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9":"1483926368" } url = 'https://kankandou.com/book/view/22353.html' wbdata = requests.get(url,cookies=cookie).text soup = BeautifulSoup(wbdata,'lxml') print(soup)
。。。
相关推荐
这是一篇关于cookie的来源,以及cookie的简单介绍,有cookie的一些方法的实例,进行简单的cookie总结
学习,cookie,笔记和总结,cookie和session的区别
总结,Cookie是Web开发中的基础组件,用于维护客户端和服务器的状态。理解Cookie的读写和子Cookie的概念,以及如何利用工具类进行操作,对于任何Web开发者来说都是至关重要的技能。通过熟练掌握这些知识,你可以更...
总结来说,JS和Java Cookie提供了在客户端和服务器端存储和读取数据的方法,而Regex则作为一种强大的文本处理工具,用于处理和验证Cookie的格式。掌握这些技术,对于Web开发人员来说至关重要,能够帮助他们构建更加...
总结来说,易语言的“取设cookie”功能是网络编程中的核心部分,对于开发基于HTTP协议的Web应用程序至关重要。通过熟练掌握`InternetSetCookieA`和`InternetGetCookieA`函数的使用,可以有效地实现用户身份验证、...
**总结** Cookie分析工具如IECookiesView v1.73是网络技术的重要辅助工具,它既有助于个人管理自己的隐私,也有助于网站开发者提升服务质量。了解和使用这类工具,可以更好地理解和控制网络环境中的数据交互,维护...
总结来说,原生登录cookie保持提供给WebView使用涉及到Android的`CookieManager`类和WebView的生命周期管理。通过以上步骤,我们可以有效地在原生应用和WebView之间共享登录状态,为用户提供无缝的浏览体验。在实际...
总结来说,【C# Cookie提取工具】是一个利用C#编程语言实现的实用工具,通过与HTTP服务器交互并解析响应,高效地提取网站Cookie信息。它依赖于C#的网络编程功能,并可能利用自定义的NativeMethods进行底层操作,提供...
总结起来,jQuery Cookie插件使得在JavaScript环境中操作Cookie变得简单易行。无论是设置、读取还是删除Cookie,或是设定有效期和范围,都有明确的API供开发者调用。通过学习并应用这些知识点,你可以提升Web应用...
总结,`jquery.cookie.js`简化了JavaScript对Cookie的操作,使得在Web应用中管理用户数据变得更加便捷。然而,随着Web Storage(localStorage和sessionStorage)以及IndexedDB等现代存储技术的出现,对于大量数据或...
总结来说,jQuery Cookie是一个强大的工具,它使JavaScript中的Cookie操作变得简单而直观。通过使用这个插件,开发者可以更专注于业务逻辑,而不用花费太多精力在底层的Cookie操作上。无论你是初学者还是经验丰富的...
总结起来,`jquery.cookie.js`提供了一种方便的方式来处理客户端的Cookie操作,简化了诸如“记住密码”这样的功能的实现。在实际应用中,结合适当的加密和安全策略,我们可以为用户提供更便捷的体验,同时保证数据的...
总结,Cookie在.NET开发中扮演着重要的角色,用于存储和传递客户端状态信息。正确地操作和读取Cookie能帮助我们实现各种功能,如用户认证、会话管理等。理解Cookie的工作原理和.NET中的操作方式,有助于构建更高效、...
总结来说,Cookie是Web应用中维持会话状态的重要工具,通过用户名、密码和时间戳等信息生成,用于用户认证。理解并正确使用Cookie对于开发安全的Web服务至关重要。在实现时,要确保遵循最佳实践,保护用户数据的安全...
总结来说,“使用Cookie记录用户名和密码”是Web开发中的一种常见实践,涉及了Cookie的工作原理、安全存储策略以及防止XSS和CSRF攻击的方法。开发者需要理解这些概念,以确保用户信息的安全,并提供良好的用户体验。...
总结来说,Cookie登录机制是Web开发中的基础组件,用于保持用户的会话状态。开发者通常会用JavaScript来处理Cookie,设置用户登录信息,并通过与服务器的通信来确保安全性。标签“源码”和“工具”暗示了实际实现...
总结起来,Cookie在Web开发中扮演了不可或缺的角色,尽管在前后端分离的趋势下其使用频率有所下降,但仍然是理解Web交互和用户状态管理的重要组成部分。通过“Cookie学习练习记录”这样的实践项目,开发者可以更好地...
在Web开发中,Cookie是一种非常...总结,Cookie是Web应用程序中实现会话跟踪和存储少量信息的关键技术。`CookieUtil`类和`shopCarServlet`类的结合使用,展示了在实际场景中如何高效地管理和利用Cookie进行数据交互。
总结来说,删除Cookie是通过创建一个具有相同名称但过期时间设置为零的新Cookie,然后将其添加到响应中来实现的。对于删除所有Cookie,你需要遍历并处理所有已知的Cookie。正确地管理和删除Cookie对于保持良好的用户...
总结,ASP.NET中的Cookie在购物车应用中起到了关键作用,它帮助我们实现跨页面的数据持久化,而GridView则提供了一个直观的方式来展示和管理购物车中的商品。理解并熟练掌握这两者,对于开发功能丰富的Web应用程序至...