#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/1/23 15:42 # @Author : Aries # @Site : # @File : yy.py # @Software: PyCharm import requests import time from lxml import html headers = { 'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36", 'x-devtools-emulate-network-conditions-client-id': "(6DC99B5E32009D9E60CDB0C3B620074)", 'upgrade-insecure-requests': "1", 'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", 'accept-language': "zh-CN,zh;q=0.9,en;q=0.8", 'cookie': "udb_passdata=1; PHPSESSID=91siudst3ptb6egbjgh8j3rn42; SoundValue=0.50; guid=0e74abb6d4e5665a0c52c0e3c1e35727; __yasmid=0.2352245147818357; __yamid_tt1=0.2352245147818357; __yamid_new=C7D8A9F6CD3000013AA46C206EC0135D; _yasids=__rootsid%3DC7D8A9F6CDA00001226020701A00E5B0; Hm_lvt_51700b6c722f5bb4cf39906a596ea41f=1516692949; isInLiveRoom=; Hm_lpvt_51700b6c722f5bb4cf39906a596ea41f=1516696335", 'cache-control': "no-cache", } class huyaFcukYouSpider: urlStyle = "http://www.huya.com/g" ''' 解析出来全部分类网页内容 ''' def huyaRootHtml(self): print("开始分析虎牙分类======》》》") roothtml = requests.get(huyaFcukYouSpider.urlStyle,headers = headers) print("爬分类返回状态码======》》》"+str(roothtml.status_code)) return roothtml.text ''' 解析出来分类html ''' def itmStyle(self,roothtml): tree = html.fromstring(roothtml) hrefs = tree.xpath('//*[@id="js-game-list"]/li/a/@href') texts = tree.xpath('//*[@id="js-game-list"]/li/a/img/@title') styleObjects = [] for (text, href) in zip(texts, hrefs): styleObject = {"text":text,'href':href} styleObjects.append(styleObject) print("分类已经获取成功,大哥开始对下面的频道吧") print("分类数量:"+ str(len(styleObjects))) return styleObjects ''' 请求频道内的信息 ''' def itemContent(self, styleObjects): for item in styleObjects: print("开始分析 "+item["text"]+" ======》》》") itemhtml = requests.get(item["href"], headers=headers) print("爬"+item["text"]+"返回状态码======》》》" + str(itemhtml.status_code)) tree = html.fromstring(itemhtml.text) titles = tree.xpath('//*[@id="js-live-list"]/li/a[contains(@class,"title") and contains(@class,"new-clickstat")]/text()') nicknames = tree.xpath('//*[@id="js-live-list"]/li[@class="game-live-item"]/span/span[contains(@class,"avatar") and contains(@class,"fl")]/i/text()') numbers = tree.xpath('//*[@id="js-live-list"]/li[@class="game-live-item"]/span/span[@class="num"]/i[@class="js-num"]/text()') for (title, nickname,number) in zip(titles, nicknames,numbers): print("\t\t主播:"+nickname+";正在频道名称为: "+title +"直播,观看人数:"+str(number)) #感觉慢就去掉 time.sleep(1) # 感觉慢就去掉 time.sleep(10) pass def go(self): rootHtml = self.huyaRootHtml() styleObjects = self.itmStyle(rootHtml) self.itemContent(styleObjects) huya = huyaFcukYouSpider() huya.go()
感觉慢就把time.sleep去掉
相关推荐
“虎牙直播”是一个流行的在线游戏直播平台,包含了大量的主播、游戏和活动。封面图片通常代表了直播内容的主题,吸引观众点击进入直播间。因此,爬取这些图片可能是为了数据分析、内容聚合或者个人收藏等多种目的。...
Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。Python requests爬虫实例
8. 数据存储:爬取到的商品信息和评论通常需要保存到本地文件或数据库中。CSV、Excel和SQLite是常见的存储选择,对于大量数据,还可以考虑使用MySQL、PostgreSQL等关系型数据库,或者MongoDB这样的NoSQL数据库。 9....
`requests.get()`方法返回一个`Response`对象,该对象包含了丰富的属性和方法,用于获取响应信息。以下是一些常用的属性: - **`r.status_code`**:HTTP请求的返回状态码,如200表示连接成功,404表示页面未找到。 ...
北航博雅课程 Python + requests 爬虫接口.zip 北航博雅课程 Python + requests 爬虫接口。 提供最基本的登录,查询,选课,退选接口。 你可以在此之上开发自己的程序。 安装 python 安装依赖包,在终端输入以下...
pyhton+requests 爬链家二手房
# 第一个爬虫示例,爬取百度页面 import requests #导入爬虫的库,不然调用不了爬虫的函数 response = requests.get("http://www.baidu.com") #生成一个response对象 ...print(response.text)#输出爬取的信息
爬虫 requests pandas multiprocessing 多线程 用pandas处理数据
网络爬虫,也称为网页爬虫,是一种用于抓取和提取网络信息的程序。它可以模仿人类在网络上浏览和查找信息的行为,自动地检索、提取和存储网络上的信息。本文将为读者介绍如何使用Python语言进行网络爬虫,从零基础开始...
### 使用Python的Requests、Selenium和BeautifulSoup结合的爬虫示例代码,用于爬取带有分页的动态网页 在本篇文章中,我们将探讨一种利用Python中的Requests、Selenium和BeautifulSoup三种工具来抓取动态网页数据的...
- **请求方法 method**:如 GET 和 POST,直接调用对应的函数即可,如 `requests.get(url)` 或 `requests.post(url, data=data)`。 - **URL url**:要请求的资源地址。 - **参数 params**:通常用于 URL 查询字符串...
在Python编程领域,网络爬虫是获取网页数据的重要手段,其中`requests`和`urllib`库是最常用的两个工具。本篇文章将详细讲解如何利用这两个库来实现简单的网络爬虫。 首先,`requests`库是一个非常受欢迎的HTTP...
在Python编程领域,网络爬虫是一种常用的数据获取技术,用于自动化地从互联网上抓取信息。其中,`requests`库是Python中最受欢迎的HTTP客户端库,它使得发送HTTP请求变得简单易行。本文将深入探讨`requests`库在...
此链接提供了关于requests库更为详尽的教程,包括高级用法和最佳实践。 #### Requests请求 - **GET方法**: GET请求用于获取资源信息。在requests库中,使用`requests.get()`方法发起GET请求。其中`url`参数是必须...
本教程将探讨如何利用正则表达式(RegEx)和requests库来抓取猫眼电影网站上的TOP100电影信息。猫眼是中国知名的电影票务平台,其Top100电影排行榜提供了丰富的电影数据。 首先,我们需要了解`requests`库,这是一...
发现之前学习爬虫有些粗糙,竟然连requests中添加cookies都没有掌握,惭愧。废话不宜多,直接上内容。 我们平时使用requests获取网络内容很简单,几行代码搞定了,例如: import requests res=requests.get...
使用场景及目标:学习如何使用 requests 和 BeautifulSoup 进行简单的网页爬虫开发,获取特定网站的数据。 阅读建议:读者可以在自己的环境中运行示例代码,并结合本文提供的详细解释进行练习,同时注意遵守网站的...
`requests.get()`和`requests.post()`返回一个`Response`对象,包含了服务器的响应信息。例如,`r.text`获取网页的文本内容,`r.encoding`可以查看或设置响应的编码方式,`r.url`获取实际请求的URL,`r.content`为...
python商品评论数据采集与分析可视化系统 Flask框架 requests爬虫 NLP情感分析 毕业设计 源码 一、项目介绍 python商品评论数据采集与分析可视化系统 Flask框架、MySQL数据库、 requests爬虫、可抓取指定商品评论、...
在实战项目中,使用Requests库可以方便地实现定向网络数据爬取和网页解析。例如,爬取京东或亚马逊商品页面,可以通过构建正确的URL,并使用Requests库发送GET请求。获取到页面内容之后,可以使用HTML解析库如...