使用python3,比如爬kugo的榜单:
import requests
from bs4 import BeautifulSoup
import time
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
def get_info(url):
wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
ranks = soup.select('span.pc_temp_num')
titles = soup.select('div.pc_temp_songlist > ul > li > a')
times = soup.select('span.pc_temp_tips_r > span')
for rank,title,time in zip(ranks,titles,times):
data = {
'rank':rank.get_text().strip(),
'singer':title.get_text().split('-')[0],
'song':title.get_text().split('-')[0],
'time':time.get_text().strip()
}
print(data)
if __name__ == '__main__':
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
for url in urls:
get_info(url)
time.sleep(5)
在上面的代码中 from bs4 import BeautifulSoup首先导入;
然后设置headers,
然后 soup = BeautifulSoup(wb_data.text,'lxml') 中,调用BeautifulSoup,
设置lxml解析器;
然后在
ranks = soup.select('span.pc_temp_num')
titles = soup.select('div.pc_temp_songlist > ul > li > a')
这些,XPATH用CHROME浏览器的检查功能,查看下就可以了;
然后一个循环,把数据打印出来,注意其中用strip去掉空格;
然后
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
是python中很有特色的语法,设置一个URL的模板,其中{}就是要用format中的内容去替换的;
分享到:
相关推荐
python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识...
python 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本...
【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识...
python大作业--爬虫(完美应付大作业),Python大作业:爬虫(完美应付大作业)。 python大作业,简易爬虫 2020-2021学年上学期python大作业,爬取https://www.shicimingju.com ,模拟网站的7种搜索。 用pyqt5做...
python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python...
python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例...
基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价...
本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...
python爬虫案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫...
BeautifulSoup是一个用于解析HTML和XML文档的Python库,它提供了易于使用的接口来查找、提取和修改文档中的数据。在本项目中,BeautifulSoup可能被用来找到并提取百度百科页面中的特定信息,如条目标题、摘要、相关...
《Python网络爬虫详解与实践》 Python作为一门强大的编程语言,因其简洁的语法和丰富的库支持,在网络爬虫领域有着广泛的应用。本教程旨在帮助初学者和有一定基础的开发者深入理解和掌握Python网络爬虫技术,通过...
标题中的“python入门及网络爬虫参考书籍”表明这是一份关于学习Python编程语言和网络爬虫技术的资源集合。这些书籍将引导初学者逐步掌握Python的基础知识,并深入到网络爬虫的实践应用中。 首先,让我们来看看...
爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...
这个项目"Python-基于python36的微博爬虫scrapy"就是利用Scrapy来抓取微博平台上的公开信息,例如用户资料、微博内容、评论等。 Scrapy是用Python编写的,它提供了一整套架构,包括数据提取、请求调度、中间件处理...
python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python爬虫淘宝京东拼多多python...
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等...基于python的疫情数据爬虫+微博关键词爬虫(数据库)+数据预处理及可视化+数据情感分析源码+项目说明.zip
### 基于Python的招聘网站爬虫及可视化的知识点 #### 1. 课题概述 - **课题内容**:本课题旨在开发一个基于Python的网络爬虫系统,该系统能够从主流招聘网站抓取招聘信息,并对抓取的数据进行整理、分析及可视化...
基于python招聘岗位数据爬虫及可视化分析设计源码基于python招聘岗位数据爬虫及可视化分析设计源码基于python招聘岗位数据爬虫及可视化分析设计源码基于python招聘岗位数据爬虫及可视化分析设计源码基于python招聘...