使用python3,比如爬kugo的榜单:
import requests
from bs4 import BeautifulSoup
import time
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
def get_info(url):
wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
ranks = soup.select('span.pc_temp_num')
titles = soup.select('div.pc_temp_songlist > ul > li > a')
times = soup.select('span.pc_temp_tips_r > span')
for rank,title,time in zip(ranks,titles,times):
data = {
'rank':rank.get_text().strip(),
'singer':title.get_text().split('-')[0],
'song':title.get_text().split('-')[0],
'time':time.get_text().strip()
}
print(data)
if __name__ == '__main__':
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
for url in urls:
get_info(url)
time.sleep(5)
在上面的代码中 from bs4 import BeautifulSoup首先导入;
然后设置headers,
然后 soup = BeautifulSoup(wb_data.text,'lxml') 中,调用BeautifulSoup,
设置lxml解析器;
然后在
ranks = soup.select('span.pc_temp_num')
titles = soup.select('div.pc_temp_songlist > ul > li > a')
这些,XPATH用CHROME浏览器的检查功能,查看下就可以了;
然后一个循环,把数据打印出来,注意其中用strip去掉空格;
然后
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
是python中很有特色的语法,设置一个URL的模板,其中{}就是要用format中的内容去替换的;
分享到:
相关推荐
python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...
python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识...
python 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本...
【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识及简单实践【python爬虫】python爬虫基础知识...
python大作业--爬虫(完美应付大作业),Python大作业:爬虫(完美应付大作业)。 python大作业,简易爬虫 2020-2021学年上学期python大作业,爬取https://www.shicimingju.com ,模拟网站的7种搜索。 用pyqt5做...
爬虫:Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python...
python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python...
python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例...
本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...
基于selenium+python实现京东商品爬虫淘宝店铺爬虫项目源码基于selenium+python实现京东商品爬虫淘宝店铺爬虫项目源码基于selenium+python实现京东商品爬虫淘宝店铺爬虫项目源码基于selenium+python实现京东商品爬虫...
在IT领域,网络爬虫是一项重要的技术,尤其对于数据挖掘、数据分析和自动化信息获取来说更是不可或缺。本主题围绕“网络爬虫作业练习”,主要涉及Python编程语言和相关的爬虫技术,我们将深入探讨这些知识点。 首先...
Python 资源之网络爬虫框架是指使用 Python 语言开发的网络爬虫框架,旨在帮助开发者快速构建高效的网络爬虫应用程序。在本节中,我们将对 Python 资源之网络爬虫框架进行详细的介绍,并对其特点、优缺点和应用场景...
python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础...
总结来说,"Python-Python3爬虫实战JS加解密逆向教程"涵盖的内容包括但不限于:使用Selenium进行动态内容抓取,JavaScript逆向工程,理解并应用加密算法,处理混淆代码,以及应对验证码和IP限制等。掌握这些技能将使...
python爬虫案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫...
基于python+html实现爬虫+neo4j+D3实现的苏州旅游知识图谱源码+数据.zip基于python+html实现爬虫+neo4j+D3实现的苏州旅游知识图谱源码+数据.zip基于python+html实现爬虫+neo4j+D3实现的苏州旅游知识图谱源码+数据....
Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档Python爬虫教程文档...
【爬虫开发】《Python3网络爬虫开发实战代码》 说明:《Python3网络爬虫开发实战代码》---->mitmtest (Practical code for development of Python 3 web crawler) 【爬虫开发】《Python3网络爬虫开发实战代码》文件...