`

python使用beutifulsoup来爬虫的基本套路

 
阅读更多
使用python3,比如爬kugo的榜单:

import requests
from bs4 import BeautifulSoup
import time

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}

def get_info(url):
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.text,'lxml')
    ranks = soup.select('span.pc_temp_num')
    titles = soup.select('div.pc_temp_songlist > ul > li > a')
    times = soup.select('span.pc_temp_tips_r > span')
    for rank,title,time in zip(ranks,titles,times):
        data = {
            'rank':rank.get_text().strip(),
            'singer':title.get_text().split('-')[0],
            'song':title.get_text().split('-')[0],
            'time':time.get_text().strip()
        }
        print(data)

if __name__ == '__main__':
    urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
    for url in urls:
        get_info(url)
        time.sleep(5)



  在上面的代码中 from bs4 import BeautifulSoup首先导入;
然后设置headers,
然后   soup = BeautifulSoup(wb_data.text,'lxml') 中,调用BeautifulSoup,
设置lxml解析器;
然后在
ranks = soup.select('span.pc_temp_num')
    titles = soup.select('div.pc_temp_songlist > ul > li > a')
这些,XPATH用CHROME浏览器的检查功能,查看下就可以了;
然后一个循环,把数据打印出来,注意其中用strip去掉空格;
然后
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
是python中很有特色的语法,设置一个URL的模板,其中{}就是要用format中的内容去替换的;
分享到:
评论

相关推荐

    python爬虫,拉勾网爬虫

    python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...

    python爬虫:Python 爬虫知识大全

    python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识...

    python 爬虫基本知识.txt

    python 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本知识.txtpython 爬虫基本...

    Python大作业:爬虫(完美应付大作业).zip

    python大作业--爬虫(完美应付大作业),Python大作业:爬虫(完美应付大作业)。 python大作业,简易爬虫 2020-2021学年上学期python大作业,爬取https://www.shicimingju.com ,模拟网站的7种搜索。 用pyqt5做...

    python安装包,网络爬虫工具

    python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python安装包,网络爬虫工具 python...

    Python爬虫:爬取网页内容

    python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例python爬虫案例...

    基于python和定向爬虫的商品比价系统

    基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价系统基于python和定向爬虫的商品比价...

    Python网络爬虫实战.pdf

    本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

    Python资源之网络爬虫框架

    Python 资源之网络爬虫框架是指使用 Python 语言开发的网络爬虫框架,旨在帮助开发者快速构建高效的网络爬虫应用程序。在本节中,我们将对 Python 资源之网络爬虫框架进行详细的介绍,并对其特点、优缺点和应用场景...

    python爬虫基础python爬虫基础

    python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础...

    Python-Python3爬虫实战JS加解密逆向教程

    总结来说,"Python-Python3爬虫实战JS加解密逆向教程"涵盖的内容包括但不限于:使用Selenium进行动态内容抓取,JavaScript逆向工程,理解并应用加密算法,处理混淆代码,以及应对验证码和IP限制等。掌握这些技能将使...

    Python爬虫小案例

    python爬虫案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫小案例Python爬虫...

    基于python+html实现爬虫+neo4j+D3实现的苏州旅游知识图谱源码+数据.zip

    基于python+html实现爬虫+neo4j+D3实现的苏州旅游知识图谱源码+数据.zip基于python+html实现爬虫+neo4j+D3实现的苏州旅游知识图谱源码+数据.zip基于python+html实现爬虫+neo4j+D3实现的苏州旅游知识图谱源码+数据....

    爬虫开发《Python3网络爬虫开发实战代码》

    【爬虫开发】《Python3网络爬虫开发实战代码》 说明:《Python3网络爬虫开发实战代码》---->mitmtest (Practical code for development of Python 3 web crawler) 【爬虫开发】《Python3网络爬虫开发实战代码》文件...

    Python爬虫

    BeautifulSoup是一个用于解析HTML和XML文档的Python库,它提供了易于使用的接口来查找、提取和修改文档中的数据。在本项目中,BeautifulSoup可能被用来找到并提取百度百科页面中的特定信息,如条目标题、摘要、相关...

    用Python写网络爬虫.rar_Python项目_python_python网络爬虫_爬虫_爬虫教程

    《Python网络爬虫详解与实践》 Python作为一门强大的编程语言,因其简洁的语法和丰富的库支持,在网络爬虫领域有着广泛的应用。本教程旨在帮助初学者和有一定基础的开发者深入理解和掌握Python网络爬虫技术,通过...

    《python3网络爬虫开发实战》.zip

    爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问...

    python入门及网络爬虫参考书籍

    标题中的“python入门及网络爬虫参考书籍”表明这是一份关于学习Python编程语言和网络爬虫技术的资源集合。这些书籍将引导初学者逐步掌握Python的基础知识,并深入到网络爬虫的实践应用中。 首先,让我们来看看...

Global site tag (gtag.js) - Google Analytics