python使用beutifulsoup来爬虫的基本套路

jackyrong

浏览: 7981304 次
性别:
来自: 广州

最近访客更多访客>>

u013375349

尘与飞

深情痞子

Crow00

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

python

使用python3，比如爬kugo的榜单：

import requests
from bs4 import BeautifulSoup
import time

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}

def get_info(url):
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.text,'lxml')
    ranks = soup.select('span.pc_temp_num')
    titles = soup.select('div.pc_temp_songlist > ul > li > a')
    times = soup.select('span.pc_temp_tips_r > span')
    for rank,title,time in zip(ranks,titles,times):
        data = {
            'rank':rank.get_text().strip(),
            'singer':title.get_text().split('-')[0],
            'song':title.get_text().split('-')[0],
            'time':time.get_text().strip()
        }
        print(data)

if __name__ == '__main__':
    urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
    for url in urls:
        get_info(url)
        time.sleep(5)

在上面的代码中 from bs4 import BeautifulSoup首先导入；
然后设置headers，
然后 soup = BeautifulSoup(wb_data.text,'lxml') 中，调用BeautifulSoup，
设置lxml解析器；
然后在
ranks = soup.select('span.pc_temp_num')
titles = soup.select('div.pc_temp_songlist > ul > li > a')
这些，XPATH用CHROME浏览器的检查功能，查看下就可以了；
然后一个循环，把数据打印出来，注意其中用strip去掉空格；
然后
urls = ['http://www.kugou.com/yy/rank/home/{}-8888.html'.format(str(i)) for i in range(1,2)]
是python中很有特色的语法，设置一个URL的模板，其中{}就是要用format中的内容去替换的；

分享到：

关于MYSQL 5.7线程池的好文收集 | spring boot中指定不同的端口的三种方法

2018-03-26 23:19
浏览 1113
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

【计算机网络】传输层协议TCP与UDP详解：特性对比及应用场景分析: 内容概要：本文详细对比了传输层协议TCP和UDP的特点及其应用场景。TCP是面向连接的协议，提供可靠的数据传输服务，通过确认应答、重传机制、拥塞控制等技术确保数据的完整性和顺序性。UDP则是无连接的协议，提供尽力而为的服务，不保证数据的可靠性，但具有更高的传输效率。文章还介绍了TCP的三次握手、滑动窗口、拥塞控制机制，以及UDP的报文结构、端口号使用、错误检测机制等。此外，文中通过选择题的形式探讨了两者在不同场景下的适用性，如TCP适用于文件传输、网页浏览等需要高可靠性的场景，而UDP则适用于实时音视频传输等对延迟敏感的场景。适合人群：计算机网络相关专业的学生、网络工程师以及对传输层协议感兴趣的IT从业者。使用场景及目标：①帮助读者理解TCP和UDP的工作原理及差异；②指导读者根据实际需求选择合适的传输层协议；③为网络编程和系统设计提供理论依据。其他说明：本文以问答形式呈现知识点，便于记忆和理解。同时，文中涉及的选择题不仅考察了基本概念，还涵盖了协议的具体实现细节，有助于加深读者对传输层协议的理解。

HNUST嵌入式系统实验-2 数码管显示驱动设计: 实验二数码管显示驱动设计

(WORD) 土木工程类外文文献翻译建筑结构.doc: (WORD) 土木工程类外文文献翻译建筑结构.doc

西门子S7-200 Smart与台达DT330温控器基于Modbus RTU的485通讯实现及调试技巧: 内容概要：本文详细介绍了西门子S7-200 Smart PLC与台达DT330温控器通过RS485接口进行Modbus RTU通讯的方法。首先，文中阐述了双方设备的通讯参数设置，确保波特率、校验位等参数的一致性。接着，展示了PLC端的轮询控制逻辑，采用定时器和状态机来管理读写操作，避免数据冲突。对于具体的读写操作，提供了详细的寄存器地址映射规则以及数据类型的转换方法，解决了台达温控器特有的寄存器地址偏移问题。此外，还分享了一些实用的调试技巧，如使用串口助手抓包验证通讯效果，以及针对常见错误码的解决方案。最后，在触摸屏方面，利用昆仑通态MCGS组态软件实现了温度数据显示和设定的功能。适合人群：从事工业自动化领域的工程师和技术人员，特别是那些需要进行PLC与温控器通讯集成工作的人员。使用场景及目标：适用于需要将西门子S7-200 Smart PLC与台达DT330温控器进行通讯连接并实现温度监控的应用场合。主要目的是掌握正确的通讯配置步骤，理解Modbus RTU协议的具体应用，提高系统的可靠性和稳定性。其他说明：文中提到的所有代码均已经过实际测试，并附带详细的注释，便于读者理解和学习。同时强调了硬件连接的重要性，给出了接线建议，帮助初学者少走弯路。

基于YOLOv8与SUMO的实时车辆检测跟踪及仿真联动系统实现: 内容概要：本文介绍了一种利用YOLOv8进行实时车辆检测并将检测结果与SUMO交通仿真软件联动的方法。系统分为三个主要模块：实时检测模块使用YOLOv8对摄像头捕获的画面进行车辆检测；坐标转换模块将检测到的车辆坐标从摄像头坐标系转换为SUMO的经纬度坐标系；仿真控制模块通过TraCI协议向SUMO中添加新的虚拟车辆并控制其行为。文中详细介绍了各个模块的具体实现方法和技术细节，如YOLOv8的部署方式、坐标转换的数学处理以及SUMO中车辆生成和控制的具体步骤。此外，作者还分享了一些优化技巧，如使用卡尔曼滤波减少跟踪抖动、采用ZeroMQ提高通信效率等。适用人群：对机器视觉、交通仿真感兴趣的开发者，尤其是有一定Python编程基础的研究人员。使用场景及目标：适用于研究智能交通系统的实时监测与模拟，帮助研究人员更好地理解和优化交通流量管理。具体应用场景包括但不限于：交通流量分析、交通事故预警、智能交通信号控制等。其他说明：文中提供了完整的代码片段和详细的实施步骤，便于读者快速搭建类似的实验环境。同时，作者也指出了现有系统的不足之处，并提出了未来改进的方向，如加入交通信号灯控制、优化路径预测等。

光伏硅片收集机sw19可编辑_三维3D设计图纸_三维3D设计图纸.zip: 光伏硅片收集机sw19可编辑_三维3D设计图纸_三维3D设计图纸.zip

labview 动态调用DLL模块: labview 动态调用DLL模块，适合初学者学习如何调用DLL文件

轴承压装机sw20可编辑_三维3D设计图纸_三维3D设计图纸.zip: 轴承压装机sw20可编辑_三维3D设计图纸_三维3D设计图纸.zip

全国农业科技创新重点领域（2024–2028年）.docx: 全国农业科技创新重点领域（2024–2028年）.docx

毕业土木工程专业实习日记20篇 .doc: 毕业土木工程专业实习日记20篇 .doc

基于STM32设计的数字示波器全套资料（原理图、PCB图、源代码）: 基于STM32设计的数字示波器全套资料（原理图、PCB图、源代码）硬件平台：主控器：STM32F103ZET6 64K RAM 512K ROM 屏幕器：SSD1963 分辨率：480*272 16位色触摸屏：TSC2046 模拟电路： OP-TL084 OP-U741 SW-CD4051 CMP-LM311 PWR-LM7805 -LM7905 -MC34063 -AMS1117-3.3 DRT-ULN2003 6.继电器：信号继电器 7.电源：DC +12V 软件平台：开发环境：RealView MDK-ARM uVision4.10 C编译器：ARMCC ASM编译器：ARMASM 连机器：ARMLINK 实时内核：UC/OS-II 2.9实时操作系统 GUI内核：uC/GUI 3.9图形用户接口底层驱动：各个外设驱动程序数字示波器功能：波形发生器：使用STM32一路DA实现正弦，三角波，方波，白噪声输出。任意一种波形幅值在0-3.3V任意可调、频率在一定范围任意可调、方波占空比可调。调节选项可以通过触摸屏完成设置。 SD卡存储： SD卡波形存储输出，能够对当前屏幕截屏，以JPG格式存储在SD卡上。能够存储1S内的波形数据，可以随时调用查看。数据传输：用C#编写上位机，通过串口完成对下位机的控制。（1）实现STOP/RUN功能（2）输出波形电压、时间参数（3）控制截屏（4）控制波形发生器（5）控制完成FFT（6）波形的存储和显示图形接口： UCGUI 水平扫速： 250 ns*、500ns、1μs、5 μs、10μs、50μs、500 μs、5ms 、50ms 垂直电压灵敏度：10mV/div, 20mV/div, 50mV/div, 0.1V/div, 0,2V/div, 0.5V/div, 1V/div,2V/

电机控制领域基于Simulink仿真的STM32磁链观测器实现及零速闭环启动: 内容概要：本文详细介绍了如何利用Simulink进行磁链观测器的仿真建模，并通过STM32F4芯片实现磁链观测器的实际应用，特别是在零速闭环启动方面的实现。文中首先使用Simulink 2018b搭建了仿真模型，通过调整电机参数（如电阻、电感等）来验证磁链观测器的设计合理性。接着，在Keil环境下编写并编译了适用于STM32F4的嵌入式代码，实现了磁链观测和零速闭环启动功能。此外，作者还翻译了一篇相关英文文献，提供了详细的理论背景和技术细节。整个过程中，作者分享了许多实用技巧和注意事项，如电流采样的时序控制、滑模观测器的实现、高频注入法用于初始位置检测等。适合人群：从事电机控制领域的工程师和技术爱好者，尤其是对磁链观测器及其应用感兴趣的读者。使用场景及目标：① 学习如何使用Simulink进行复杂控制系统的仿真建模；② 掌握STM32F4芯片在电机控制中的应用，特别是磁链观测器的实现；③ 实现电机的零速闭环启动，确保电机从静止状态平稳加速。其他说明：本文不仅提供了完整的代码实现和仿真模型，还包括了详细的理论讲解和调试经验，有助于读者全面理解和掌握磁链观测器的技术要点。

基于mutisim仿真的电压表测量显示设计（仿真图）: 基于mutisim仿真的电压表测量显示设计（仿真图）使用数字电路实现模数转换，然后以十进制显示在数码管上。仿真使用mutisim14 电路可用于模拟转换显示，比如：温度计、电压表等只需要把ADC的输入电压替换即可。数值显示在数码管上。

2023-4-8-笔记-第一阶段-第2节-分支循环语句- 4.goto语句 5.本章完 -2025.04.05: 2023-04-08 项目笔记-第一阶段-第2节-分支和循环语句-3.3.2执行流程 3.3.3do语句的特点 3.3.4do while循环中的break和continue 3.4练习 3.4.1练习参考代码：3.4.2折半查找算法 3.4.3猜数字游戏实现 4.goto语句 5.本章完-2025-04-05

基于PyQT的舰船检测系统可视化的前端代码(Pyside6),注意只有前端代码: (注意只有前端界面)，实现了舰船检测系统可视化操作平台的前端界面，采用左侧导航栏与右侧功能区块的模块化布局，提供实时摄像头检测、批量图片/视频分析、数据统计报告生成以及日志追溯四大核心功能。每个模块均配备说明文字与直达按钮（如"进入实时检测"），支持用户快速切换检测模式、查看可视化分析结果及系统日志。

基于BP神经网络与Adaboost集成的强分类器构建及其应用场景: 内容概要：本文详细介绍了将BP神经网络作为弱分类器与Adaboost相结合的方法，形成强大的集成分类器。首先阐述了BPAdaboost的基本概念，即利用BP神经网络的基础学习能力并通过Adaboost动态调整训练数据权重，使后续BP网络能够专注于之前分类错误的样本。接着展示了具体的代码实现，包括使用sklearn库创建BP神经网络和Adaboost分类器，以及自定义SimpleBP类和BPAdaBoost类进行训练和预测。文中还讨论了调参技巧如控制BP网络的隐藏层数、设置合适的学习率、避免过拟合等问题，并指出该模型在处理中小型结构化数据（如金融风控、医疗诊断）方面的优越性。适合人群：对机器学习有一定了解并希望深入研究集成学习方法的研究人员和技术开发者。使用场景及目标：适用于需要提高分类精度的任务，特别是在面对特征空间复杂的数据集时。通过组合多个弱分类器，可以有效提升模型的整体性能，同时保持良好的泛化能力和抗噪性。其他说明：文中提供了详细的代码示例和理论解析，帮助读者更好地理解和应用这一先进的集成学习技术。此外，还提到了一些常见的陷阱和优化建议，有助于指导实际项目的开发。

Fluent与EDEM耦合教程：DDPM模型下传热传质蒸发及欧拉接口实现案例: 内容概要：本文详细介绍了Fluent与EDEM软件之间的耦合方法，特别是针对稠密离散相模型（DDPM）在处理传热、传质及蒸发等复杂工况的应用。文章涵盖了环境配置、DDPM模型配置、传热耦合陷阱、欧拉接口实战案例以及调试技巧等多个方面。通过具体的代码片段和配置逻辑，帮助用户理解和解决在实际应用中可能出现的问题。此外，还提供了多个实用案例，如输送带散热、流化床内气固换热等，进一步加深对耦合仿真的理解。适合人群：从事颗粒多相流仿真研究的技术人员，尤其是对Fluent和EDEM耦合感兴趣的工程师。使用场景及目标：适用于需要进行颗粒与流体相互作用仿真分析的研究项目，旨在提高仿真精度并优化计算效率。具体应用场景包括但不限于化工、能源、环保等领域内的复杂流动系统。其他说明：文中提到的所有案例均附带源文件，便于读者动手实践。建议初学者从简单案例入手，在掌握基本原理后再逐步扩展到复杂的三维仿真。

加热烤箱step_三维3D设计图纸.zip: 加热烤箱step_三维3D设计图纸.zip

COMSOL模拟沸腾水中气泡运动的两相流传热与蒸汽冷凝: 内容概要：本文详细介绍了使用COMSOL软件模拟沸腾水中气泡运动的过程，涵盖了从几何建模、物理场设置、材料属性配置、网格划分到求解器配置以及后处理的完整流程。特别关注了相变传热和蒸汽冷凝的关键技术和常见陷阱，如正确设置相变参数、处理气液界面、优化网格划分和调整求解器参数等。通过实例展示了气泡的生成、演化及其与环境的相互作用，揭示了微观相变与宏观流动之间的复杂耦合关系。适合人群：从事流体力学、传热学及相关领域的研究人员和技术人员，尤其是对两相流和相变传热感兴趣的工程师。使用场景及目标：适用于希望深入了解沸腾过程中气泡行为的研究者，旨在帮助他们掌握COMSOL软件的具体应用技巧，提高模拟精度和可靠性。具体应用场景包括但不限于工业换热器设计、能源系统优化等领域。其他说明：文中提供了大量实用的代码片段和配置建议，有助于读者快速上手并解决实际问题。此外，还强调了实验结果与理论模型的对比分析，突出了选择合适物理模型的重要性。

汽车内饰件预热房sw20可编辑_三维3D设计图纸_三维3D设计图纸.zip: 汽车内饰件预热房sw20可编辑_三维3D设计图纸_三维3D设计图纸.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论