第一个爬虫，爬取腾讯课堂课名列表 -

xiaojingjing

浏览: 249864 次
性别:
来自: 上海

最近访客更多访客>>

Demo_

Shum1n

NOthingAj

zlf3865072

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

第一个爬虫，爬取腾讯课堂课名列表

博客分类：

Python
Python爬虫

最近开始学习爬虫，还是比较习惯python的简洁，所以选择用python写爬虫。

python爬虫有很多框架，比如Scapry等，还有一些分布式框架，刚学还是一步一步来，以后再谈框架。

首先，python3+提供的requests库很强大，能够满足一般人的爬虫需求。今天就先写一个爬取腾讯课堂课名列表的小程序。

先上代码，后解析：

import requests
from bs4 import BeautifulSoup as bs
txurl='https://ke.qq.com/course/list?mt=1001'
response=bs(requests.get(txurl).text,'html.parser')
print("网页标题是：",response.h1.string)
j=1
print("-----"*10,"下面是课程列表","-------"*10)
for i in response.find_all('li',{'class':'course-card-item'}):
    print(j,"课程名称：",i.h4.text,"--->",i.text)
    j=j+1
print("-----"*10,"上面面是课程列表","-------"*10)

下面是运行结果：

下面是思路分析：

1，import requests

导入requests，首先它是一个http库，对爬来的处理都是很原始的那种，没有框架那么方便（最主要是减少代码量），但是对于刚学，还是多了解一些爬虫思路好一点，对以后自己写分布式框架有很大的帮助。

2，from bs4 import BeautifulSoup as bs

从bs4导入BeautifulSoup库，重命名为bs。这里重命名只是针对此处重命名，并非在python库里面对它重命名，只是为了后面方便使用。BeautifulSoup和bs，很直观的就认为bs更简洁。

“Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。”

3，txurl='https://ke.qq.com/course/list?mt=1001'

这个就不需要多解释了，无非就是我们抓取数据的网页URL。

4，还是介绍BeaautifulSoup的使用方法，即BeautifulSoup(markup, “html.parser”)，此处对应的是bs(requests.get(txurl).text,'html.parser')

5，网页数据过滤输出，此处还在学习，先简单说一点，后面在一片里面整体的讲详细一点。

首先，要分析网页源码，如下图：

1，h1部分需要过滤出来，我已经圈起来了，具体语法h1.string。实际上为什么要用string呢？为什么不用text？（暂不做具体回答，希望有人能给出回答！）

2，课程列表打印，它们都在li标签下面，而且class名称都是一样的，代码如下：

response.find_all('li',{'class':'course-card-item'})

找到所有class名称为course-card-item的li标签，然后循环打印出想要的内容。

查看图片附件

分享到：

webdriver截图功能 | python新建并写入内容到excel文件

2016-04-29 10:52
浏览 2168
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大学生在线学习体验的聚类分析研究.pdf: 网络爬虫抓取的微博数据来源分为三类：第一类是全国2688所高校的微博主页搜索与网课相关的博文，搜集每条博文下的相关评论；第二类是热点话题如“大学生网课”“大学生网课日常”“当代大学生网课现状”等的相关评论...

大学生在线学习体验的聚类分析研究.docx: 网络爬虫抓取的微博数据来源分为三类：第一类是全国2688所高校的微博主页搜索与网课相关的博文，搜集每条博文下的相关评论；第二类是热点话题如“大学生网课”“大学生网课日常”“当代大学生网课现状”等的相关评论...

spring-ai-bedrock-converse-1.0.0-M7.jar中文文档.zip: # 【spring-ai-bedrock-converse-1.0.0-M7.jar中文文档.zip】中包含：中文文档：【spring-ai-bedrock-converse-1.0.0-M7-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【spring-ai-bedrock-converse-1.0.0-M7.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【spring-ai-bedrock-converse-1.0.0-M7.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【spring-ai-bedrock-converse-1.0.0-M7.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【spring-ai-bedrock-converse-1.0.0-M7-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： spring-ai-bedrock-converse-1.0.0-M7.jar中文文档.zip,java,spring-ai-bedrock-converse-1.0.0-M7.jar,org.springframework.ai,spring-ai-bedrock-converse,1.0.0-M7,org.springframework.ai.bedrock.converse,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,springframework,spring,ai,bedrock,converse,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【spring-ai-bedrock-converse-1

房地产 -可视化管理课件.ppt: 房地产 -可视化管理课件.ppt

tokenizers-0.18.0.jar中文-英文对照文档.zip: # 【tokenizers-***.jar***文档.zip】中包含： ***文档：【tokenizers-***-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【tokenizers-***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【tokenizers-***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【tokenizers-***.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【tokenizers-***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： tokenizers-***.jar***文档.zip,java,tokenizers-***.jar,ai.djl.huggingface,tokenizers,***,ai.djl.engine.rust,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,djl,huggingface,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【tokenizers-***.jar***文档.zip】，再解压其中的【tokenizers-***-javadoc-API文档-中文(简体)版.zip】，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件； # Maven依赖： ``` <dependency> <groupId>ai.djl.huggingface</groupId> <artifactId>tokenizers</artifactId> <version>***</version> </dependency> ``` # Gradle依赖： ``` Gradle: implementation group: 'ai.djl.huggingface', name: 'tokenizers', version: '***' Gradle (Short): implementation 'ai.djl.huggingface:tokenizers:***' Gradle (Kotlin): implementation("ai.djl.huggingface:tokenizers:***") ``` # 含有的 Java package（包）： ``` ai.djl.engine.rust ai.djl.engine.rust.zoo ai.djl.huggingface.tokenizers ai.djl.huggingface.tokenizers.jni ai.djl.huggingface.translator ai.djl.huggingface.zoo ``` # 含有的 Java class（类）： ``` ai.djl.engine.rust.RsEngine ai.djl.engine.rust.RsEngineProvider ai.djl.engine.rust.RsModel ai.djl.engine.rust.RsNDArray ai.djl.engine.rust.RsNDArrayEx ai.djl.engine.rust.RsNDArrayIndexer ai.djl.engine.rust.RsNDManager ai.djl.engine.rust.RsSymbolBlock ai.djl.engine.rust.RustLibrary ai.djl.engine.rust.zoo.RsModelZoo ai.djl.engine.rust.zoo.RsZooProvider ai.djl.huggingface.tokenizers.Encoding ai.djl.huggingface.tokenizers.HuggingFaceTokenizer ai.djl.huggingface.tokenizers.HuggingFaceTokenizer.Builder ai.djl.hu

基于MATLAB的BP神经网络预测模型构建与应用: 内容概要：本文详细介绍了如何使用MATLAB构建和应用BP神经网络预测模型。首先，通过读取Excel数据并进行预处理，如归一化处理，确保数据的一致性和有效性。接着，配置网络结构，选择合适的训练算法（如SCG），设置训练参数（如最大迭代次数、目标误差等）。然后，进行模型训练，并通过可视化窗口实时监控训练过程。训练完成后，利用测试集评估模型性能，计算均方误差（MSE）和相关系数（R²），并通过图表展示预测效果。最后，将训练好的模型保存以便后续调用，并提供了一个简单的预测函数，确保新数据能够正确地进行归一化和预测。适合人群：具有一定MATLAB基础，从事数据分析、机器学习领域的研究人员和技术人员。使用场景及目标：适用于需要对多维数据进行预测的任务，如电力负荷预测、金融数据分析等。主要目标是帮助用户快速搭建一个可用的BP神经网络预测系统，提高预测准确性。其他说明：文中提供了完整的代码框架和详细的注释，便于理解和修改。同时，强调了数据预处理的重要性以及一些常见的注意事项，如数据量的要求、归一化的必要性等。

tokenizers-0.22.1.jar中文-英文对照文档.zip: # 【tokenizers-***.jar***文档.zip】中包含： ***文档：【tokenizers-***-javadoc-API文档-中文(简体)版.zip】 jar包下载地址：【tokenizers-***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【tokenizers-***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【tokenizers-***.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【tokenizers-***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： tokenizers-***.jar***文档.zip,java,tokenizers-***.jar,ai.djl.huggingface,tokenizers,***,ai.djl.engine.rust,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,djl,huggingface,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【tokenizers-***.jar***文档.zip】，再解压其中的【tokenizers-***-javadoc-API文档-中文(简体)版.zip】，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件； # Maven依赖： ``` <dependency> <groupId>ai.djl.huggingface</groupId> <artifactId>tokenizers</artifactId> <version>***</version> </dependency> ``` # Gradle依赖： ``` Gradle: implementation group: 'ai.djl.huggingface', name: 'tokenizers', version: '***' Gradle (Short): implementation 'ai.djl.huggingface:tokenizers:***' Gradle (Kotlin): implementation("ai.djl.huggingface:tokenizers:***") ``` # 含有的 Java package（包）： ``` ai.djl.engine.rust ai.djl.engine.rust.zoo ai.djl.huggingface.tokenizers ai.djl.huggingface.tokenizers.jni ai.djl.huggingface.translator ai.djl.huggingface.zoo ``` # 含有的 Java class（类）： ``` ai.djl.engine.rust.RsEngine ai.djl.engine.rust.RsEngineProvider ai.djl.engine.rust.RsModel ai.djl.engine.rust.RsNDArray ai.djl.engine.rust.RsNDArrayEx ai.djl.engine.rust.RsNDArrayIndexer ai.djl.engine.rust.RsNDManager ai.djl.engine.rust.RsSymbolBlock ai.djl.engine.rust.RustLibrary ai.djl.engine.rust.zoo.RsModelZoo ai.djl.engine.rust.zoo.RsZooProvider ai.djl.huggingface.tokenizers.Encoding ai.djl.huggingface.tokenizers.HuggingFaceTokenizer ai.djl.huggingface.tokenizers.HuggingFaceTokenizer.Builder ai.djl.hu

基于蒙特卡洛算法的电动汽车对IEEE 33节点电网影响的研究及应用场景分析: 内容概要：本文探讨了电动汽车（EV）对IEEE 33节点电网的影响，特别是汽车负荷预测与节点潮流网损、压损计算。通过蒙特卡洛算法模拟电动汽车负荷的时空特性，研究了四种不同场景下电动汽车接入电网的影响。具体包括：负荷接入前后的网损与电压计算、不同节点接入时的变化、不同时段充电的影响以及不同负荷大小对电网的影响。通过这些分析，揭示了电动汽车充电行为对电网的具体影响机制，为未来的电网规划和优化提供了重要参考。适合人群：从事电力系统研究的专业人士、电网规划工程师、电动汽车行业从业者、能源政策制定者。使用场景及目标：①评估电动汽车大规模接入对现有电网基础设施的压力；②优化电动汽车充电设施的布局和运营策略；③为相关政策和技术标准的制定提供科学依据。其他说明：文中提供的Python代码片段用于辅助理解和验证理论分析，实际应用中需要更复杂的模型和详细的电网参数。

房地产 -【万科经典-第五园】第五园产品推介会.ppt: 房地产 -【万科经典-第五园】第五园产品推介会.ppt

稳压器件.SchLib: 稳压器件.SchLib

1.jpg: 1

模拟符号.SCHLIB: 模拟符号.SCHLIB

基于Simulink的三相电压型逆变器SPWM与电压单闭环控制仿真: 内容概要：本文详细介绍了如何在Simulink中构建并仿真三相电压型逆变器的SPWM调制和电压单闭环控制系统。首先，搭建了由六个IGBT组成的三相全桥逆变电路，并设置了LC滤波器和1000V直流电源。接着，利用PWM Generator模块生成SPWM波形，设置载波频率为2kHz，调制波为50Hz工频正弦波。为了实现精确的电压控制，采用了abc/dq变换将三相电压信号转换到旋转坐标系，并通过锁相环（PLL）进行同步角度跟踪。电压闭环控制使用了带有抗饱和处理的PI调节器，确保输出电压稳定。此外，文中还讨论了标幺值处理方法及其优势，以及如何通过FFT分析验证输出波形的质量。适用人群：电力电子工程师、自动化控制专业学生、从事逆变器研究的技术人员。使用场景及目标：适用于希望深入了解三相电压型逆变器控制原理和技术实现的研究人员和工程师。主要目标是掌握SPWM调制技术和电压单闭环控制的设计与调试方法，提高系统的稳定性和效率。其他说明：文中提供了详细的建模步骤和参数设置指南，帮助读者快速上手并在实践中不断优化模型性能。同时，强调了一些常见的调试技巧和注意事项，如载波频率的选择、积分器防饱和处理等。

【蓝桥杯EDA】客观题解析：第十三届立创EDA出品省赛模拟题一.pdf: 【蓝桥杯EDA】客观题解析

房地产 -物业苏州设备房管理标准.ppt: 房地产 -物业苏州设备房管理标准.ppt

3.png: 3

房地产 -2024H1房地产市场总结与展望（新房篇）.docx: 房地产 -2024H1房地产市场总结与展望（新房篇）.docx

LabVIEW与PLC基于TCP协议的自动化数据交互解决方案: 内容概要：本文详细介绍了利用LabVIEW与PLC进行自动化数据交互的技术方案，涵盖参数管理、TCP通信、串口扫描、数据转移等方面。首先，通过配置文件(INI)实现参数的自动加载与保存，确保参数修改不影响程序运行。其次，在TCP通信方面采用异步模式和心跳包设计，增强通信稳定性，并加入CRC16校验避免数据丢失。对于串口扫描，则通过VISA配置实现状态触发，确保进出站检测的准确性。最后，针对不同类型的数据转移提出具体方法，如TDMS文件存储策略，确保高效可靠的数据处理。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉LabVIEW和PLC编程的从业者。使用场景及目标：适用于需要将LabVIEW作为上位机与PLC进行数据交互的工业生产线环境，旨在提高系统的自动化程度、稳定性和易维护性。其他说明：文中提供了多个实用代码片段和注意事项，帮助读者更好地理解和应用相关技术。

d65689da7ed20e21882a634f8f5ce6c9_faad2735d293907fb32f7c5837f7302a.png: d65689da7ed20e21882a634f8f5ce6c9_faad2735d293907fb32f7c5837f7302a

信息安全管理和技术的综合练习题集（NISP&CISP）: 内容概要：本文档《NISP&CISP考试题库.pdf》汇集了大量关于信息安全专业领域的练习题，涵盖风险评估、安全策略、访问控制、恶意代码防范、加密技术、安全模型等多个方面。文档通过选择题的形式探讨了信息安全保障、风险管理和技术实施等核心内容，强调了信息安全保障的动态性和持续性，以及信息安全管理体系（ISMS）的重要性。文档还详细介绍了多种安全技术和标准，如ISO27001、GB/T 22080、SSE-CMM、CC标准等，并通过具体案例和场景分析，帮助读者理解如何在实际环境中应用这些标准和技术。适用人群：文档适用于信息安全领域的从业者，尤其是准备参加NISP（国家信息安全水平考试）和CISP（注册信息安全专业人员）认证考试的考生，以及从事信息安全管理工作、对信息安全有兴趣的技术人员。使用场景及目标：①帮助考生系统复习信息安全领域的基础知识和技能，为考试做准备；②为企业内部信息安全培训提供参考资料；③加深信息安全从业人员对安全标准和技术的理解，提升其在实际工作中的应用能力；④帮助信息安全管理者了解如何构建和维护有效的信息安全管理体系。其他说明：文档不仅提供了理论知识，还结合了实际案例，有助于读者理解信息安全的复杂性和多样性。文档强调了信息安全的多层次、多维度特性，指出信息安全不仅依赖于技术手段，还需要结合管理措施和人员培训。此外，文档中的题目设计贴近实际工作场景，能够有效提升读者应对信息安全挑战的能力。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

第一个爬虫，爬取腾讯课堂课名列表

评论

发表评论

相关推荐

python更新yaml文件保留注释内容和换行缩进办法

python等份切割数组

python3使用request来post文件请求

python命名规范（转载）

计算指定时间前后固定时长结果，天，小时，分钟

python3下的RSA加解密

python求数组交集、并集、差集

100多行python代码实现贪吃蛇游戏

python对token的有效期校验简单例子

python检查list是否有重复的数据

python轻量级定时任务

flask_restful API 模块化示例

test

webdriver自动化测试_键盘事件 python

python的logging模块简单应用

python3使用蓝本Blueprint

Python实现excel测试用例转xml导入到TestLink

appium+Python环境准备

Python3调用阿里短信api发送短信

selenium+python更改Firefox浏览器路径

最近访客更多访客>>