(转载)python爬虫入门 -

永夜-极光

浏览: 254215 次
性别:
来自: 深圳

最近访客更多访客>>

amo

u012363178

shenyouhai

zjamson

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

(转载)python爬虫入门

博客分类：

python
转载

步骤1: 安装2个包

requests和beautifulsoup

步骤2:导入代码,并执行

import requests
import csv
import random
import time
import socket
import http.client
# import urllib.request
from bs4 import BeautifulSoup

def get_content(url , data = None):
    header={
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, sdch',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'
}
    timeout = random.choice(range(80, 180))
    while True:
        try:
            rep = requests.get(url,headers = header,timeout = timeout)
            rep.encoding = 'utf-8'
# req = urllib.request.Request(url, data, header)
            # response = urllib.request.urlopen(req, timeout=timeout)
            # html1 = response.read().decode('UTF-8', errors='ignore')
            # response.close()
break
# except urllib.request.HTTPError as e:
        #         print( '1:', e)
        #         time.sleep(random.choice(range(5, 10)))
        #
        # except urllib.request.URLError as e:
        #     print( '2:', e)
        #     time.sleep(random.choice(range(5, 10)))
except socket.timeout as e:
            print( '3:', e)
            time.sleep(random.choice(range(8,15)))

        except socket.error as e:
            print( '4:', e)
            time.sleep(random.choice(range(20, 60)))

        except http.client.BadStatusLine as e:
            print( '5:', e)
            time.sleep(random.choice(range(30, 80)))

        except http.client.IncompleteRead as e:
            print( '6:', e)
            time.sleep(random.choice(range(5, 15)))

    return rep.text
    # return html_text
def get_data(html_text):
    final = []
    bs = BeautifulSoup(html_text, "html.parser")  # 创建BeautifulSoup对象
body = bs.body # 获取body部分
data = body.find('div', {'id': '7d'})  # 找到id为7d的div
ul = data.find('ul')  # 获取ul部分
li = ul.find_all('li')  # 获取所有的li
for day in li: # 对每个li标签中的内容进行遍历
temp = []
        date = day.find('h1').string  # 找到日期
temp.append(date)  # 添加到temp中
inf = day.find_all('p')  # 找到li中的所有p标签
temp.append(inf[0].string,)  # 第一个p标签中的内容（天气状况）加到temp中
if inf[1].find('span') is None:
            temperature_highest = None # 天气预报可能没有当天的最高气温（到了傍晚，就是这样），需要加个判断语句,来输出最低气温
else:
            temperature_highest = inf[1].find('span').string  # 找到最高温
temperature_highest = temperature_highest.replace('℃', '')  # 到了晚上网站会变，最高温度后面也有个℃
temperature_lowest = inf[1].find('i').string  # 找到最低温
temperature_lowest = temperature_lowest.replace('℃', '')  # 最低温度后面有个℃，去掉这个符号
temp.append(temperature_highest)   # 将最高温添加到temp中
temp.append(temperature_lowest)   #将最低温添加到temp中
final.append(temp)   #将temp加到final中
return final

def write_data(data, name):
    file_name = name
    with open(file_name, 'a', errors='ignore', newline='') as f:
            f_csv = csv.writer(f)
            f_csv.writerows(data)

if __name__ == '__main__':
                url = 'http://www.weather.com.cn/weather/101190401.shtml'
html = get_content(url)
                result = get_data(html)
                write_data(result, 'weather.csv')

步骤3: 结果如下:

23日（今天）	多云	19	12
24日（明天）	多云	20	12
25日（后天）	多云	21	14
26日（周四）	多云	21	14
27日（周五）	多云	22	14
28日（周六）	多云	21	15
29日（周日）	多云转晴	21	11

分享到：

python爬虫入门(解析) | 文件IO,音频buffer处理

2017-10-23 13:02
浏览 560
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

毕业设计基于Python豆瓣网站数据爬取与可视化实现项目源码.zip: 1. **Python基础知识**：Python是一种高级编程语言，因其简洁明了的语法而常用于初学者入门。在这个项目中，Python被用来编写爬虫脚本，处理数据，以及实现数据可视化。你需要了解Python的基本语法，如变量、数据...

Python实现的热点舆情分析统计系统.zip: 首先，系统将依赖于Python的网络爬虫功能来采集网络上的舆情数据。通过使用如requests、BeautifulSoup等库，可以方便地从新闻网站、社交媒体平台等处获取实时数据。数据采集后，接下来的步骤是对采集到的数据进行...

工业自动化中基于威纶通触摸屏的水箱液位PID控制仿真程序设计与实现: 内容概要：本文详细介绍了如何利用威纶通触摸屏及其配套软件EasyBuilder Pro构建一个水箱液位控制的PID仿真程序。主要内容涵盖触摸屏界面设计、PID算法实现、通信配置以及仿真模型搭建等方面。文中不仅提供了具体的代码示例，还分享了许多调试经验和优化技巧，如抗积分饱和处理、通信同步设置等。此外，作者还强调了实际应用中的注意事项，例如参数范围限制、突发情况模拟等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PID控制器有一定了解并希望深入掌握其实际应用的人群。使用场景及目标：适用于需要进行水箱液位控制系统设计、调试和优化的工作环境。主要目标是帮助读者理解和掌握PID控制的基本原理及其在实际工程项目中的具体实现方法。其他说明：附带完整的工程文件可供下载，便于读者快速上手实践。文中提到的所有代码片段均经过实际验证，确保可靠性和实用性。

2024年中国城市低空经济发展指数报告: 内容概要：《2024年中国城市低空经济发展指数报告》由36氪研究院发布，指出低空经济作为新质生产力的代表，已成为中国经济新的增长点。报告从发展环境、资金投入、创新能力、基础支撑和发展成效五个维度构建了综合指数评价体系，评估了全国重点城市的低空经济发展状况。北京和深圳在总指数中名列前茅，分别以91.26和84.53的得分领先，展现出强大的资金投入、创新能力和基础支撑。低空经济主要涉及无人机、eVTOL（电动垂直起降飞行器）和直升机等产品，广泛应用于农业、物流、交通、应急救援等领域。政策支持、市场需求和技术进步共同推动了低空经济的快速发展，预计到2026年市场规模将突破万亿元。适用人群：对低空经济发展感兴趣的政策制定者、投资者、企业和研究人员。使用场景及目标：①了解低空经济的定义、分类和发展驱动力；②掌握低空经济的主要应用场景和市场规模预测；③评估各城市在低空经济发展中的表现和潜力；④为政策制定、投资决策和企业发展提供参考依据。其他说明：报告强调了政策监管、产业生态建设和区域融合错位的重要性，提出了加强法律法规建设、人才储备和基础设施建设等建议。低空经济正加速向网络化、智能化、规模化和集聚化方向发展，各地应找准自身比较优势，实现差异化发展。

多智能体协同编队控制：无人机编队背后的Python实现与关键技术解析: 内容概要：本文详细介绍了多智能体协同编队控制的技术原理及其Python实现。首先通过生动形象的例子解释了编队控制的核心概念，如一致性算法、虚拟结构法、预测补偿等。接着深入探讨了编队形状的设计方法，包括如何利用虚拟结构法生成特定编队形状，并讨论了通信质量和参数调试的重要性。此外，还涉及了避障策略、动态权重分配以及故障检测等实际应用中的挑战和解决方案。最后，通过具体实例展示了如何将理论应用于实际项目中，如无人机编队表演、自动驾驶车队等。适用人群：对多智能体系统、编队控制感兴趣的科研人员、工程师及高校师生。使用场景及目标：适用于研究和开发多智能体协同编队控制系统的场景，旨在帮助读者理解并掌握相关技术和实现方法，提高系统的稳定性和可靠性。其他说明：文中不仅提供了详细的代码示例，还分享了许多实践经验和技术细节，有助于读者更好地理解和应用这些技术。同时强调了参数调试、通信质量、预测补偿等方面的关键因素对于系统性能的影响。

四旋翼飞行器模型预测控制(MPC)的Matlab实现及其设定点收敛保证: 内容概要：本文详细介绍了名为'MPC_ACC_2020-master'的四旋翼飞行器模型预测跟踪控制器(Matlab实现)。四旋翼飞行器由于其高度非线性和强耦合特性，在复杂环境中难以实现精准控制。模型预测控制（MPC）通过预测未来状态并在每一步进行在线优化，解决了这一难题。文中展示了关键代码片段，解释了系统参数定义、初始化、预测模型构建、成本函数构建、优化求解及控制输入的应用。此外，还探讨了MPC_ACC_2020-master如何通过精心设计的成本函数和优化算法确保四旋翼飞行器状态收敛到设定点。适合人群：从事飞行器控制领域的研究人员和技术爱好者，尤其是对模型预测控制感兴趣的开发者。使用场景及目标：适用于四旋翼飞行器的轨迹跟踪任务，旨在提高飞行器在复杂环境下的稳定性与准确性。具体应用场景包括但不限于无人机竞速、自动巡航、物流配送等。其他说明：尽管该项目主要用于科研目的，但其简洁高效的代码结构也为实际工程应用提供了良好借鉴。同时，项目中存在一些待改进之处，如状态估计部分未考虑真实情况下的噪声干扰，后续版本计划移植到C++并集成进ROS系统。

基于MATLAB2020b的CNN-LSTM与GTO算法优化的电力负荷预测研究: 内容概要：本文探讨了基于MATLAB2020b平台，采用CNN-LSTM模型结合人工大猩猩部队(GTO)算法进行电力负荷预测的方法。首先介绍了CNN-LSTM模型的基本结构及其在处理多变量输入（如历史负荷和气象数据）方面的优势。随后详细解释了如何通过GTO算法优化超参数选择，提高模型预测精度。文中展示了具体的MATLAB代码示例，包括数据预处理、网络层搭建、训练选项设定等方面的内容，并分享了一些实践经验和技术细节。此外，还讨论了模型的实际应用效果，特别是在某省级电网数据上的测试结果。适合人群：从事电力系统数据分析的研究人员、工程师，以及对深度学习应用于时间序列预测感兴趣的开发者。使用场景及目标：适用于需要精确预测未来电力负荷的情况，旨在帮助电力公司更好地规划发电计划，优化资源配置，保障电网安全稳定运行。通过本研究可以学习到如何构建高效的CNN-LSTM模型，并掌握利用GTO算法进行超参数优化的具体步骤。其他说明：文中提到的一些技巧和注意事项有助于避免常见错误，提高模型性能。例如，合理的数据预处理方式、适当的超参数范围设定等都能显著改善最终的预测效果。

机器学习（深度学习）：用于脑肿瘤的带有边界框的磁共振成像: 数据集一个高质量的医学图像数据集，专门用于脑肿瘤的检测和分类研究以下是关于这个数据集的详细介绍：该数据集包含5249张脑部MRI图像，分为训练集和验证集。每张图像都标注了边界框（Bounding Boxes），并按照脑肿瘤的类型分为四个类别：胶质瘤（Glioma）、脑膜瘤（Meningioma）、无肿瘤（No Tumor）和垂体瘤（Pituitary）。这些图像涵盖了不同的MRI扫描角度，包括矢状面、轴面和冠状面，能够全面覆盖脑部解剖结构，为模型训练提供了丰富多样的数据基础。高质量标注：边界框是通过LabelImg工具手动标注的，标注过程严谨，确保了标注的准确性和可靠性。多角度覆盖：图像从不同的MRI扫描角度拍摄，包括矢状面、轴面和冠状面，能够全面覆盖脑部解剖结构。数据清洗与筛选：数据集在创建过程中经过了彻底的清洗，去除了噪声、错误标注和质量不佳的图像，保证了数据的高质量。该数据集非常适合用于训练和验证深度学习模型，以实现脑肿瘤的检测和分类。它为开发医学图像处理中的计算机视觉应用提供了坚实的基础，能够帮助研究人员和开发人员构建更准确、更可靠的脑肿瘤诊断系统。这个数据集为脑肿瘤检测和分类的研究提供了宝贵的资源，能够帮助研究人员开发出更准确、更高效的诊断工具，从而为脑肿瘤患者的早期诊断和治疗规划提供支持。

STM32F103 CAN通讯与IAP升级Bootloader源码解析及硬件设计: 内容概要：本文详细介绍了STM32F103的CAN通讯和IAP升级Bootloader的源码实现及其硬件设计。首先，针对CAN通讯部分，文章深入探讨了CAN外设的初始化配置，包括波特率、位时间、过滤器等重要参数的设置方法，并提供了一段完整的初始化代码示例。接着，对于IAP升级Bootloader，文中讲解了通过CAN总线接收HEX文件并写入Flash的具体实现步骤，以及如何安全地从Bootloader跳转到应用程序。此外，文章还附上了原理图和PCB文件，有助于理解和优化硬件设计。最后，作者分享了一些实用的调试技巧和注意事项，如终端电阻的正确使用、CRC校验的应用等。适合人群：嵌入式系统开发者、硬件工程师、从事STM32开发的技术人员。使用场景及目标：适用于正在开发STM32相关项目的工程师，尤其是那些需要实现CAN通讯和固件在线升级功能的人群。通过学习本文提供的源码和技术要点，可以帮助他们快速掌握相关技能，提高开发效率。其他说明：本文不仅提供了详细的代码示例，还包含了丰富的实践经验分享，能够帮助读者更好地理解和解决实际开发中遇到的问题。

全能屏幕录像工具，支持语音、监控、摄像头、画笔等多功能源码: 工具集语音、监控、摄像头、画笔等功能于一体！清晰语音录入，确保声画同步；监控级画面录制，操作细节无遗漏；摄像头多视角呈现，让内容更生动。录制时，画笔可标注重点，快速传递关键信息。自带视频播放，无需第三方；快捷键操作便捷，录制高效。强大解码器兼容多格式，不同设备随心播放。无论是教学、办公还是创作

西门子S7-1500 PLC在制药厂洁净空调BMS系统中的温湿度精准控制与优化: 内容概要：本文详细介绍了西门子S7-1500 PLC在制药厂洁净空调建筑管理系统(BMS)中的应用案例。重点讨论了硬件配置（1500 CPU + ET200SP分布式IO）、温湿度控制策略（串级PID、分程调节）、以及具体的编程实现（SCL语言）。文中分享了多个技术细节，如PT100温度采集、PID控制算法优化、报警管理和HMI界面设计等。此外，作者还提到了一些调试过程中遇到的问题及其解决方案，如PID_Compact块的手动模式设定值跳变问题、博图V15.1的兼容性问题等。适合人群：从事工业自动化领域的工程师和技术人员，特别是那些对PLC编程、温湿度控制和洁净空调系统感兴趣的读者。使用场景及目标：适用于制药厂或其他对温湿度控制要求严格的行业。主要目标是确保洁净空调系统的高效运行，将温湿度波动控制在极小范围内，保障生产环境的安全性和稳定性。其他说明：本文不仅提供了详细的编程代码和硬件配置指南，还分享了许多实践经验，帮助读者更好地理解和应用相关技术。同时，强调了在实际项目中需要注意的关键点和潜在问题。

2025年6G近场技术白皮书2.0.pdf: 2025年6G近场技术白皮书2.0.pdf

少儿编程scratch项目源代码文件案例素材-Frogeon.zip: 少儿编程scratch项目源代码文件案例素材-Frogeon.zip

2025年感知技术十大趋势深度分析报告.pdf: 2025年感知技术十大趋势深度分析报告.pdf

Matlab实现车间调度问题遗传算法(JSPGA)：源码解析与应用: 内容概要：本文详细介绍了一种用于解决车间调度问题的遗传算法(Matlab实现)，即JSPGA。文章首先介绍了遗传算法的基本概念及其在车间调度问题中的应用场景。接着，作者展示了完整的Matlab源码，包括参数设置、种群初始化、选择、交叉、变异、适应度计算以及结果输出等模块。文中还特别强调了适应度计算方法的选择，采用了最大完工时间的倒数作为适应度值，并通过三维甘特图和迭代曲线直观展示算法性能。此外，文章提供了多个调参技巧和改进方向，帮助读者更好地理解和应用该算法。适合人群：对遗传算法感兴趣的研究人员、工程师以及希望深入理解车间调度问题求解方法的技术爱好者。使用场景及目标：适用于需要优化多台机器、多个工件加工顺序与分配的实际工业生产环境。主要目标是通过遗传算法找到最优或近似最优的调度方案，从而减少最大完工时间，提高生产效率。其他说明：文章不仅提供了详细的理论解释和技术细节，还包括了大量实用的代码片段和图表，使读者能够轻松复现实验结果。同时，作者还分享了一些个人经验和建议，为后续研究提供了有价值的参考。

永磁同步电机MTPA控制算法及其Simulink仿真模型设计与实现: 内容概要：本文深入探讨了永磁同步电机（PMSM）的最大转矩电流比（MTPA）控制算法，并详细介绍了基于Simulink的仿真模型设计。首先，文章阐述了PMSM的数学模型，包括电压方程和磁链方程，这是理解控制算法的基础。接着，解释了矢量控制原理，通过将定子电流分解为励磁电流和转矩电流分量，实现对电机的有效控制。随后，重点讨论了MTPA控制的目标和方法，即在限定电流条件下最大化转矩输出。此外，文章还涉及了前馈补偿、弱磁控制和SVPWM调制等关键技术，提供了具体的实现代码和仿真思路。最后，通过一系列实验验证了各控制策略的效果。适合人群：从事电机控制系统设计的研究人员和技术人员，尤其是对永磁同步电机和Simulink仿真感兴趣的工程师。使用场景及目标：适用于希望深入了解PMSM控制算法并在Simulink环境中进行仿真的技术人员。主要目标是掌握MTPA控制的核心原理，学会构建高效的仿真模型，优化电机性能。其他说明：文中不仅提供了详细的理论推导，还有丰富的代码示例和实践经验，有助于读者快速理解和应用相关技术。同时，强调了实际工程中常见的问题及解决方案，如负载扰动、弱磁控制和SVPWM调制等。

基于Matlab的三机并联风光储混合系统仿真及关键技术解析: 内容概要：本文详细介绍了三机并联的风光储混合系统在Matlab中的仿真方法及其关键技术。首先，针对光伏阵列模型，讨论了其核心二极管方程以及MPPT（最大功率点跟踪）算法的应用，强调了环境参数对输出特性的影响。接着，探讨了永磁同步风机的矢量控制，尤其是转速追踪和MPPT控制策略。对于混合储能系统，则深入讲解了超级电容和蓄电池的充放电策略，以及它们之间的协调机制。此外，还涉及了PQ控制的具体实现，包括双闭环结构的设计和锁相环的优化。最后，提供了仿真过程中常见的问题及解决方案，如求解器选择、参数敏感性和系统稳定性等。适合人群：从事电力电子、新能源系统设计与仿真的工程师和技术人员，以及相关专业的研究生。使用场景及目标：适用于希望深入了解风光储混合系统工作原理的研究人员，旨在帮助他们掌握Matlab仿真技巧，提高系统设计和优化的能力。其他说明：文中不仅提供了详细的理论推导和代码示例，还分享了许多实践经验，有助于读者更好地理解和应用所学知识。

亚洲电子商务发展案例研究: 本书由国际发展研究中心（IDRC）和东南亚研究院（ISEAS）联合出版，旨在探讨亚洲背景下电子商务的发展与实践。IDRC自1970年起，致力于通过科学技术解决发展中国家的社会、经济和环境问题。书中详细介绍了IDRC的ICT4D项目，以及如何通过项目如Acacia、泛亚网络和泛美项目，在非洲、亚洲和拉丁美洲推动信息通信技术（ICTs）的影响力。特别强调了IDRC在弥合数字鸿沟方面所作出的贡献，如美洲连通性研究所和非洲连通性项目。ISEAS作为东南亚区域研究中心，专注于研究该地区的发展趋势，其出版物广泛传播东南亚的研究成果。本书还收录了电子商务在亚洲不同国家的具体案例研究，包括小型工匠和开发组织的电子商务行动研究、通过互联网直接营销手工艺品、电子营销人员的创新方法以及越南电子商务发展的政策影响。

2025工业5G终端设备发展报告.pdf: 2025工业5G终端设备发展报告.pdf

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

(转载)python爬虫入门

评论

发表评论

相关推荐

springboot启动时执行指定方法

Web调用本地程序

Java Config与注解（转载）

java调用python脚本,传入参数

Gradle 命令行打包APK,输出到指定路径

列表生成式和生成器

自动安装apk,失败自动重连

正则表达式

python爬虫入门(解析)

Gradel构建差异化版本实例

闭包的概念

（转载）真理

(转载)从黑格尔谈“联系”与联系的局限性

（转载）康德与先验论

利用 Java 实现组合式解析器,基于 Java 的界面布局 DSL 的设计与实现(转载)

工具方法论(转载)

谈方法论（一）：认识与方法的基本问题(转载)

华夏基石e洞察归纳

因果论

转载:<<集体行动的逻辑>>总结

最近访客更多访客>>