`

Python爬虫基础编程

阅读更多

初学Python爬虫时都会从最简单的方法开始,以下为几种常见的基础做法。

"""
    简单的循环处理
"""
import requests


url_list = [
    "https://www.baidu.com",
"https://www.cnblogs.com/"
]

for url in url_list:
    result = requests.get(url)
    print(result.text)


"""
    线程池处理
"""
import requests
from concurrent.futures import ThreadPoolExecutor


def fetch_request(url):
    result = requests.get(url)
    print(result.text)


url_list = [
    "https://www.baidu.com/",
"https://www.cnblogs.com/"
]

pool = ThreadPoolExecutor(10)

for url in url_list:
    # 线程池中获取线程,执行fetch_request方法
pool.submit(fetch_request, url)

# 关闭线程池
pool.shutdown()

"""
    线程池+回调函数
"""
import requests
from concurrent.futures import ThreadPoolExecutor


def fetch_async(url):
    response = requests.get(url)
    return response


def callback(future):
    print(future.result().text)


url_list = [
    "https://www.baidu.com/",
"https://www.cnblogs.com/"
]

pool = ThreadPoolExecutor(10)

for url in url_list:
    v = pool.submit(fetch_async, url)
    # 调用回调函数
v.add_done_callback(callback)

pool.shutdown()

"""
    进程池处理
"""
import requests
from concurrent.futures import ProcessPoolExecutor


def fetch_requst(url):
    result = requests.get(url)
    print(result.text)


url_list = [
    "https://www.baidu.com/",
"https://www.cnblogs.com/"
]

if __name__ == '__main__':

    pool = ProcessPoolExecutor(max_workers=10)

    for url in url_list:
        pool.submit(fetch_requst, url)

    pool.shutdown()

"""
    进程池+回调函数
"""
import requests
from concurrent.futures import ProcessPoolExecutor


def fetch_async(url):
    response = requests.get(url)
    return response


def callback(future):
    print(future.result().text)


url_list = [
    "https://www.baidu.com/",
"https://www.cnblogs.com/"
]


if __name__ == '__main__':
    pool = ProcessPoolExecutor(10)

    for url in url_list:
        v = pool.submit(fetch_async, url)
        v.add_done_callback(callback)

    pool.shutdown()

0
0
分享到:
评论

相关推荐

    python爬虫课件+代码.zip

    Python爬虫技术是一种用于自动化网络数据获取的编程技术,它在大数据分析、网站维护、市场研究等领域具有广泛应用。本课程由“路飞学城樵夫”老师指导,通过实际操作帮助学习者掌握Python爬虫的基本原理和实战技巧。...

    python爬虫基础课件.pdf

    根据提供的文件信息,这份python爬虫基础课件主要涵盖了网络爬虫的概念、原理、基本流程以及实现数据抓取和处理的关键技术点。 首先,网络爬虫是自动获取网页内容的程序,常用于搜索引擎、数据采集等场景。网络爬虫...

    Python爬虫课件(完整版).pptx

    Python爬虫课件(完整版).pptx

    Python爬虫基础教程-主要讲解requests库

    本教程将介绍Python爬虫的基础知识和常用技术,帮助你快速入门Python爬虫编程。 本教程介绍了Python爬虫的基础知识和常用技术,包括发送HTTP请求、解析HTML、提取信息、保存数据、反爬虫策略等。通过学习本教程,你...

    爬虫代码实例源码大全+Python 爬虫Scrapy课件源码.zip

    通过学习和实践其中的代码,用户不仅可以掌握Python爬虫的基础知识,还能深入了解Scrapy框架的高级功能,提升网络数据抓取和处理的能力。对于想要从事数据采集、数据分析或者Web开发的人来说,这是一个非常有价值的...

    Python 爬虫基础 网络爬虫、数据采集、Python编程、数据处理

    资源描述: 这个资源是关于Python爬虫基础的教程,旨在帮助初学者掌握如何使用Python编程语言构建简单的网络爬虫,从网页中抓取数据,并进行基本的数据处理和存储。 内容概要: 教程涵盖了Python爬虫的基本概念、...

    python爬虫基础.zip

    Python爬虫基础是编程领域中的一个重要分支,它主要涉及如何使用Python语言自动化地从互联网上获取数据。Python作为一门简洁且强大的脚本语言,因其丰富的库支持和易读性强的语法,成为爬虫开发的首选工具。在这个...

    Python爬虫基础知识

    Python爬虫基础知识摘自千锋教育编著的《Python快乐编程》,内容清晰,项目讲解清楚,还有配套的视频和源码学习,很适合各大高校作为Python教材或者中低高级程序员使用。

    Python爬虫项目合集(源代码)

    通过学习这些源代码,你可以了解如何将Python爬虫技术应用到实际问题中,提升编程技能和解决问题的能力。同时,要注意遵守网站的robots.txt规则和相关法律法规,尊重数据隐私,合理合法地使用爬虫技术。这个项目合集...

    简单的python爬虫,代码完整

    一个基础的Python爬虫通常包括以下部分: 1. **URL管理器**:负责存储待抓取的网页URL,并按照一定的策略(如深度优先或广度优先)决定下一个要访问的页面。 2. **下载器**:模拟浏览器发送HTTP请求到服务器,获取...

    Python爬虫开发与项目实战.pdf

    因为在提供的内容中,没有包含实际的技术知识、概念解释、操作指南或者与Python爬虫开发相关的任何实际内容,而是重复了一段关于加入一个Python编程学习交流群的信息,并没有详细说明《Python爬虫开发与项目实战.pdf...

    零基础Python爬虫从入门到精通教程[视频课程].txt打包整理.zip

    【Python爬虫基础概念】 Python爬虫是一种自动化网络数据抓取技术,它是通过编写特定的Python代码来模拟人类浏览网页的行为,抓取网页上的信息。Python作为一门强大的编程语言,因其简洁明了的语法和丰富的第三方库...

    python爬虫基础教程,各阶段代码演示

    Python爬虫基础教程是入门网络数据抓取的重要学习资源,主要涵盖了Python编程语言在爬虫领域的应用。在这个教程中,你将学习到如何利用Python来抓取网页数据,理解网络请求与响应的基本原理,以及如何处理和解析HTML...

    python爬虫基础知识篇章之python编程基础知识.zip

    python爬虫基础知识篇章之python编程基础知识中主要讲解python基础知识为我们打好编程基础

    Python爬虫高级开发工程师5期-视频教程网盘链接提取码下载.txt

    ### Python爬虫高级开发工程师5期课程知识点概览 #### 一、课程概述 - **目标人群**:针对已具备一定Python编程基础的学习者,旨在进一步提升其在爬虫技术领域的专业技能。 - **核心内容**:涵盖高级爬虫技术、数据...

    2024年的必考python爬虫面试题10个.zip

    python爬虫内容概要: 本套面试题涵盖了Python爬虫的基本原理、反爬虫策略、常用库(如BeautifulSoup、Scrapy、Selenium)的使用、代理IP的应用、Ajax爬取、多线程/多进程提高效率、分布式爬虫的实现等核心技术点。...

    python爬虫基础知识&源码.zip

    本压缩包"python爬虫基础知识&源码.zip"包含了一系列关于Python爬虫的基础知识及源代码,非常适合对爬虫感兴趣或者想要入门前端开发的学习者。 "python适合哪些人学.docx"文档可能详细阐述了适合学习Python爬虫的...

    黑马程序员2018python爬虫课件完整版

    Python爬虫技术是数据获取和信息挖掘的重要工具,尤其在大数据时代,它的价值不言而喻。黑马程序员作为知名的IT教育机构,其2018年的Python爬虫课程旨在教授学员如何有效地抓取和处理网络上的信息。在这个完整的课程...

    python爬虫基础知识及爬虫实例.zip

    本压缩包文件"python爬虫基础知识及爬虫实例.zip"包含了一份名为"python爬虫基础知识及爬虫实例.py"的源代码文件,旨在帮助初学者理解Python爬虫的基本概念和实践操作。 首先,让我们深入了解Python爬虫的基础知识...

Global site tag (gtag.js) - Google Analytics