`
月亮不懂夜的黑
  • 浏览: 155445 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Python3.X下的爬虫实现

阅读更多
# coding:utf-8
import urllib.request
import re


def get_html(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html


def find_img_list(html_str):
    reg = r'src="(.+?\.jpg)" width'
    reg_img = re.compile(reg)
    html_str = html_str.decode('utf-8')  # python3
    img_list = reg_img.findall(html_str)
    return img_list


imgList = find_img_list(get_html('http://tieba.baidu.com/p/1753935195'))
for img in imgList:
    print(img)

 由于Python部分的不同版本代码有些不同,故修改一份python3.X的备忘

0
0
分享到:
评论

相关推荐

    python3.x爬虫代码

    Python3.x爬虫代码是利用Python编程语言进行网络数据抓取的一种技术实现。在Python中,爬虫开发主要依赖于一些强大的库,如requests、BeautifulSoup、Scrapy等。本篇将详细介绍Python3.x爬虫的基本概念、常用库以及...

    Python3 实现淘女郎照片爬虫.pdf

    Python3 实现淘女郎照片爬虫 一、实验介绍 本项目通过使用 Python 实现一个淘女郎图片收集爬虫,学习并实践 BeautifulSoup、Selenium Webdriver 及正则表达式等知识。在项目开发过程中采用瀑布流开发模型。 知识点...

    Python 3网络爬虫开发实战 高清part1

    介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同...

    Python2.x入门到精通

    18. **爬虫开发**:学习使用requests和BeautifulSoup库抓取网页数据,实现基本的网络爬虫。 19. **自动化脚本**:利用Python编写自动化脚本,实现日常任务的自动化执行。 20. **游戏开发**:通过pygame库,尝试...

    Python 面试100讲(基于Python3.x).zip

    综上所述,"Python 面试100讲(基于Python3.x)"涵盖了Python编程的核心要素,包括模块导入、字符串操作、数据结构(如二叉树)以及网络爬虫技术。这些知识点不仅对于面试,对于实际开发工作也是至关重要的。深入...

    python3.x实现智联招聘网站岗位信息爬取

    在Python 3.x中,实现智联招聘网站岗位信息的爬取是一项常见的数据抓取任务,这涉及到网络爬虫技术的应用。爬虫是自动化获取网页信息的一种工具,它可以帮助我们批量收集并处理网页上的数据。在这个项目中,我们将...

    Python3.x爬虫下载网页图片的实例讲解

    Python3.x爬虫下载网页图片的核心知识点可以总结为以下几个方面: 1. 爬虫基础知识:爬虫是一种自动获取网页内容的程序。它的工作原理是模拟用户的网页浏览行为,通过网络请求获取网页内容,然后解析网页中的数据,...

    Python实现网络爬虫、蜘蛛.pdf

    Python 实现网络爬虫主要涉及以下几个知识点: 1. **Python 的 urllib 模块**:`urllib` 是 Python 内置的一个用于处理 URL 的库,它包含多个子模块,如 `urllib.request` 用于发出 HTTP 请求。在提供的示例中,`...

    Python爬虫.pdf

    #### 三、Python爬虫实现步骤 ##### 步骤1:导入必要的库 ```python import requests from bs4 import BeautifulSoup import time ``` ##### 步骤2:设置目标URL和请求头 ```python # 目标URL(这里只是一个示例...

    python官方3.5.3版本exe安装包

    Python 3.5.3是Python 3.x系列的一个稳定版本,发布于2017年,为开发者提供了许多改进和新特性。这个版本的安装包是“python-3.5.3.exe”,它是一个可执行文件,适用于Windows操作系统,用于安装Python解释器及其...

    python爬虫第一课-python基础.docx

    - **安装Python**:首先需要下载并安装Python,推荐安装最新版的Python 3.x版本。 - **配置环境变量**:将Python的安装目录以及Scripts目录加入系统环境变量Path中,以便可以在任何位置通过命令行调用Python解释器。...

    python实现爬虫算法

    **Python实现爬虫算法** Python作为一种高级编程语言,以其简洁明了的语法和丰富的库支持,在网络爬虫领域中占据着重要地位。Scrapy是一个基于Python的开源框架,专为爬虫项目设计,它提供了强大的数据抓取和处理...

    (完整word版)python教程.doc

    3. **交互式**:支持直接在Python提示符下运行代码,方便测试和调试。 4. **可移植性**:可在多种硬件平台和操作系统上运行,包括UNIX、Windows、Macintosh等。 5. **标准库丰富**:Python提供了大量预装的库,支持...

    python在网络爬虫方面的应用.docx

    2. Python 版本:Python 3.x、Python 2.x 等。 3. 依赖库:Scrapy、BeautifulSoup、Requests 等。 语法结构和编译集成环境 Python 的语法结构和编译集成环境对于网络爬虫至关重要,包括: 1. Python 语法:Python...

    python实现网络爬虫 爬取北上广深的天气数据报告 python.docx

    开发环境包括Python 3.x编程环境,推荐使用Anaconda进行环境管理,它包含了Python基础库以及科学计算所需的numpy、pandas等库。此外,还需要安装requests用于发送HTTP请求,BeautifulSoup用于解析HTML文档,以及...

    山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.docx

    - **4.1.1 设计环境**:Python 3.x环境,搭配相关库如requests和BeautifulSoup。 - **4.1.2 目标分析**:设计一个能够爬取特定网站信息的爬虫,例如新闻标题、发布时间、作者等。 - **4.2 爬虫运行流程分析** - ...

    Python网络爬虫的设计与实现.zip

    在本文中,我们将深入探讨Python网络爬虫的设计与实现,重点关注其核心技术和应用领域。 首先,理解网络爬虫的工作原理至关重要。网络爬虫通常由四个主要部分组成:URL管理器、下载器、解析器和数据存储器。URL管理...

    runoob菜鸟教程-python3教程

    Python 3相较于早期版本做了较大的改变,最显著的改变之一就是不考虑向下兼容性,也就是说,Python 3的代码不能在Python 2.x版本中运行,而Python 2.x的代码也不能直接在Python 3.x版本中运行。这种改变是为了语言的...

    Python3入门视频教程百度网盘.pdf

    第十三章“实战:原生爬虫”带你进入网络爬虫的世界,通过Python编写简单的爬虫程序,获取并处理网页数据。 第十四章“Pythonic与Python杂记”则探讨Python的编程风格,如PEP8编码规范,以及一些Python特有的习惯...

    Python程序设计:快速编程入门 典型第1章 Python概述.pptx

    需要注意的是,Python 3.x 并不完全兼容 Python 2.x,这意味着编写于2.x版本的代码可能无法在3.x版本中直接运行。因此,在选择Python版本时,开发者需要考虑自己的项目需求以及兼容性问题。 #### 扩展性 Python的...

Global site tag (gtag.js) - Google Analytics