`

python抓取网页图片python爬虫

 
阅读更多

python抓取网页图片示例(python爬虫)


-*- encoding: utf-8 -*-
'''
Created on 2014-4-24
@author: Leon Wong
'''
# www.jbxue.com
import urllib2
import urllib
import re
import time
import os
import uuid

#获取二级页面url
def findUrl2(html):
    re1 = r'http://tuchong.com/\d+/\d+/|http://\w+(?<!photos).tuchong.com/\d+/'
    url2list = re.findall(re1,html)
    url2lstfltr = list(set(url2list))
    url2lstfltr.sort(key=url2list.index)
    #print url2lstfltr
    return url2lstfltr

#获取html文本
def getHtml(url):
    html = urllib2.urlopen(url).read().decode('utf-8')#解码为utf-8
    return html

#下载图片到本地
def download(html_page , pageNo):   
    #定义文件夹的名字
    x = time.localtime(time.time())
    foldername = str(x.__getattribute__("tm_year"))+"-"+str(x.__getattribute__("tm_mon"))+"-"+str(x.__getattribute__("tm_mday"))
    re2=r'http://photos.tuchong.com/.+/f/.+\.jpg'
    imglist=re.findall(re2,html_page)
    print imglist
    download_img=None
    for imgurl in imglist:
        picpath = 'D:\\TuChong\\%s\\%s'  % (foldername,str(pageNo))
        filename = str(uuid.uuid1())
        if not os.path.exists(picpath):
            os.makedirs(picpath)               
        target = picpath+"\\%s.jpg" % filename
        print "The photos location is:"+target
        download_img = urllib.urlretrieve(imgurl, target)#将图片下载到指定路径中
        time.sleep(1)
        print(imgurl)
    return download_img


# def callback(blocknum, blocksize, totalsize):
#     '''回调函数
#     @blocknum: 已经下载的数据块
#     @blocksize: 数据块的大小
#     @totalsize: 远程文件的大小
#     '''
#     print str(blocknum),str(blocksize),str(totalsize)
#     if blocknum * blocksize >= totalsize:
#         print '下载完成'

def quitit():
    print "Bye!"
    exit(0)

if __name__ == '__main__':
    print '''            *****************************************
            **    Welcome to Spider for TUCHONG    **
            **      Created on 2014-4-24           **
            **      @author: Leon Wong             **
            *****************************************'''
    pageNo = raw_input("Input the page number you want to scratch (1-100),please input 'quit' if you want to quit>")
    while not pageNo.isdigit() or int(pageNo) > 100 :
        if pageNo == 'quit':quitit()
        print "Param is invalid , please try again."
        pageNo = raw_input("Input the page number you want to scratch >")

    #针对图虫人像模块来爬取
    html = getHtml("http://tuchong.com/tags/%E4%BA%BA%E5%83%8F/?page="+str(pageNo))

    detllst = findUrl2(html)
    for detail in detllst:
        html2 = getHtml(detail)
        download(html2,pageNo)
    print "Finished."
分享到:
评论

相关推荐

    python爬虫,如何抓取网页数据

    python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...

    python爬虫抓取网页数据大作业项目代码.zip

    python爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码....

    python爬虫抓取网页图片多种示例

    python爬虫抓取网页图片在Python中,你可以使用requests库来发送HTTP请求,以及BeautifulSoup或Scrapy库来解析网页内容。你也可以使用selenium库,它是一个自动化测试工具,用于模拟用户在浏览器中的操作。下面是一...

    python爬虫 抓取页面图片

    python爬虫 抓取页面图片python爬虫 抓取页面图片python爬虫 抓取页面图片

    python抓取网页图片.zip

    在Python编程语言中,"python抓取网页图片.zip"这个压缩包文件可能包含了一个示例项目,教我们如何使用Python来抓取网络上的图片。在Web抓取领域,这通常涉及到网络爬虫的编写,目的是自动下载网页中的图像资源。...

    Python3简单爬虫抓取网页图片代码实例

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。 ...

    Python爬虫抓取图片以及使用Spider模仿用户行为抓取403错误网页

    本教程将深入探讨Python爬虫的基本概念,重点在于如何抓取网页、处理图片,并解决在模拟用户行为时遇到的403 Forbidden错误。我们将通过具体的代码示例来详细解释这些知识点。 1. **Python爬虫基础**: - **网络...

    python抓取网页到本地实例程序

    本实例程序"python抓取网页到本地"将教你如何利用Python来抓取新闻页面上的所有新闻链接,并将这些链接对应的内容保存到本地。这涉及到的知识点主要包括Python基础、网络请求、HTML解析以及文件操作。 首先,我们...

    利用Python爬虫抓取网页上的图片(含异常处理)

    利用Python爬虫抓取网页上的图片,当遇到不合法的URL时,会自动处理异常,不会导致程序崩溃。直到下载完整个页面的图片,程序才会退出

    用python爬取网页并导出为word文档.docx

    本篇内容将介绍如何利用Python爬虫抓取网页内容,并将其存储到MongoDB数据库中,形成可管理的文档型数据。 首先,Python中的`requests`库是用于发送HTTP请求的工具,它能够帮助我们获取网页的HTML源码。例如,在...

    python 抓取1688店铺产品详情爬虫

    python 抓取1688店铺产品详情,爬虫

    python抓取淘宝天猫网页商品详情Demo

    在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...

    python网络爬虫抓取图片

    利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片

    python 爬虫之抓取页面图片

    在本例中,我们将深入探讨如何使用Python抓取网站上的图片,并了解相关的知识点。 首先,我们需要了解基础的网络请求库,如`requests`。`requests`库允许我们向服务器发送HTTP请求,获取响应,进而获取网页的HTML源...

    python爬虫项目——自动批量抓取m3u8网页视频

    总的来说,这个Python爬虫项目展示了如何结合网络请求、HTML解析、文件下载和多媒体处理等技术,实现自动抓取和合成m3u8网页视频。通过学习和实践此类项目,开发者不仅可以提升自己的Python编程能力,还能深入理解...

    python抓取网页上想要的任何数据.txt

    本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程 首先,我们需要明确一下Python抓取网页数据的基本流程。通常情况下,我们需要完成以下三个步骤: (1)发送HTTP请求获取网页数据...

    Python3爬虫抓取百度图片中的图片

    Python3爬虫抓取百度图片中的图片,可根据需求输入关键字、图片数量

    python简单爬虫抓取网页内容实例

    一个简单的python示例,实现抓取 嗅事百科 首页内容 ,大家可以自行运行测试

    分享python爬虫抓取图片.pdf

    Python爬虫是一种用于自动化网络数据抓取的技术,它可以帮助我们从网页上批量下载图片。Python有许多库支持这项任务,如BeautifulSoup、Scrapy和Requests-HTML等。其中,Requests库用于发送HTTP请求获取网页内容,...

    Python爬虫技术的网页数据抓取与分析.pdf

    "Python爬虫技术的网页数据抓取与分析" 在信息化时代,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状。本文通过...

Global site tag (gtag.js) - Google Analytics