python抓取网页图片示例(python爬虫)
-*- encoding: utf-8 -*- ''' Created on 2014-4-24 @author: Leon Wong ''' # www.jbxue.com import urllib2 import urllib import re import time import os import uuid #获取二级页面url def findUrl2(html): re1 = r'http://tuchong.com/\d+/\d+/|http://\w+(?<!photos).tuchong.com/\d+/' url2list = re.findall(re1,html) url2lstfltr = list(set(url2list)) url2lstfltr.sort(key=url2list.index) #print url2lstfltr return url2lstfltr #获取html文本 def getHtml(url): html = urllib2.urlopen(url).read().decode('utf-8')#解码为utf-8 return html #下载图片到本地 def download(html_page , pageNo): #定义文件夹的名字 x = time.localtime(time.time()) foldername = str(x.__getattribute__("tm_year"))+"-"+str(x.__getattribute__("tm_mon"))+"-"+str(x.__getattribute__("tm_mday")) re2=r'http://photos.tuchong.com/.+/f/.+\.jpg' imglist=re.findall(re2,html_page) print imglist download_img=None for imgurl in imglist: picpath = 'D:\\TuChong\\%s\\%s' % (foldername,str(pageNo)) filename = str(uuid.uuid1()) if not os.path.exists(picpath): os.makedirs(picpath) target = picpath+"\\%s.jpg" % filename print "The photos location is:"+target download_img = urllib.urlretrieve(imgurl, target)#将图片下载到指定路径中 time.sleep(1) print(imgurl) return download_img # def callback(blocknum, blocksize, totalsize): # '''回调函数 # @blocknum: 已经下载的数据块 # @blocksize: 数据块的大小 # @totalsize: 远程文件的大小 # ''' # print str(blocknum),str(blocksize),str(totalsize) # if blocknum * blocksize >= totalsize: # print '下载完成' def quitit(): print "Bye!" exit(0) if __name__ == '__main__': print ''' ***************************************** ** Welcome to Spider for TUCHONG ** ** Created on 2014-4-24 ** ** @author: Leon Wong ** *****************************************''' pageNo = raw_input("Input the page number you want to scratch (1-100),please input 'quit' if you want to quit>") while not pageNo.isdigit() or int(pageNo) > 100 : if pageNo == 'quit':quitit() print "Param is invalid , please try again." pageNo = raw_input("Input the page number you want to scratch >") #针对图虫人像模块来爬取 html = getHtml("http://tuchong.com/tags/%E4%BA%BA%E5%83%8F/?page="+str(pageNo)) detllst = findUrl2(html) for detail in detllst: html2 = getHtml(detail) download(html2,pageNo) print "Finished."
相关推荐
python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,如何抓取网页数据; python爬虫,...
python爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码.zippython爬虫抓取网页数据大作业项目代码....
python爬虫抓取网页图片在Python中,你可以使用requests库来发送HTTP请求,以及BeautifulSoup或Scrapy库来解析网页内容。你也可以使用selenium库,它是一个自动化测试工具,用于模拟用户在浏览器中的操作。下面是一...
python爬虫 抓取页面图片python爬虫 抓取页面图片python爬虫 抓取页面图片
在Python编程语言中,"python抓取网页图片.zip"这个压缩包文件可能包含了一个示例项目,教我们如何使用Python来抓取网络上的图片。在Web抓取领域,这通常涉及到网络爬虫的编写,目的是自动下载网页中的图像资源。...
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。 ...
本教程将深入探讨Python爬虫的基本概念,重点在于如何抓取网页、处理图片,并解决在模拟用户行为时遇到的403 Forbidden错误。我们将通过具体的代码示例来详细解释这些知识点。 1. **Python爬虫基础**: - **网络...
本实例程序"python抓取网页到本地"将教你如何利用Python来抓取新闻页面上的所有新闻链接,并将这些链接对应的内容保存到本地。这涉及到的知识点主要包括Python基础、网络请求、HTML解析以及文件操作。 首先,我们...
利用Python爬虫抓取网页上的图片,当遇到不合法的URL时,会自动处理异常,不会导致程序崩溃。直到下载完整个页面的图片,程序才会退出
本篇内容将介绍如何利用Python爬虫抓取网页内容,并将其存储到MongoDB数据库中,形成可管理的文档型数据。 首先,Python中的`requests`库是用于发送HTTP请求的工具,它能够帮助我们获取网页的HTML源码。例如,在...
python 抓取1688店铺产品详情,爬虫
在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...
利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片
在本例中,我们将深入探讨如何使用Python抓取网站上的图片,并了解相关的知识点。 首先,我们需要了解基础的网络请求库,如`requests`。`requests`库允许我们向服务器发送HTTP请求,获取响应,进而获取网页的HTML源...
总的来说,这个Python爬虫项目展示了如何结合网络请求、HTML解析、文件下载和多媒体处理等技术,实现自动抓取和合成m3u8网页视频。通过学习和实践此类项目,开发者不仅可以提升自己的Python编程能力,还能深入理解...
本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程 首先,我们需要明确一下Python抓取网页数据的基本流程。通常情况下,我们需要完成以下三个步骤: (1)发送HTTP请求获取网页数据...
Python3爬虫抓取百度图片中的图片,可根据需求输入关键字、图片数量
一个简单的python示例,实现抓取 嗅事百科 首页内容 ,大家可以自行运行测试
Python爬虫是一种用于自动化网络数据抓取的技术,它可以帮助我们从网页上批量下载图片。Python有许多库支持这项任务,如BeautifulSoup、Scrapy和Requests-HTML等。其中,Requests库用于发送HTTP请求获取网页内容,...
"Python爬虫技术的网页数据抓取与分析" 在信息化时代,互联网信息量呈现爆发式的增长,如何在诸多复杂的信息中简单快捷的寻找到有效信息,网络爬虫的诞生能够有效的解决此类问题,改善了信息检索的现状。本文通过...