源码如下:
# -*- coding: utf-8 -*- # @Time : 2017/5/18 17:38 # @Author : xiaojingjing # @Site : # @File : finde_mmimg.py # @Software: PyCharm import urllib.request import os,shutil def url_open(url): req=urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36') response=urllib.request.urlopen(url) html=response.read() return html def get_page(url): html=url_open(url).decode('utf-8') a=html.find('current-comment-page')+23 b=html.find(']',a) return html[a:b] def find_imgs(url): html=url_open(url).decode('utf-8') img_addrs=[] a=html.find('img src=') while a!= -1: b=html.find('.jpg',a,a+255) if b!=-1: img_addrs.append('http:'+html[a+9:b+4]) else: b=a+9 a=html.find('img src=',b) print(img_addrs) return img_addrs def save_imgs(folder,img_addrs): for each in img_addrs: filename=each.split('/')[-1] with open(filename,'wb') as f: img=url_open(each) f.write(img) def download_mm(folder='ooxx'): pages=int(input("请输入需要下载多少页:")) print("判断文件夹是否存在..........") if os.path.exists('ooxx'): print("存在,删除中··········") shutil.rmtree('ooxx') print("删除完毕!") else: print("新建文件夹",folder,"中...........") os.mkdir(folder) os.chdir(folder) print("新建完成..............") url="http://jandan.net/ooxx/" page_num=int(get_page(url)) for i in range(pages): page_num -=i page_url=url+'page-'+str(page_num)+'#comments' img_addrs=find_imgs(page_url) save_imgs(folder,img_addrs) if __name__=='__main__': download_mm()
相关推荐
通过登录cookies爬取表单数据并保存在指定文件夹(按需命名)和excel中。cookies,表单,excel,selenium,requests
通过登录cookies爬取表单数据并保存在指定文件夹(按需命名)和excel中。cookies,表单,excel,selenium,requests,上一个的改良版
在这个场景中,我们讨论的是如何使用 Scrapy 来爬取 cosplay 相关的图片,并将它们保存到本地的指定文件夹。下面将详细解释整个过程。 1. **创建 Scrapy 项目**: 首先,你需要通过命令行创建一个新的 Scrapy 项目...
4. **下载图片**:遍历找到的图片URL,使用requests库的get方法下载图片,然后使用内置的write方法保存到本地。 5. **处理图片**:使用PIL库对下载的图片进行处理,比如调整大小、统一格式等。这可以通过Image.open...
下载的图片通常以二进制数据形式存在,我们可以将其保存到本地文件系统。Python的内置open函数配合'wb'模式可以实现这一点。同时,为了保证图片的完整性,我们需要设置合适的超时时间和重试机制。 此外,如果需要...
结合简单的图片下载逻辑,就能实现一个简单的网页爬虫,将网络上的资源保存到本地。不过,在实际应用中,我们还需要考虑更多因素,如反爬策略、数据清洗、存储和分析等,以构建更完善的爬虫系统。
python抓取网站图片并放到指定文件夹 复制代码 代码如下:# -*- coding=utf-8 -*-import urllib2import urllibimport socketimport osimport redef Docment(): print u’把文件存在E:\Python\图(请输入数字或字母)...
然后,通过八爪鱼的可视化编辑器,你可以设置如何定位到图片链接。这可能涉及到CSS选择器、XPath等HTML元素定位方法。 5. **设置图片下载参数** 在设置好爬取规则后,进入“字段”选项卡,添加新的字段类型为...
大家可以在Github上clone...在开始爬取之前,必须创建一个新的Scrapy项目。 进入打算存储代码的目录中,运行下列命令: scrapy startproject CrawlMeiziTu 该命令将会创建包含下列内容的 tutorial 目录: CrawlMeiziTu/
在这个场景下,我们将探讨如何利用Python编程语言来爬取斗图网站的图片,并将其保存到本地文件夹,实现“一文件夹在手,天下你有”的斗图资源库。 首先,我们需要了解Python中的几个关键库,它们在爬虫项目中起着...
爬取百度图片例子程序python语言: 使用 requests 库发送 HTTP 请求到百度图片搜索页面,搜索关键词为 search_query。 使用 BeautifulSoup 库解析...遍历图片标签,提取每张图片的 URL,并下载保存到指定的文件夹中。
3. **图片下载**:获取到图片URL后,我们可以使用`requests.get()`方法下载图片。一般会将图片保存到本地文件系统,这时需要指定一个保存路径,这在描述中提到需要根据实际情况进行修改。 4. **异常处理**:在爬虫...
3. 图片下载:解析出图片URL后,使用`requests`库的`get`方法配合`io`和`os`库,可以将图片下载到本地。 4. 处理反爬策略:很多网站会设置反爬策略,如验证码、IP限制、User-Agent变化等。对于这些,我们可以使用`...
python网络爬取图片,爬取一个网站的图片并保存至本地指定文件夹
在这个案例中,我们将讨论如何使用C#编程语言结合NSoup库来爬取音乐网站上的歌曲,并将其下载到用户指定的文件夹。 首先,让我们深入了解C#。C#是由微软开发的一种面向对象的编程语言,广泛应用于Windows桌面应用、...
一旦获取到图片URL,我们就创建一个新的HTTP请求,将响应的二进制数据写入本地文件,完成图片的保存。 在实际爬虫开发中,我们还需要考虑一些其他因素,比如防止重复下载、处理分页、设置延迟以避免被网站封禁等。...
- `save_imgs`函数用于下载并保存图片。 - 设置`Referer`和`User-Agent`来模仿真实用户的访问行为。 - 解析页面,提取图片的源链接`src`和图集名称`alt`。 - 构造保存路径,如果文件夹不存在则创建。 - 使用`...
综上所述,网站图片批量下载工具是互联网时代一个实用的工具,能够满足用户多样化的需求,从设计人员寻找灵感,到数据分析人员抓取图像数据,再到网站备份,都有着广泛的应用场景。在使用过程中,我们需要注意合理...
抓取到图片URL后,需要将其下载到本地。Python的`urllib`或`requests`库都可以实现这一功能。通常会用`urlopen()`或`requests.get()`方法读取图片内容,然后写入到本地文件中。 6. **异步处理与多线程** 如果需要...
通过以上步骤,我们可以实现根据关键词爬取特定图片并构建分类数据集的目标。这个过程不仅涵盖了Python的基本网络请求、HTML解析,还涉及到了数据集的构建和爬虫的编写技巧。对于数据科学和机器学习的初学者,这是一...