`

爬取网站图片,并下载保存到指定文件夹

 
阅读更多

源码如下:

# -*- coding: utf-8 -*-
# @Time    : 2017/5/18 17:38
# @Author  : xiaojingjing
# @Site    : 
# @File    : finde_mmimg.py
# @Software: PyCharm
import  urllib.request
import  os,shutil

def url_open(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36')
    response=urllib.request.urlopen(url)
    html=response.read()
    return html


def get_page(url):
    html=url_open(url).decode('utf-8')
    a=html.find('current-comment-page')+23
    b=html.find(']',a)

    return html[a:b]

def find_imgs(url):
    html=url_open(url).decode('utf-8')
    img_addrs=[]
    a=html.find('img src=')

    while a!= -1:
        b=html.find('.jpg',a,a+255)
        if b!=-1:
            img_addrs.append('http:'+html[a+9:b+4])
        else:
            b=a+9

        a=html.find('img src=',b)
    print(img_addrs)
    return img_addrs

def save_imgs(folder,img_addrs):
    for each in img_addrs:
        filename=each.split('/')[-1]
        with open(filename,'wb') as f:
            img=url_open(each)
            f.write(img)

def  download_mm(folder='ooxx'):
    pages=int(input("请输入需要下载多少页:"))
    print("判断文件夹是否存在..........")
    if os.path.exists('ooxx'):
        print("存在,删除中··········")
        shutil.rmtree('ooxx')
        print("删除完毕!")
    else:
        print("新建文件夹",folder,"中...........")
        os.mkdir(folder)
        os.chdir(folder)
        print("新建完成..............")


    url="http://jandan.net/ooxx/"
    page_num=int(get_page(url))

    for i in range(pages):
        page_num -=i
        page_url=url+'page-'+str(page_num)+'#comments'
        img_addrs=find_imgs(page_url)
        save_imgs(folder,img_addrs)


if __name__=='__main__':
    download_mm()

 

分享到:
评论

相关推荐

    通过登录cookies爬取表单数据并保存在指定文件夹(按需命名)和excel中

    通过登录cookies爬取表单数据并保存在指定文件夹(按需命名)和excel中。cookies,表单,excel,selenium,requests

    cookies登录爬取表单数据并保存在指定文件夹(按需命名)和excel中(有的不保存,没有的添加)

    通过登录cookies爬取表单数据并保存在指定文件夹(按需命名)和excel中。cookies,表单,excel,selenium,requests,上一个的改良版

    scrapy爬取cosplay图片并保存到本地指定文件夹

    在这个场景中,我们讨论的是如何使用 Scrapy 来爬取 cosplay 相关的图片,并将它们保存到本地的指定文件夹。下面将详细解释整个过程。 1. **创建 Scrapy 项目**: 首先,你需要通过命令行创建一个新的 Scrapy 项目...

    python爬取百度图片以及图像批量处理

    4. **下载图片**:遍历找到的图片URL,使用requests库的get方法下载图片,然后使用内置的write方法保存到本地。 5. **处理图片**:使用PIL库对下载的图片进行处理,比如调整大小、统一格式等。这可以通过Image.open...

    百度图片爬取_爬取_爬取图片_爬虫_python爬_python_

    下载的图片通常以二进制数据形式存在,我们可以将其保存到本地文件系统。Python的内置open函数配合'wb'模式可以实现这一点。同时,为了保证图片的完整性,我们需要设置合适的超时时间和重试机制。 此外,如果需要...

    爬虫项目可爬取图片文字等

    结合简单的图片下载逻辑,就能实现一个简单的网页爬虫,将网络上的资源保存到本地。不过,在实际应用中,我们还需要考虑更多因素,如反爬策略、数据清洗、存储和分析等,以构建更完善的爬虫系统。

    python抓取网页图片并放到指定文件夹

    python抓取网站图片并放到指定文件夹 复制代码 代码如下:# -*- coding=utf-8 -*-import urllib2import urllibimport socketimport osimport redef Docment(): print u’把文件存在E:\Python\图(请输入数字或字母)...

    在windows上通过软件爬取网络图片,例如百度

    然后,通过八爪鱼的可视化编辑器,你可以设置如何定位到图片链接。这可能涉及到CSS选择器、XPath等HTML元素定位方法。 5. **设置图片下载参数** 在设置好爬取规则后,进入“字段”选项卡,添加新的字段类型为...

    Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码

    大家可以在Github上clone...在开始爬取之前,必须创建一个新的Scrapy项目。 进入打算存储代码的目录中,运行下列命令: scrapy startproject CrawlMeiziTu 该命令将会创建包含下列内容的 tutorial 目录: CrawlMeiziTu/

    利用python爬取斗图网站

    在这个场景下,我们将探讨如何利用Python编程语言来爬取斗图网站的图片,并将其保存到本地文件夹,实现“一文件夹在手,天下你有”的斗图资源库。 首先,我们需要了解Python中的几个关键库,它们在爬虫项目中起着...

    爬取百度图片例子程序python语言

    爬取百度图片例子程序python语言: 使用 requests 库发送 HTTP 请求到百度图片搜索页面,搜索关键词为 search_query。 使用 BeautifulSoup 库解析...遍历图片标签,提取每张图片的 URL,并下载保存到指定的文件夹中。

    爬取图片资源

    3. **图片下载**:获取到图片URL后,我们可以使用`requests.get()`方法下载图片。一般会将图片保存到本地文件系统,这时需要指定一个保存路径,这在描述中提到需要根据实际情况进行修改。 4. **异常处理**:在爬虫...

    爬取贴吧的图片

    3. 图片下载:解析出图片URL后,使用`requests`库的`get`方法配合`io`和`os`库,可以将图片下载到本地。 4. 处理反爬策略:很多网站会设置反爬策略,如验证码、IP限制、User-Agent变化等。对于这些,我们可以使用`...

    bing_pic.py

    python网络爬取图片,爬取一个网站的图片并保存至本地指定文件夹

    音乐歌曲下载至指定文件夹

    在这个案例中,我们将讨论如何使用C#编程语言结合NSoup库来爬取音乐网站上的歌曲,并将其下载到用户指定的文件夹。 首先,让我们深入了解C#。C#是由微软开发的一种面向对象的编程语言,广泛应用于Windows桌面应用、...

    python:根据关键词爬取特定的图片,可以用于分类数据集制作

    通过以上步骤,我们可以实现根据关键词爬取特定图片并构建分类数据集的目标。这个过程不仅涵盖了Python的基本网络请求、HTML解析,还涉及到了数据集的构建和爬虫的编写技巧。对于数据科学和机器学习的初学者,这是一...

    Node.js-小爬虫爬取美女图片

    一旦获取到图片URL,我们就创建一个新的HTTP请求,将响应的二进制数据写入本地文件,完成图片的保存。 在实际爬虫开发中,我们还需要考虑一些其他因素,比如防止重复下载、处理分页、设置延迟以避免被网站封禁等。...

    python爬取美女图片

    - `save_imgs`函数用于下载并保存图片。 - 设置`Referer`和`User-Agent`来模仿真实用户的访问行为。 - 解析页面,提取图片的源链接`src`和图集名称`alt`。 - 构造保存路径,如果文件夹不存在则创建。 - 使用`...

    网站图片批量下载工具

    综上所述,网站图片批量下载工具是互联网时代一个实用的工具,能够满足用户多样化的需求,从设计人员寻找灵感,到数据分析人员抓取图像数据,再到网站备份,都有着广泛的应用场景。在使用过程中,我们需要注意合理...

    爬虫 爬取图片2例.zip

    抓取到图片URL后,需要将其下载到本地。Python的`urllib`或`requests`库都可以实现这一功能。通常会用`urlopen()`或`requests.get()`方法读取图片内容,然后写入到本地文件中。 6. **异步处理与多线程** 如果需要...

Global site tag (gtag.js) - Google Analytics