`

[Python练手爬虫]煎蛋网抓取图片

阅读更多

仅供学习,交流

 

#!/usr/bin/env python3
import requests,re,json,html2text,sys,time
from bs4 import BeautifulSoup
import time 
import urllib.request
import os

baseurl="http://jandan.net/ooxx/page-"
#伪装成浏览器去访问
headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36', 'Accept-Encoding' : 'gzip','Cookie':'1024679722=aada4mZxRMxqvInd7D6PSgq%2FIkpGFeGlZWAH1gqP8Q; __auc=57bffd35154a91de3cd5d3b1ddb; 1024679722=ebeaLZUFikSR1OE6lm5MJYJSV0V1DbcooxQr0CHu; jdna=596e6fb28c1bb47f949e65e1ae03f7f5#1467948344088; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1467001661,1467189261,1467685014,1467857178; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1467948345; _ga=GA1.2.1739476572.1438849462; _gat=1'}

def getImageList():
#想抓页,自己定义
	for x in range(1,30):
		page = 2006-x #按照网页浏览方式,起始页数,然后递减,这里可以随意修改
		current_url = baseurl+str(page)
		response = url_open(current_url)
		if "check_human" in response.text:
			#被屏蔽,休息1分钟 ,建议抓取的频率不要太频繁,太频繁一样会被屏蔽
			time.sleep(60)
		else:
			soup = BeautifulSoup(response.text,"html.parser")
			divList = soup.find_all("div",class_='text')
			for i in divList:
				img = i.p.img;
				if len(i.contents) > 1 and img!=None:
					href = img.get("src")
					saveImage(href)
		time.sleep(3)

def saveImage(imgUrl):
	fileName = imgUrl[imgUrl.rfind("/")+1:]
	path = r"/Users/xxx/Downloads/meizhiimage/"+fileName  #这里改成你自己的本地目录
	response = url_open(imgUrl)
	image = response.content
	with open(path,"wb") as f:
		f.write(image)
		f.close()

def url_open(url):
	print("get url ### " + url)
	return requests.get(url,headers = headers)

if __name__=="__main__":
	getImageList()

 

 

 

分享到:
评论

相关推荐

    python 爬虫 煎蛋 妹子.zip

    本压缩包可能包含了一个名为"煎蛋妹子"的爬虫项目,它可能是用来抓取网络上某个网站(比如煎蛋网)的美女图片或相关信息。 首先,让我们详细了解Python爬虫的基础知识: 1. **HTTP协议**:网络上的数据交换主要...

    Python 爬取煎蛋妹子图片

    Python3入门级爬虫,爬取煎蛋图片,需要用到bs4、selenium、requests

    爬取煎蛋网图片的简易爬虫程序(2021.6.28可用)

    本文将深入探讨一个针对煎蛋网(Douban Eggs)的简易图片爬虫程序,帮助读者理解如何利用Python进行网页爬取,特别是针对特定网站如煎蛋网的图片资源。 煎蛋网是一个以分享趣图、段子为主的娱乐网站,其丰富的图片...

    Python爬虫爬取煎蛋网图片代码实例

    总结来说,Python爬虫爬取煎蛋网图片的代码实例涉及到多个知识点,包括但不限于Python基础语法、网络请求处理、字符串处理、异常处理、用户代理设置、文件操作以及遵守robots.txt协议等。通过本实例的学习,可以为...

    jandan_spider, 使用Python3 爬取煎蛋妹纸图片.zip

    【标题】"jandan_spider, 使用Python3 爬取煎蛋妹纸图片" 提供了一...对于想要学习Python爬虫或对煎蛋网图片感兴趣的用户,这是一个宝贵的资源。通过分析和理解该项目的代码,可以提升Python编程和网络爬虫技术的掌握。

    煎蛋网爬虫.zip

    在这个案例中,煎蛋网爬虫的主要任务可能是抓取网站的图片、标题、描述等数据,以便进行数据分析、内容聚合或者构建个人数据库。 实现煎蛋网爬虫,我们通常会使用Python编程语言,因为它有许多强大的库如requests...

    煎蛋网图片爬虫.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    JiandanSpider:煎蛋网图片爬虫

    《煎蛋网图片爬虫——Python爬虫技术详解》 在互联网信息丰富的今天,爬虫技术作为数据挖掘的重要工具,被广泛应用于各种场景。本文将深入探讨如何利用Python编写一个煎蛋网图片爬虫——JiandanSpider,解决煎蛋网...

    煎蛋网看图程序修改版(源码)

    1. **网络爬虫**:煎蛋网看图程序首先需要能够抓取煎蛋网上的图片链接。网络爬虫是通过模拟浏览器行为,自动获取网页内容的程序。在这个程序中,爬虫可能使用了HTTP/HTTPS协议来请求网页,解析HTML代码,找到图片的...

    爬mm图的软件(python)

    在Python编程语言中,...这个Python爬虫项目对于初学者来说,是一个很好的实践机会,可以提升对网络爬虫的理解和应用能力。通过学习和实现这样的项目,你不仅可以掌握Python编程,还能深入理解网络数据的获取和处理。

    flaskProject1.zip

    标签"jiandan"可能暗示这个项目是与“煎蛋网”(一个流行的网络幽默分享平台)相关的,或者是用来抓取该网站数据的示例。这可能意味着项目中包含了一个或多个用于爬取煎蛋网内容的Python脚本。 在文件列表中: 1. ...

    Jandan.EPUB:煎蛋爬虫,基于ScrapyPython,生成电子书。(A Scrapy-Based Spider for Jandan.net.)

    煎蛋爬虫,使用Scrapy,快完成了! 已经能生成电子书了,看起来还不错~ Spider for Jandan.net; Using Scrapy; Almost done! It can generate the epub already, looks nice :] Features 使用Scrapy框架 | Using ...

    AutoBBS:[DEPRECATED] 知乎豆版内建单自动发文章到bbs.uestc.edu.cn

    这里提到的“one”可能是《ONE·一个》App,而“jiandan”通常指的是“煎蛋网”,都是网络上流行的内容分享平台。 【标签解析】 标签是 "Python",这意味着 AutoBBS 项目是使用 Python 编程语言开发的。Python 是一...

Global site tag (gtag.js) - Google Analytics