仅供学习,交流
#!/usr/bin/env python3 import requests,re,json,html2text,sys,time from bs4 import BeautifulSoup import time import urllib.request import os baseurl="http://jandan.net/ooxx/page-" #伪装成浏览器去访问 headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36', 'Accept-Encoding' : 'gzip','Cookie':'1024679722=aada4mZxRMxqvInd7D6PSgq%2FIkpGFeGlZWAH1gqP8Q; __auc=57bffd35154a91de3cd5d3b1ddb; 1024679722=ebeaLZUFikSR1OE6lm5MJYJSV0V1DbcooxQr0CHu; jdna=596e6fb28c1bb47f949e65e1ae03f7f5#1467948344088; Hm_lvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1467001661,1467189261,1467685014,1467857178; Hm_lpvt_fd93b7fb546adcfbcf80c4fc2b54da2c=1467948345; _ga=GA1.2.1739476572.1438849462; _gat=1'} def getImageList(): #想抓页,自己定义 for x in range(1,30): page = 2006-x #按照网页浏览方式,起始页数,然后递减,这里可以随意修改 current_url = baseurl+str(page) response = url_open(current_url) if "check_human" in response.text: #被屏蔽,休息1分钟 ,建议抓取的频率不要太频繁,太频繁一样会被屏蔽 time.sleep(60) else: soup = BeautifulSoup(response.text,"html.parser") divList = soup.find_all("div",class_='text') for i in divList: img = i.p.img; if len(i.contents) > 1 and img!=None: href = img.get("src") saveImage(href) time.sleep(3) def saveImage(imgUrl): fileName = imgUrl[imgUrl.rfind("/")+1:] path = r"/Users/xxx/Downloads/meizhiimage/"+fileName #这里改成你自己的本地目录 response = url_open(imgUrl) image = response.content with open(path,"wb") as f: f.write(image) f.close() def url_open(url): print("get url ### " + url) return requests.get(url,headers = headers) if __name__=="__main__": getImageList()
相关推荐
本压缩包可能包含了一个名为"煎蛋妹子"的爬虫项目,它可能是用来抓取网络上某个网站(比如煎蛋网)的美女图片或相关信息。 首先,让我们详细了解Python爬虫的基础知识: 1. **HTTP协议**:网络上的数据交换主要...
Python3入门级爬虫,爬取煎蛋图片,需要用到bs4、selenium、requests
本文将深入探讨一个针对煎蛋网(Douban Eggs)的简易图片爬虫程序,帮助读者理解如何利用Python进行网页爬取,特别是针对特定网站如煎蛋网的图片资源。 煎蛋网是一个以分享趣图、段子为主的娱乐网站,其丰富的图片...
总结来说,Python爬虫爬取煎蛋网图片的代码实例涉及到多个知识点,包括但不限于Python基础语法、网络请求处理、字符串处理、异常处理、用户代理设置、文件操作以及遵守robots.txt协议等。通过本实例的学习,可以为...
【标题】"jandan_spider, 使用Python3 爬取煎蛋妹纸图片" 提供了一...对于想要学习Python爬虫或对煎蛋网图片感兴趣的用户,这是一个宝贵的资源。通过分析和理解该项目的代码,可以提升Python编程和网络爬虫技术的掌握。
在这个案例中,煎蛋网爬虫的主要任务可能是抓取网站的图片、标题、描述等数据,以便进行数据分析、内容聚合或者构建个人数据库。 实现煎蛋网爬虫,我们通常会使用Python编程语言,因为它有许多强大的库如requests...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
《煎蛋网图片爬虫——Python爬虫技术详解》 在互联网信息丰富的今天,爬虫技术作为数据挖掘的重要工具,被广泛应用于各种场景。本文将深入探讨如何利用Python编写一个煎蛋网图片爬虫——JiandanSpider,解决煎蛋网...
1. **网络爬虫**:煎蛋网看图程序首先需要能够抓取煎蛋网上的图片链接。网络爬虫是通过模拟浏览器行为,自动获取网页内容的程序。在这个程序中,爬虫可能使用了HTTP/HTTPS协议来请求网页,解析HTML代码,找到图片的...
在Python编程语言中,...这个Python爬虫项目对于初学者来说,是一个很好的实践机会,可以提升对网络爬虫的理解和应用能力。通过学习和实现这样的项目,你不仅可以掌握Python编程,还能深入理解网络数据的获取和处理。
标签"jiandan"可能暗示这个项目是与“煎蛋网”(一个流行的网络幽默分享平台)相关的,或者是用来抓取该网站数据的示例。这可能意味着项目中包含了一个或多个用于爬取煎蛋网内容的Python脚本。 在文件列表中: 1. ...
煎蛋爬虫,使用Scrapy,快完成了! 已经能生成电子书了,看起来还不错~ Spider for Jandan.net; Using Scrapy; Almost done! It can generate the epub already, looks nice :] Features 使用Scrapy框架 | Using ...
这里提到的“one”可能是《ONE·一个》App,而“jiandan”通常指的是“煎蛋网”,都是网络上流行的内容分享平台。 【标签解析】 标签是 "Python",这意味着 AutoBBS 项目是使用 Python 编程语言开发的。Python 是一...