用Python写的图片蜘蛛人 - 泉水 - ITeye博客

`

qepwqnp

浏览: 121320 次
性别:
来自: 成都

最近访客更多访客>>

zcw_java

ctao

coaco

hongboxiang

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

sp42： Oracle 不是很吊的么，怎么连个分页都这么麻烦？
数据库分页大全（oracle利用解析函数row_number高效分页）
metarnetyflu：不知道哪里快了！！！over()是最慢的，rownum其次，r ...
数据库分页大全（oracle利用解析函数row_number高效分页）
wfd0807： 09年发的博文，五年了，一定影响到了不少人。首先，你描述的三层 ...
数据库分页大全（oracle利用解析函数row_number高效分页）
diyunpeng：学习了，写的不错。
python urlOpen使用代理
qepwqnp：帖子沉的好深，涝起来
js_自己封装一个可查询frame中对象的一个方法

用Python写的图片蜘蛛人

博客分类：

转载

Python OS HTML F#

阅读更多

写了个图片蜘蛛人玩玩，抓了几个网页试试，感觉不不错。核心的代码可能20行也不到，简洁明了，嘻嘻。废话少说，翠花，上代码~~

#coding=utf-8

import os
import sys
import re
import urllib

URL_REG = re.compile(r'(http://[^/\\]+)', re.I)
IMG_REG = re.compile(r'<img[^>]*?src=([\'"])([^\1]*?)\1', re.I)

def download(dir, url):
	'''下载网页中的图片
	
	@dir 保存到本地的路径
	@url 网页url
	'''
	global URL_REG, IMG_REG
	
	m = URL_REG.match(url)
	if not m: 
		print '[Error]Invalid URL: ', url
		return
	host = m.group(1)
	
	if not os.path.isdir(dir):
		os.mkdir(dir)
	
	# 获取html,提取图片url
	html = urllib.urlopen(url).read()
	imgs = [item[1].lower() for item in IMG_REG.findall(html)]
	f = lambda path: path if path.startswith('http://') else \
				host + path if path.startswith('/') else url + '/' + path
	imgs = list(set(map(f, imgs)))
	print '[Info]Find %d images.' % len(imgs)
	
	# 下载图片
	for idx, img in enumerate(imgs):
		name = img.split('/')[-1]
		path = os.path.join(dir, name)
		try: 
			print '[Info]Download(%d): %s'% (idx + 1, img)
			urllib.urlretrieve(img, path)
		except: 
			print "[Error]Cant't download(%d): %s" % (idx + 1, img)
	
def main():
	if len(sys.argv) != 3:
		print 'Invalid argument count.'
		return
	dir, url = sys.argv[1:]
	download(dir, url)

if __name__ == '__main__':
	# download('D:\\Imgs', 'http://www.163.com')
	main()

分享到：

Python模块学习 --- urllib | Python模块学习 ---- filecmp 文件比较

2010-04-10 23:32
浏览 912
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

【Python】这是我用python写的爬取知乎图片的小爬虫..._pgj.zip: 本压缩包文件【Python】这是我用python写的爬取知乎图片的小爬虫..._pgj.zip中包含的文件，从名称zhihu_picture_spider-master来看，这个项目是一个专门针对知乎社区开发的图片爬取工具。这说明该项目主要功能是自动...

【Python爬虫】使用Python爬虫技术获取百度图片.zip: 【Python爬虫】使用Python爬虫技术获取百度图片这一课程，不仅会为初学者提供一个从零开始学习Python网络爬虫的机会，同时也会深入探讨爬虫设计的细节问题，让学习者在掌握技术的同时，也能够学会如何在实践中运用...

python爬虫百度图片: 在开始学习如何用Python爬取百度图片之前，我们先来了解一下网络爬虫的基本概念。网络爬虫（Web Crawler），也称为网页蜘蛛（Spider）或网页机器人（Robot），是一种自动浏览互联网并抓取网页数据的程序或自动化脚本...

基于Python、HTML、JavaScript的蜘蛛家族大小爬虫设计源码: 在当前信息技术飞速发展的时代，网络爬虫技术已经...通过该项目的源码学习，可以帮助开发者掌握使用Python等技术进行网络数据抓取的基本原理和实践技能，从而在数据分析、内容聚合、市场监控等多个领域发挥重要作用。

Python爬虫：让“蜘蛛”帮我们工作.docx: 在Python中，我们可以使用内置的`urllib.request`模块来实现这一功能。这个模块提供了请求网页数据的能力。以下是一个简单的例子： ```python import urllib.request url = 'http://p.weather.com.cn/' def ...

Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.pdf: 理论教学部分将涵盖爬虫概念、原理、反爬策略和Python爬虫库的介绍，而实验教学则强调实际操作，包括数据库的安装配置和爬虫库的使用。学生在实践中将更好地理解和掌握爬虫技术。 **六、教学目标与要求** - 理解...

python-网络爬虫.docx: 4. **下载图片**：对于每个图片链接，再次使用`urllib.request`下载图片。 **总结** 本文详细介绍了网络爬虫的基本概念、工作原理以及如何使用Python进行网络爬虫开发。通过对URL的理解及其在网络爬虫中的作用进行...

python爬虫可以做什么？python爬虫入门教程有哪些？.docx: - **Urllib库的基本使用**：学习Python内置的Urllib库，进行简单的网络请求。 - **Urllib库的高级用法**：深入探讨Urllib库的各种高级功能。 - **URLError异常处理**：学习如何处理爬虫过程中可能出现的错误。 -...

Python网络爬虫实习报告.doc: 5. **Python-goose框架**：该框架专注于从网页中提取有用的文章内容，包括正文、图片、视频等多媒体资源。它还支持提取元数据，如标题、作者、发布时间等。 #### 五、数据爬取实战——豆瓣网爬取电影数据 1. **...

Python爬虫模拟器，让网络爬虫工作变得如些简单，会电脑操作就会网络爬虫！: Python爬虫模拟器是一种强大的工具，它使得网络数据抓取变得更加直观和易用，即使是...总的来说，Python爬虫模拟器是Python爬虫技术与易用性结合的产物，使得网络爬虫不再只是程序员的专利，而是任何人都能掌握的技能。

Python应用实战-反爬虫及应对方案: 在互联网时代，网络爬虫在信息抓取、数据挖掘等方面扮演着重要的角色，而Python由于其简洁易学的特性和强大的库支持，成为了开发爬虫程序的热门语言。然而，随着爬虫技术的广泛使用，网站为了保护自身数据不被过度...

简易蜘蛛代码: 在IT行业中，蜘蛛（Spider）通常指的是网络爬虫（Web Crawler），这是一种自动化程序，用于遍历互联网上的网页，收集信息。"简易蜘蛛代码"是一个基础的爬虫项目，可以帮助初学者理解网络爬虫的基本原理和实现方法。...

wangzhe.rar: 项目的核心是使用爬虫技术来抓取游戏中英雄的图片，这涉及到Python编程语言以及网络爬虫的相关知识。下面我们将深入探讨这些主题。首先，让我们了解什么是网络爬虫。网络爬虫，又称网页蜘蛛或网络机器人，是一种...

蜘蛛网络爬虫: 网络爬虫，又称为网络蜘蛛或网页抓取程序，是一种自动浏览互联网并抓取网页内容的程序。它的工作原理是通过模拟人类用户的行为，遵循超链接结构，从一个网页出发，发现并抓取与其链接的其他网页，以此方式不断扩大其...

京东爬虫，可抓取京东商品信息和评论.zip: 这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。...

python爬虫的工作原理: 网络爬虫通常被形象地比喻为在互联网上爬行的蜘蛛，它们通过网页之间的链接地址来发现新的网页。在Python中，实现爬虫的主要步骤包括以下几个方面： 1. **启动爬虫**：爬虫的起始点通常是某个已知的网页URL，这被...

image_spider:基于scrapy的图像蜘蛛: "image_spider:基于scrapy的图像蜘蛛" 这个标题表明我们正在讨论一个使用Scrapy框架构建的Python爬虫项目，它的主要功能是抓取并下载特定网页上的图像，特别是铃木爱理（Airi Suzuki）的相关图片。 **描述解析：** ...

小游戏源码-蜘蛛侠.rar: 2. **编程语言**：源码可能是用JavaScript、C#、Python或其他语言编写的。确定编程语言可以帮助我们理解代码的基础框架和流程。 3. **游戏架构**：源码可能遵循MVC（模型-视图-控制器）、OOP（面向对象编程）或其他...

自己动手写网络爬虫.ptf(高清): 3. **Python爬虫框架**：Python是编写爬虫的常用语言，有多种爬虫框架可供选择，如Scrapy、BeautifulSoup、Requests+PyQuery等。Scrapy是一个功能强大的框架，支持异步请求、中间件处理、数据持久化等功能；...

Global site tag (gtag.js) - Google Analytics