`
willse
  • 浏览: 2838 次
  • 性别: Icon_minigender_1
  • 来自: 成都
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

[原创]美女图片爬虫程序实战!~用技术创造快感!

阅读更多
很久没把自己做的东西拿出来和大家分享了,今天总算想到可以写一些东西了。嘿嘿
美女图片爬虫程序很简单,就是从目标网站上将一些美女图片抓取下来,并按文件夹的方式归类存放(默认保存路径D:\Girl)。
现在以
http://www.36mn.com/网站为例,将论坛上面的一个个图片抓取下来慢慢欣赏。
程序说明:
com.th.spider.Main 运行这个抓取美女图片
com.th.spider.test.* 样例程序
com.th.spider.CookieLogin 模拟登陆实例
com.th.spider.Clean 清除没图片的目录和无效图片目录
 
用技术创造快感!!!! 嘿嘿
 
Email:wellse@qq.com
 

下载资源:
 
网络爬虫原理与实战PPT.zip

主要技术:
Jsoup、HttpClient.

配置说明:
config.properties

#保存目录
save.dir=D:/GIRL
#网站根路径#
url.base=http://www.36mn.com/
#URL访问模板
url.template=http://www.36mn.com/forum-62-#page#.html

#开始PAGE 替换url.template中page参数#
page.start=1
#结束PAGE 替换url.template中page参数#
page.end=2

#线程池大小,并发抓取图片的最大线程数#
thread.pool.size=50

配置中的page.start 和 page.end 指定了抓取论坛开始页到结束页,如果想抓取整个论坛的就page.start=1,page.end=100吧。
配置目录save.dir 默认会创建一个D:/GIRL的目录,用户保存抓取图片。图片保存方式:D:/GIRL/页号/帖子名/图片名

抓取思路:
1.获取论坛中的每个帖子标题和连接。
2.请求帖子连接返回帖子内容。
3.分析获取图片的URL。
4.定位URL下载图片到本地。

论坛帖子列表
http://www.36mn.com/forum-62-1.html

其中一个帖子内容 http://www.36mn.com/thread-22672-1-2.html




抓取结果





分享到:
评论
29 楼 willl_ls 2011-06-28  
真心不错!
28 楼 willse 2011-06-28  
a68091555 写道
嘿嘿,刚才爬了下草榴的,有点意思


老大!! 用拼音........ 小心被和谐了。
27 楼 chrrity 2011-06-28  
willse 写道
yunzhu 写道
bo_83 写道
你是如何分别美女与丑女的呢


正解  +10


美女网站的自然都是美女........ 嘿嘿


这个吹毛求疵了,美女有具体的定义吗?
可能你觉得特丑的,我觉得漂亮。这个跟个人审美观直接挂钩,
不能说人长得丑,只能说抽象。就像是梵高的画,当时人说这他妈都是画的毛啊?
你看现在...
26 楼 a68091555 2011-06-28  
嘿嘿,刚才爬了下草榴的,有点意思
25 楼 willse 2011-06-28  
lorry1113 写道
网络有代理怎么处理

你想番墙啊............ 嘿嘿

关于代理问题可以用HttpClient解决,然后用JSOUP分析HTML.
JSOUP官网 http://jsoup.org/
HttpClient参考 http://hc.apache.org/httpcomponents-client-ga/tutorial/html/
24 楼 newvirus 2011-06-28  
不错的东东 一直都想做个这么个工具玩玩 借鉴一下
23 楼 冰寒Alicv 2011-06-28  
这个可以有!!!
22 楼 fire_wang 2011-06-28  
lorry1113 写道
网络有代理怎么处理

由代理的话,你去看下httpClient的例子程序,有处理使用代理的,我没用过,不过应该没问题!
21 楼 wxwdt 2011-06-28  
好,值得学些和分析
20 楼 lorry1113 2011-06-28  
网络有代理怎么处理
19 楼 太平洋1986 2011-06-28  
ivin 写道
嘿嘿,几年之前刚毕业那时候上班没啥事的时候做过一个,在公司运行了一个小时,下载了400+Mb的MM图片,然后就被公司网管抓了!

哈哈!兄弟你太有才了!
18 楼 willse 2011-06-28  
yunzhu 写道
bo_83 写道
你是如何分别美女与丑女的呢


正解  +10


美女网站的自然都是美女........ 嘿嘿
17 楼 willse 2011-06-28  
txin0814 写道
我想问下 你的代码是不是只能取你给的指定网址的图片


目前只能抓取指定网站的!下一步计划配置化的方式来适应不同的网站。
16 楼 yangguo 2011-06-28  
能够图像识别出美女才叫牛!你这样猫猫狗狗也拿回来了。
何况我百度图片一下美女,不比你这个容易淫的一手好湿么。
15 楼 txin0814 2011-06-28  
我想问下 你的代码是不是只能取你给的指定网址的图片
14 楼 yunzhu 2011-06-28  
bo_83 写道
你是如何分别美女与丑女的呢


正解  +10
13 楼 willse 2011-06-28  
kidd3166 写道
回复贴怎么解决?


只分析了主题,没有管回复的帖子。
12 楼 willse 2011-06-28  
商用主要是公司内部使用,比如用爬虫完善论坛内容以及像京东,当当相互之间完善商品图片。很多小的B2C公司都从这些网站抓取图片内容来完善自己的信息。
11 楼 kidd3166 2011-06-28  
回复贴怎么解决?
10 楼 sunwenran 2011-06-28  
借这个贴问下:爬虫工具有哪些商用?

相关推荐

    用Python写的美女图片爬虫程序

    这是一个关于使用Python进行网络爬虫开发的项目,主要目的是抓取网络上的美女图片。这个项目包含五个Python脚本,分别命名为www7kkcom.py、wwwivrfanscn3.py、wwwivrfanscn2.py、wwwivrfanscn.py和wwwrtys8org.py,...

    美女图爬虫程序Python2.7实现

    美女图爬虫程序Python2.7实现

    今日头条Ajax美女图片爬取 - 爬虫进阶实战(完整版)

    在本教程中,我们将深入探讨如何使用Python进行Ajax爬虫,以获取今日头条网站上的美女图片资源。Ajax(Asynchronous JavaScript and XML)是一种网页开发技术,它允许网页在不重新加载整个页面的情况下与服务器交换...

    美女图片微信小程序源码

    《构建与运营美女图片微信小程序的全面指南》 在当今移动互联网时代,微信小程序因其无需安装、即用即走的特点,已经成为许多企业和个人开发者的重要选择。本教程将围绕"美女图片微信小程序源码"这一主题,详细介绍...

    美女图片爬虫

    【美女图片爬虫】是一种利用Python编程语言实现的自动化工具,它主要用于从互联网上抓取以美女图片为主题的网页内容。这种爬虫通过特定的算法和编程技术,可以高效地遍历网页,查找并下载指定类型的图片,从而为用户...

    企管美女图片小偷程序 8.3.zip

    企管美女图片小偷程序采用php小偷技术自动同步更新,支持二级目录,二级域名。程序自带后台,搜索引擎蜘蛛访问记录,无需下载,远程图片自动添加水印!可自定义规则。企管美女图片小偷程序 8.3 更新日志:2016-03-18...

    python爬虫小程序之爬百度美女图片

    本项目是一个简单的Python爬虫小程序,目标是爬取百度上的美女图片。通过分析这个项目的文件结构和命名,我们可以推测它由以下几个关键部分组成: 1. `test.py`:这通常是一个测试模块,用来验证代码的功能是否正常...

    Node.js-小爬虫爬取美女图片

    在本案例中,我们将探讨如何使用Node.js这个强大的JavaScript运行环境来开发一个小型的网络爬虫,目标是爬取美女图片。Node.js因其非阻塞I/O模型和高效的性能而广受欢迎,尤其适合于构建网络应用和爬虫。 首先,...

    python抓取知乎美女主题图片爬虫(非scrapy)

    因为最近自己想做点图像识别的东西,苦于没有资源,谢了一个爬取知乎美女图片的爬虫,因为量不是特别大,没有用scrapy来做,这个效果一样,时间稍长一点,大概2,3个小时吧,需要的可以拿走

    python爬虫爬取美女图片

    本项目以“python爬虫爬取美女图片”为例,旨在介绍如何使用Python进行网页图片的抓取和保存。 首先,我们需要了解Python爬虫的基本原理。Python爬虫主要是通过模拟浏览器发送HTTP请求(GET或POST)到服务器,然后...

    python django 美女图片爬虫站.zip

    Python Django美女图片爬虫站是一个基于Python的Django框架构建的项目,主要目的是抓取互联网上的美女图片资源。在这个项目中,我们将深入探讨如何利用Python的网络爬虫技术和Django Web框架来创建一个图片爬取及...

    Java版网络爬虫,爬取校花网所有美女图片+Swing的贪吃蛇

    在本项目中,我们主要探讨的是使用Java编程语言开发的一款网络爬虫,其目标是爬取特定网站——“校花网”上的所有美女图片。同时,项目还包含了一个基于Swing的简单游戏——贪吃蛇,增加了趣味性。以下是关于Java...

    这段代码是一个Python爬虫程序,用于从百度图片搜索中抓取指定关键词的图片避开了反爬机制,超时或被屏蔽会自动重试

    这段代码是一个Python爬虫程序,用于从百度图片搜索中抓取指定关键词的图片。程序通过设置超时时间和请求头等参数,实现了对百度图片搜索结果的访问和解析。程序的主要功能包括: 1. 定义了一个名为`Crawler`的类...

    不错的美女图片网站程序模板

    【标题】:“不错的美女图片网站程序模板” 这个标题揭示了一个重要的知识点,即存在一个用于创建美女图片网站的程序模板。程序模板是预先设计和开发的框架,为建立特定类型的网站提供了一个快速、便捷的起点。在IT...

    微信小程序例子(美女图片)

    这个“美女图片”小程序实例是一个典型的微信小程序应用开发案例,涵盖了小程序开发的基础知识和常见技术点,对于学习和理解微信小程序的开发流程和核心概念非常有帮助。通过实践这样的项目,开发者可以加深对小程序...

    python网页爬虫--美女网图片爬取

    本教程将聚焦于使用Python进行美女图片的网络爬取,这是一个典型的爬虫项目,可以帮助我们理解爬虫的基本原理和实践。 首先,我们需要引入Python中的几个关键库。`requests`库用于发送HTTP请求,获取网页HTML内容;...

    美女图片小偷程序

    【标题】"美女图片小偷程序" 是一个基于ASP(Active Server Pages)技术构建的网站程序,主要用于自动抓取和展示网络上的美女图片资源。在Web开发领域,这样的程序通常被用于快速创建一个图片分享或者壁纸下载站点,...

    python爬虫源码,爬取网站美女图片

    自己写的网站图片爬虫程序,练手。

Global site tag (gtag.js) - Google Analytics