`
willse
  • 浏览: 2839 次
  • 性别: Icon_minigender_1
  • 来自: 成都
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

[原创]美女图片爬虫程序实战!~用技术创造快感!

阅读更多
很久没把自己做的东西拿出来和大家分享了,今天总算想到可以写一些东西了。嘿嘿
美女图片爬虫程序很简单,就是从目标网站上将一些美女图片抓取下来,并按文件夹的方式归类存放(默认保存路径D:\Girl)。
现在以
http://www.36mn.com/网站为例,将论坛上面的一个个图片抓取下来慢慢欣赏。
程序说明:
com.th.spider.Main 运行这个抓取美女图片
com.th.spider.test.* 样例程序
com.th.spider.CookieLogin 模拟登陆实例
com.th.spider.Clean 清除没图片的目录和无效图片目录
 
用技术创造快感!!!! 嘿嘿
 
Email:wellse@qq.com
 

下载资源:
 
网络爬虫原理与实战PPT.zip

主要技术:
Jsoup、HttpClient.

配置说明:
config.properties

#保存目录
save.dir=D:/GIRL
#网站根路径#
url.base=http://www.36mn.com/
#URL访问模板
url.template=http://www.36mn.com/forum-62-#page#.html

#开始PAGE 替换url.template中page参数#
page.start=1
#结束PAGE 替换url.template中page参数#
page.end=2

#线程池大小,并发抓取图片的最大线程数#
thread.pool.size=50

配置中的page.start 和 page.end 指定了抓取论坛开始页到结束页,如果想抓取整个论坛的就page.start=1,page.end=100吧。
配置目录save.dir 默认会创建一个D:/GIRL的目录,用户保存抓取图片。图片保存方式:D:/GIRL/页号/帖子名/图片名

抓取思路:
1.获取论坛中的每个帖子标题和连接。
2.请求帖子连接返回帖子内容。
3.分析获取图片的URL。
4.定位URL下载图片到本地。

论坛帖子列表
http://www.36mn.com/forum-62-1.html

其中一个帖子内容 http://www.36mn.com/thread-22672-1-2.html




抓取结果





分享到:
评论
9 楼 ivin 2011-06-28  
嘿嘿,几年之前刚毕业那时候上班没啥事的时候做过一个,在公司运行了一个小时,下载了400+Mb的MM图片,然后就被公司网管抓了!
8 楼 javaDevil 2011-06-28  
可看看这个微博备份工具,技术原理差不多,采用多线程方式备份新浪微博。

http://javadevil.iteye.com/admin/blogs/1105672
7 楼 Xairy 2011-06-27  
我晕,你模式识别了,挖到的又不都是美女图!
6 楼 agapple 2011-06-27  
美女都是过眼云烟,兄弟多看开点
5 楼 willse 2011-06-27  
目前这个是DEMO版本,如果大家有需求,当然我就会改造一下适应多种环境! 嘿嘿
4 楼 ustcter 2011-06-27  
只用看test中的两个例子就明白原理了。另外有必要分这么多class吗?

还有没有通用性啊,要转到其他的网址,必须重新找元素的属性进行修改才能使用。
3 楼 bo_83 2011-06-27  
你是如何分别美女与丑女的呢
2 楼 wantsor 2011-06-27  
有想法,下来试用一吧
1 楼 json20080301 2011-06-27  
不错,下载下来用用看,

相关推荐

    用Python写的美女图片爬虫程序

    这是一个关于使用Python进行网络爬虫开发的项目,主要目的是抓取网络上的美女图片。这个项目包含五个Python脚本,分别命名为www7kkcom.py、wwwivrfanscn3.py、wwwivrfanscn2.py、wwwivrfanscn.py和wwwrtys8org.py,...

    美女图爬虫程序Python2.7实现

    美女图爬虫程序Python2.7实现

    今日头条Ajax美女图片爬取 - 爬虫进阶实战(完整版)

    在本教程中,我们将深入探讨如何使用Python进行Ajax爬虫,以获取今日头条网站上的美女图片资源。Ajax(Asynchronous JavaScript and XML)是一种网页开发技术,它允许网页在不重新加载整个页面的情况下与服务器交换...

    美女图片微信小程序源码

    《构建与运营美女图片微信小程序的全面指南》 在当今移动互联网时代,微信小程序因其无需安装、即用即走的特点,已经成为许多企业和个人开发者的重要选择。本教程将围绕"美女图片微信小程序源码"这一主题,详细介绍...

    美女图片爬虫

    【美女图片爬虫】是一种利用Python编程语言实现的自动化工具,它主要用于从互联网上抓取以美女图片为主题的网页内容。这种爬虫通过特定的算法和编程技术,可以高效地遍历网页,查找并下载指定类型的图片,从而为用户...

    企管美女图片小偷程序 8.3.zip

    企管美女图片小偷程序采用php小偷技术自动同步更新,支持二级目录,二级域名。程序自带后台,搜索引擎蜘蛛访问记录,无需下载,远程图片自动添加水印!可自定义规则。企管美女图片小偷程序 8.3 更新日志:2016-03-18...

    python爬虫小程序之爬百度美女图片

    本项目是一个简单的Python爬虫小程序,目标是爬取百度上的美女图片。通过分析这个项目的文件结构和命名,我们可以推测它由以下几个关键部分组成: 1. `test.py`:这通常是一个测试模块,用来验证代码的功能是否正常...

    Node.js-小爬虫爬取美女图片

    在本案例中,我们将探讨如何使用Node.js这个强大的JavaScript运行环境来开发一个小型的网络爬虫,目标是爬取美女图片。Node.js因其非阻塞I/O模型和高效的性能而广受欢迎,尤其适合于构建网络应用和爬虫。 首先,...

    python抓取知乎美女主题图片爬虫(非scrapy)

    因为最近自己想做点图像识别的东西,苦于没有资源,谢了一个爬取知乎美女图片的爬虫,因为量不是特别大,没有用scrapy来做,这个效果一样,时间稍长一点,大概2,3个小时吧,需要的可以拿走

    python爬虫爬取美女图片

    本项目以“python爬虫爬取美女图片”为例,旨在介绍如何使用Python进行网页图片的抓取和保存。 首先,我们需要了解Python爬虫的基本原理。Python爬虫主要是通过模拟浏览器发送HTTP请求(GET或POST)到服务器,然后...

    python django 美女图片爬虫站.zip

    Python Django美女图片爬虫站是一个基于Python的Django框架构建的项目,主要目的是抓取互联网上的美女图片资源。在这个项目中,我们将深入探讨如何利用Python的网络爬虫技术和Django Web框架来创建一个图片爬取及...

    Java版网络爬虫,爬取校花网所有美女图片+Swing的贪吃蛇

    在本项目中,我们主要探讨的是使用Java编程语言开发的一款网络爬虫,其目标是爬取特定网站——“校花网”上的所有美女图片。同时,项目还包含了一个基于Swing的简单游戏——贪吃蛇,增加了趣味性。以下是关于Java...

    这段代码是一个Python爬虫程序,用于从百度图片搜索中抓取指定关键词的图片避开了反爬机制,超时或被屏蔽会自动重试

    这段代码是一个Python爬虫程序,用于从百度图片搜索中抓取指定关键词的图片。程序通过设置超时时间和请求头等参数,实现了对百度图片搜索结果的访问和解析。程序的主要功能包括: 1. 定义了一个名为`Crawler`的类...

    不错的美女图片网站程序模板

    【标题】:“不错的美女图片网站程序模板” 这个标题揭示了一个重要的知识点,即存在一个用于创建美女图片网站的程序模板。程序模板是预先设计和开发的框架,为建立特定类型的网站提供了一个快速、便捷的起点。在IT...

    微信小程序例子(美女图片)

    这个“美女图片”小程序实例是一个典型的微信小程序应用开发案例,涵盖了小程序开发的基础知识和常见技术点,对于学习和理解微信小程序的开发流程和核心概念非常有帮助。通过实践这样的项目,开发者可以加深对小程序...

    python网页爬虫--美女网图片爬取

    本教程将聚焦于使用Python进行美女图片的网络爬取,这是一个典型的爬虫项目,可以帮助我们理解爬虫的基本原理和实践。 首先,我们需要引入Python中的几个关键库。`requests`库用于发送HTTP请求,获取网页HTML内容;...

    美女图片小偷程序

    【标题】"美女图片小偷程序" 是一个基于ASP(Active Server Pages)技术构建的网站程序,主要用于自动抓取和展示网络上的美女图片资源。在Web开发领域,这样的程序通常被用于快速创建一个图片分享或者壁纸下载站点,...

    python爬虫源码,爬取网站美女图片

    自己写的网站图片爬虫程序,练手。

Global site tag (gtag.js) - Google Analytics