`
willse
  • 浏览: 2837 次
  • 性别: Icon_minigender_1
  • 来自: 成都
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

[原创]美女图片爬虫程序实战!~用技术创造快感!

阅读更多
很久没把自己做的东西拿出来和大家分享了,今天总算想到可以写一些东西了。嘿嘿
美女图片爬虫程序很简单,就是从目标网站上将一些美女图片抓取下来,并按文件夹的方式归类存放(默认保存路径D:\Girl)。
现在以
http://www.36mn.com/网站为例,将论坛上面的一个个图片抓取下来慢慢欣赏。
程序说明:
com.th.spider.Main 运行这个抓取美女图片
com.th.spider.test.* 样例程序
com.th.spider.CookieLogin 模拟登陆实例
com.th.spider.Clean 清除没图片的目录和无效图片目录
 
用技术创造快感!!!! 嘿嘿
 
Email:wellse@qq.com
 

下载资源:
 
网络爬虫原理与实战PPT.zip

主要技术:
Jsoup、HttpClient.

配置说明:
config.properties

#保存目录
save.dir=D:/GIRL
#网站根路径#
url.base=http://www.36mn.com/
#URL访问模板
url.template=http://www.36mn.com/forum-62-#page#.html

#开始PAGE 替换url.template中page参数#
page.start=1
#结束PAGE 替换url.template中page参数#
page.end=2

#线程池大小,并发抓取图片的最大线程数#
thread.pool.size=50

配置中的page.start 和 page.end 指定了抓取论坛开始页到结束页,如果想抓取整个论坛的就page.start=1,page.end=100吧。
配置目录save.dir 默认会创建一个D:/GIRL的目录,用户保存抓取图片。图片保存方式:D:/GIRL/页号/帖子名/图片名

抓取思路:
1.获取论坛中的每个帖子标题和连接。
2.请求帖子连接返回帖子内容。
3.分析获取图片的URL。
4.定位URL下载图片到本地。

论坛帖子列表
http://www.36mn.com/forum-62-1.html

其中一个帖子内容 http://www.36mn.com/thread-22672-1-2.html




抓取结果





分享到:
评论
49 楼 留恋蓝色 2011-06-29  
ccxw1983 写道
下载方法可多了,我分析网页用的htmlclean+xpath更方便点。
qq相册下载的用的firefox的插件。


呵呵,跟我用的一样,也是htmlcleaner跟xpath

不过不会写通用性的,只会针对单个网站或者网页抓
48 楼 babylon3389 2011-06-29  
哈哈,以前也搞过这类滴事情~
47 楼 lipeng88213 2011-06-29  
a68091555 写道
嘿嘿,刚才爬了下草榴的,有点意思


这个注意不错
46 楼 dfbb222222 2011-06-29  
年前写过一个爬虫抓们爬sexinsex board 通宵开机扒网站资源 。
45 楼 181054867 2011-06-29  
超,做这个太简单啦!!!
44 楼 iqeq00 2011-06-29  
这个东西有点神奇,下载下来看看,呵呵...
43 楼 Cindy_Lee 2011-06-29  
“草榴”是什么,我火星了
42 楼 MyEyeOfJava 2011-06-29  
yangguo 写道
能够图像识别出美女才叫牛!你这样猫猫狗狗也拿回来了。
何况我百度图片一下美女,不比你这个容易淫的一手好湿么。

就鄙视你这样的,你要是不能实现就少BBBB的。。。
41 楼 MyEyeOfJava 2011-06-29  
不管怎么说,我自己觉得有用就行了,爬虫小程序,mark
40 楼 ccxw1983 2011-06-29  
下载方法可多了,我分析网页用的htmlclean+xpath更方便点。
qq相册下载的用的firefox的插件。
39 楼 elan1986 2011-06-28  
很不错的好方法啊!
38 楼 willse 2011-06-28  
rkikbs 写道
下载了程序看了一下,如果是用的代理的网络,代码要修改的地方就不少了。。。


施主莫非想翻@墙劫色.......... 嘿嘿
37 楼 willse 2011-06-28  
sdu_wizard 写道
如果图片没有class属性怎么办?

如果没有class属性,可以看看他其他的属性特征。

如 url like "http://himg2.huanqiu.com/attachment2010/"

//找到美女图片,这个需要分析返回HTML中的图片元素特征。
Elements elements = doc.select("url[href*=http://himg2.huanqiu.com/attachment2010/]");

反正需要根据实际情况分析HTML中的图片具有哪些特性,这样才能准确抓取。
36 楼 willse 2011-06-28  
lxs647 写道
空即是色,色即是空,,看开点儿、、、

一切皆乃浮云、、、


施主已经遁入空门.. 何苦留恋凡尘呢?
35 楼 willse 2011-06-28  
tntxia 写道
那个Cookie是怎么计算出来的。

Cookie 使用IEHttpHeader 软件抓取的!
34 楼 lxs647 2011-06-28  
空即是色,色即是空,,看开点儿、、、

一切皆乃浮云、、、
33 楼 sdu_wizard 2011-06-28  
如果图片没有class属性怎么办?
32 楼 tntxia 2011-06-28  
那个Cookie是怎么计算出来的。
31 楼 rkikbs 2011-06-28  
下载了程序看了一下,如果是用的代理的网络,代码要修改的地方就不少了。。。
30 楼 peak 2011-06-28  
这个上AV网站必备的啊

相关推荐

    用Python写的美女图片爬虫程序

    这是一个关于使用Python进行网络爬虫开发的项目,主要目的是抓取网络上的美女图片。这个项目包含五个Python脚本,分别命名为www7kkcom.py、wwwivrfanscn3.py、wwwivrfanscn2.py、wwwivrfanscn.py和wwwrtys8org.py,...

    美女图爬虫程序Python2.7实现

    美女图爬虫程序Python2.7实现

    今日头条Ajax美女图片爬取 - 爬虫进阶实战(完整版)

    在本教程中,我们将深入探讨如何使用Python进行Ajax爬虫,以获取今日头条网站上的美女图片资源。Ajax(Asynchronous JavaScript and XML)是一种网页开发技术,它允许网页在不重新加载整个页面的情况下与服务器交换...

    美女图片微信小程序源码

    《构建与运营美女图片微信小程序的全面指南》 在当今移动互联网时代,微信小程序因其无需安装、即用即走的特点,已经成为许多企业和个人开发者的重要选择。本教程将围绕"美女图片微信小程序源码"这一主题,详细介绍...

    美女图片爬虫

    【美女图片爬虫】是一种利用Python编程语言实现的自动化工具,它主要用于从互联网上抓取以美女图片为主题的网页内容。这种爬虫通过特定的算法和编程技术,可以高效地遍历网页,查找并下载指定类型的图片,从而为用户...

    企管美女图片小偷程序 8.3.zip

    企管美女图片小偷程序采用php小偷技术自动同步更新,支持二级目录,二级域名。程序自带后台,搜索引擎蜘蛛访问记录,无需下载,远程图片自动添加水印!可自定义规则。企管美女图片小偷程序 8.3 更新日志:2016-03-18...

    python爬虫小程序之爬百度美女图片

    本项目是一个简单的Python爬虫小程序,目标是爬取百度上的美女图片。通过分析这个项目的文件结构和命名,我们可以推测它由以下几个关键部分组成: 1. `test.py`:这通常是一个测试模块,用来验证代码的功能是否正常...

    Node.js-小爬虫爬取美女图片

    在本案例中,我们将探讨如何使用Node.js这个强大的JavaScript运行环境来开发一个小型的网络爬虫,目标是爬取美女图片。Node.js因其非阻塞I/O模型和高效的性能而广受欢迎,尤其适合于构建网络应用和爬虫。 首先,...

    python抓取知乎美女主题图片爬虫(非scrapy)

    因为最近自己想做点图像识别的东西,苦于没有资源,谢了一个爬取知乎美女图片的爬虫,因为量不是特别大,没有用scrapy来做,这个效果一样,时间稍长一点,大概2,3个小时吧,需要的可以拿走

    python爬虫爬取美女图片

    本项目以“python爬虫爬取美女图片”为例,旨在介绍如何使用Python进行网页图片的抓取和保存。 首先,我们需要了解Python爬虫的基本原理。Python爬虫主要是通过模拟浏览器发送HTTP请求(GET或POST)到服务器,然后...

    python django 美女图片爬虫站.zip

    Python Django美女图片爬虫站是一个基于Python的Django框架构建的项目,主要目的是抓取互联网上的美女图片资源。在这个项目中,我们将深入探讨如何利用Python的网络爬虫技术和Django Web框架来创建一个图片爬取及...

    Java版网络爬虫,爬取校花网所有美女图片+Swing的贪吃蛇

    在本项目中,我们主要探讨的是使用Java编程语言开发的一款网络爬虫,其目标是爬取特定网站——“校花网”上的所有美女图片。同时,项目还包含了一个基于Swing的简单游戏——贪吃蛇,增加了趣味性。以下是关于Java...

    这段代码是一个Python爬虫程序,用于从百度图片搜索中抓取指定关键词的图片避开了反爬机制,超时或被屏蔽会自动重试

    这段代码是一个Python爬虫程序,用于从百度图片搜索中抓取指定关键词的图片。程序通过设置超时时间和请求头等参数,实现了对百度图片搜索结果的访问和解析。程序的主要功能包括: 1. 定义了一个名为`Crawler`的类...

    不错的美女图片网站程序模板

    【标题】:“不错的美女图片网站程序模板” 这个标题揭示了一个重要的知识点,即存在一个用于创建美女图片网站的程序模板。程序模板是预先设计和开发的框架,为建立特定类型的网站提供了一个快速、便捷的起点。在IT...

    微信小程序例子(美女图片)

    这个“美女图片”小程序实例是一个典型的微信小程序应用开发案例,涵盖了小程序开发的基础知识和常见技术点,对于学习和理解微信小程序的开发流程和核心概念非常有帮助。通过实践这样的项目,开发者可以加深对小程序...

    python网页爬虫--美女网图片爬取

    本教程将聚焦于使用Python进行美女图片的网络爬取,这是一个典型的爬虫项目,可以帮助我们理解爬虫的基本原理和实践。 首先,我们需要引入Python中的几个关键库。`requests`库用于发送HTTP请求,获取网页HTML内容;...

    美女图片小偷程序

    【标题】"美女图片小偷程序" 是一个基于ASP(Active Server Pages)技术构建的网站程序,主要用于自动抓取和展示网络上的美女图片资源。在Web开发领域,这样的程序通常被用于快速创建一个图片分享或者壁纸下载站点,...

    python爬虫源码,爬取网站美女图片

    自己写的网站图片爬虫程序,练手。

Global site tag (gtag.js) - Google Analytics