`
willse
  • 浏览: 2908 次
  • 性别: Icon_minigender_1
  • 来自: 成都
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

[原创]美女图片爬虫程序实战!~用技术创造快感!

阅读更多
很久没把自己做的东西拿出来和大家分享了,今天总算想到可以写一些东西了。嘿嘿
美女图片爬虫程序很简单,就是从目标网站上将一些美女图片抓取下来,并按文件夹的方式归类存放(默认保存路径D:\Girl)。
现在以
http://www.36mn.com/网站为例,将论坛上面的一个个图片抓取下来慢慢欣赏。
程序说明:
com.th.spider.Main 运行这个抓取美女图片
com.th.spider.test.* 样例程序
com.th.spider.CookieLogin 模拟登陆实例
com.th.spider.Clean 清除没图片的目录和无效图片目录
 
用技术创造快感!!!! 嘿嘿
 
Email:wellse@qq.com
 

下载资源:
 
网络爬虫原理与实战PPT.zip

主要技术:
Jsoup、HttpClient.

配置说明:
config.properties

#保存目录
save.dir=D:/GIRL
#网站根路径#
url.base=http://www.36mn.com/
#URL访问模板
url.template=http://www.36mn.com/forum-62-#page#.html

#开始PAGE 替换url.template中page参数#
page.start=1
#结束PAGE 替换url.template中page参数#
page.end=2

#线程池大小,并发抓取图片的最大线程数#
thread.pool.size=50

配置中的page.start 和 page.end 指定了抓取论坛开始页到结束页,如果想抓取整个论坛的就page.start=1,page.end=100吧。
配置目录save.dir 默认会创建一个D:/GIRL的目录,用户保存抓取图片。图片保存方式:D:/GIRL/页号/帖子名/图片名

抓取思路:
1.获取论坛中的每个帖子标题和连接。
2.请求帖子连接返回帖子内容。
3.分析获取图片的URL。
4.定位URL下载图片到本地。

论坛帖子列表
http://www.36mn.com/forum-62-1.html

其中一个帖子内容 http://www.36mn.com/thread-22672-1-2.html




抓取结果





分享到:
评论
49 楼 留恋蓝色 2011-06-29  
ccxw1983 写道
下载方法可多了,我分析网页用的htmlclean+xpath更方便点。
qq相册下载的用的firefox的插件。


呵呵,跟我用的一样,也是htmlcleaner跟xpath

不过不会写通用性的,只会针对单个网站或者网页抓
48 楼 babylon3389 2011-06-29  
哈哈,以前也搞过这类滴事情~
47 楼 lipeng88213 2011-06-29  
a68091555 写道
嘿嘿,刚才爬了下草榴的,有点意思


这个注意不错
46 楼 dfbb222222 2011-06-29  
年前写过一个爬虫抓们爬sexinsex board 通宵开机扒网站资源 。
45 楼 181054867 2011-06-29  
超,做这个太简单啦!!!
44 楼 iqeq00 2011-06-29  
这个东西有点神奇,下载下来看看,呵呵...
43 楼 Cindy_Lee 2011-06-29  
“草榴”是什么,我火星了
42 楼 MyEyeOfJava 2011-06-29  
yangguo 写道
能够图像识别出美女才叫牛!你这样猫猫狗狗也拿回来了。
何况我百度图片一下美女,不比你这个容易淫的一手好湿么。

就鄙视你这样的,你要是不能实现就少BBBB的。。。
41 楼 MyEyeOfJava 2011-06-29  
不管怎么说,我自己觉得有用就行了,爬虫小程序,mark
40 楼 ccxw1983 2011-06-29  
下载方法可多了,我分析网页用的htmlclean+xpath更方便点。
qq相册下载的用的firefox的插件。
39 楼 elan1986 2011-06-28  
很不错的好方法啊!
38 楼 willse 2011-06-28  
rkikbs 写道
下载了程序看了一下,如果是用的代理的网络,代码要修改的地方就不少了。。。


施主莫非想翻@墙劫色.......... 嘿嘿
37 楼 willse 2011-06-28  
sdu_wizard 写道
如果图片没有class属性怎么办?

如果没有class属性,可以看看他其他的属性特征。

如 url like "http://himg2.huanqiu.com/attachment2010/"

//找到美女图片,这个需要分析返回HTML中的图片元素特征。
Elements elements = doc.select("url[href*=http://himg2.huanqiu.com/attachment2010/]");

反正需要根据实际情况分析HTML中的图片具有哪些特性,这样才能准确抓取。
36 楼 willse 2011-06-28  
lxs647 写道
空即是色,色即是空,,看开点儿、、、

一切皆乃浮云、、、


施主已经遁入空门.. 何苦留恋凡尘呢?
35 楼 willse 2011-06-28  
tntxia 写道
那个Cookie是怎么计算出来的。

Cookie 使用IEHttpHeader 软件抓取的!
34 楼 lxs647 2011-06-28  
空即是色,色即是空,,看开点儿、、、

一切皆乃浮云、、、
33 楼 sdu_wizard 2011-06-28  
如果图片没有class属性怎么办?
32 楼 tntxia 2011-06-28  
那个Cookie是怎么计算出来的。
31 楼 rkikbs 2011-06-28  
下载了程序看了一下,如果是用的代理的网络,代码要修改的地方就不少了。。。
30 楼 peak 2011-06-28  
这个上AV网站必备的啊

相关推荐

Global site tag (gtag.js) - Google Analytics