- 浏览: 135028 次
- 性别:
- 来自: 大连
文章分类
最新评论
-
datawarehouse:
datawarehouse 写道ngix 淘宝是基于这个开发了 ...
解密淘宝网的开源架构 -
datawarehouse:
ngix 淘宝是基于这个开发了一个自己的webserver吧。 ...
解密淘宝网的开源架构 -
eyelock:
我运行报错,,楼主能解答一下G,对swing不熟。
raphi ...
假期没事,写了个90行的俄罗斯方块,Java实现,史上最小巧 -
lostsky_11:
楼主写出例子了么?物理碰撞部分可能跟你说的差不多渲染部分可以搜 ...
Where is my water 游戏算法 -
xouou_53320:
都是牛人
假期没事,写了个90行的俄罗斯方块,Java实现,史上最小巧
为朋友的网站写了个小代码,把所有图片下载到本地,有点不道德了,哈哈。。。
不好意思,完全没考虑设计, 就是实现功能,一次性的。呵呵。所以也不顾什么设计模式,什么代码结构了。实现功能就OK了。。
package com.ai.picpicker; import java.io.IOException; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; import org.apache.commons.httpclient.MultiThreadedHttpConnectionManager; import org.htmlparser.util.ParserException; public class PicPicker { public static final String siteUrlPrefix = "http://www.****.com/a********"; public static final String siteUrlSuffix = ".html";; public static final int pageNum = 4;// Sum 20 pages. public static final int startCategory = 1; public static void main(String args[]) throws ParserException, HttpException, IOException, InterruptedException { MultiThreadedHttpConnectionManager connectionManager = new MultiThreadedHttpConnectionManager(); HttpClient httpClient = new HttpClient(connectionManager); int picCount = 0; // Main Loop, all page. PickerThread[] ppt = new PickerThread[pageNum]; for (int p = 3; p < pageNum; p++) { ppt[p] = new PickerThread(httpClient, p + 1, startCategory); ppt[p].start(); System.out.println("Thread " + (p + 1) + " Started~~"); ppt[p].join(); } for (int p = 3; p < pageNum; p++) { picCount = picCount + ppt[p].getCount(); } System.out.println("All downloaded file num:" + picCount); } }
package com.ai.picpicker; import java.io.File; import java.io.FileOutputStream; import java.io.FileWriter; import java.io.IOException; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpStatus; import org.apache.commons.httpclient.methods.GetMethod; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.HeadingTag; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; public class PickerThread extends Thread { private HttpClient httpClient = null; private int pageNum = 0; private int picCountT = 0; private int startCategory = 0; public PickerThread(HttpClient httpClient, int pageNum, int startCategory) { this.httpClient = httpClient; this.pageNum = pageNum; this.startCategory = startCategory - 1; } public int getCount() { return picCountT; } @Override public void run() { System.out.println("Thread " + pageNum + " Running~~"); File forLogFile = new File("log4thread" + pageNum); FileWriter fwl = null; String picStr = null; try { Parser parser; parser = new Parser("http://www.******.com/a*******" + pageNum + ".html"); fwl = new FileWriter(forLogFile); NodeList nodelist = parser.parse(null); NodeFilter categoryFilter = new TagNameFilter("h4"); NodeList categoryList = nodelist.extractAllNodesThatMatch(categoryFilter, true); GetMethod getPageMethod = null; for (int i = startCategory; i < categoryList.size(); i++) { HeadingTag ht = (HeadingTag) categoryList.elementAt(i); LinkTag lt = (LinkTag) ht.getChild(0); String oneUrl = lt.getLink(); fwl.write("[INFO]" + "Category Num" + i + " Downloading! Url:" + oneUrl + "\n"); getPageMethod = new GetMethod(oneUrl); int statusCode = httpClient.executeMethod(getPageMethod); if (statusCode != HttpStatus.SC_OK) { fwl.write("[ERROR]" + "Method failed: " + getPageMethod.getStatusLine() + "\n"); } else { fwl.write("[INFO]" + "Page" + pageNum + "_" + getPageMethod.getStatusLine() + "\n"); fwl.flush(); byte[] pageBody = getPageMethod.getResponseBody(); getPageMethod.releaseConnection(); String picListHtml = new String(pageBody, "UTF-8").trim(); String picSubStr = picListHtml.substring(picListHtml.indexOf("start"), picListHtml.indexOf("end")); while (picSubStr.indexOf("\"file\"") != -1) { picStr = picSubStr.substring(picSubStr.indexOf("\"file\"") + 8, picSubStr.indexOf("\"pic\"") - 2).replace("\\", ""); StringBuilder sb = new StringBuilder(); sb.append("P").append(pageNum).append("_C").append(i + 1).append("/"); File dir = new File(sb.toString()); if (!dir.exists()) { dir.mkdir(); dir = null; } sb.append(picStr.substring(picStr.indexOf("/", 16) + 1, picStr.length())); File picFile = new File(sb.toString()); if (picFile.exists()) { fwl.write("[ERROR]" + "Duplication picture! FileName:" + sb.toString() + "\n"); if (picSubStr.indexOf("\"pic\"", 7) != -1) { picSubStr = picSubStr.substring(picSubStr.indexOf("\"pic\"", 7) + 7, picSubStr.length()); } continue; } GetMethod getPicMethod = new GetMethod("http://www.******.com/" + picStr); statusCode = httpClient.executeMethod(getPicMethod); if (statusCode != HttpStatus.SC_OK) { fwl.write("[ERROR]" + "Method failed: " + " URL:" + "http://www.********.com/" + picStr + getPicMethod.getStatusLine() + "\n"); } else { byte[] picBody = getPicMethod.getResponseBody(); getPicMethod.releaseConnection(); FileOutputStream picOutPut = new FileOutputStream(picFile); picOutPut.write(picBody); picOutPut.close(); fwl.write("[INFO]" + "Pic" + picCountT++ + " URL:" + "http://www.*********.com/" + picStr + "\n"); fwl.flush(); System.out.print('.'); } // System.out.println(picStr); if (picSubStr.indexOf("\"pic\"", 7) != -1) { picSubStr = picSubStr.substring(picSubStr.indexOf("\"pic\"", 7) + 7, picSubStr.length()); } } fwl.write("[DEBUG]" + lt.getLink()); fwl.flush(); } System.out.println(); fwl.flush(); } fwl.write("[INFO]" + "Thread " + pageNum + " run over " + picCountT + "pic!!!\n"); fwl.flush(); } catch (Exception e) { System.out.println("Thread " + pageNum + " Exception!!! PicUrl:" + picStr); e.printStackTrace(); } finally { try { if (fwl != null) fwl.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } }
评论
2 楼
wangshu3000
2012-01-03
greatghoul 写道
很不错,我也经常抓取些图片,当然都是**网站的,如果只是抓取图片,建议使用正则,会快很多。
还有这个run方法大了点儿,可以再分离下。。。
还有这个run方法大了点儿,可以再分离下。。。
不好意思,完全没考虑设计, 就是实现功能,一次性的。呵呵。所以也不顾什么设计模式,什么代码结构了。实现功能就OK了。。
1 楼
greatghoul
2012-01-03
很不错,我也经常抓取些图片,当然都是**网站的,如果只是抓取图片,建议使用正则,会快很多。
还有这个run方法大了点儿,可以再分离下。。。
还有这个run方法大了点儿,可以再分离下。。。
发表评论
-
MyLab
2015-11-23 12:35 410Server-0 OS:Oracle linux Softwa ... -
Learning
2015-03-23 13:43 342HighOAuth2.0Jira Confluence,G ... -
Eclipse 绘制草图的plugin
2013-02-20 15:52 809http://wireframesketcher.com/d ... -
My Environment
2013-01-22 16:19 803PC1-Server OS:RedHat Softwa ... -
话单匹配问题
2012-09-04 15:35 722需求是,有2套话单,每套中有2个字段为关联字段, 话单文件1 ... -
Senior Solution Architect(Systems)
2012-02-28 11:03 839努力方向. The Senior Solution Archi ... -
从一篇文章中筛选处辞典生词本中没有的单词,导出成txt文件
2012-02-23 16:28 1081代码些的比较烂,只是从几篇文章中过滤处单词本中没有的单词,导出 ... -
关于火车订票系统瓶颈的分析及解决方案
2012-01-09 09:12 2479需求描述 1.网站订票 2.身份证实名验证 思考 1.根据新 ... -
[疑问]关于NIO的耗时服务端业务逻辑问题????
2012-01-04 16:59 1698研究了一下NIO的非阻塞连接。。似乎有点问题。。 当服务端处理 ... -
写了个小代码,统计史蒂夫乔布斯传英文版的单词数量
2011-12-11 15:58 872package com.ai; import java. ... -
软件项目版本号的命名规则及格式介绍
2011-01-12 10:19 950版本控制比较普遍 ... -
中文编码基础知识介绍
2009-01-22 15:30 944GB2312 范围: 0xA1A1 - 0xFEFE 汉字范围 ... -
软件架构
2008-12-26 16:03 929软件架构(software arch ... -
理解架构师
2008-12-26 15:35 980架构师应该精通分析和设计。架构师应该比常人容易理解事物的基本原 ... -
架构和架构设计师
2008-12-26 15:34 1013系统架构通俗的说起来 ... -
构架师之路
2008-12-12 11:08 859胡德平◎《Java联盟》客栈论坛 构架师(Archit ... -
软件架构师成长之路
2008-12-12 11:07 994对于任何一个软件开发 ... -
大型网站架构之:MySpace的体系架构
2008-10-26 01:31 1164MySpace.com有着6500万的订 ... -
IT网站
2008-10-02 23:24 975一、IT技术开发综合类 http://community ... -
一位软件工程师的6年总结
2008-10-02 10:04 1016“又是一年毕业时”, ...
相关推荐
本资源“精华志 蜘蛛爬虫,递归抓取页面的URL 抓取页面URL”显然是一个关于如何使用编程语言实现递归爬虫的教程,特别关注了C#、ASP.NET、SQL和DBA技术,并可能包含源码供学习和参考。 1. **C#**:C#是微软开发的一...
在IT行业中,网络爬虫是一种常见的技术,用于自动化地抓取互联网上的信息。在这个场景中,我们关注的是如何使用PHP来模拟百度蜘蛛的行为,抓取指定网站的链接,并将这些链接保存到TXT文本中。这一过程涉及到多个PHP...
在本场景中,网络蜘蛛的主要任务是抓取网上的图片。这个过程涉及到多个技术环节,包括网页解析、URL管理、图片下载以及可能的数据存储。 首先,**网页解析**是网络蜘蛛工作的核心部分。它通常使用HTML解析库,如...
早先年,驰骋网络,积累了很多源代码…… 互联网的基因、骨头里就是自由、分享,非常感谢没有墙的时代,无限怀念,想想当时的BBS,俱往矣~ ...用爬虫吧,当然爬虫只能爬所有http资源,数据库中的就得用另法了,呵呵~
【标题】:“蜘蛛爬虫实现jar包”是指一个包含了实现蜘蛛爬虫功能的Java应用程序的归档文件。这种jar包通常由一系列类文件、资源文件和元数据组成,旨在帮助开发者抓取网页内容,处理URL,并可能用于搜索引擎的数据...
【标题】:“C#爬虫蜘蛛程序(图片抓取)” 这个标题揭示了一个基于C#编程语言编写的网络爬虫程序,它的主要功能是抓取互联网上的图片资源。爬虫,也被称为蜘蛛程序,是一种自动浏览和分析网页的软件工具。在IT领域...
在互联网世界中,搜索引擎是获取信息的关键工具,而“蜘蛛爬虫”(也称为网络爬虫或网页爬虫)是搜索引擎背后的重要技术之一。它通过自动地遍历和抓取互联网上的网页,为搜索引擎提供丰富的数据来源,以便进行索引和...
【标题】"自写C#蜘蛛爬虫源代码"是一个基于C#编程语言实现的网络爬虫项目,专为Visual Studio 2013开发环境设计,并兼容.NET Framework 4.5。该项目提供了完整的源代码,包含详尽的注释和使用说明,旨在促进开发者...
在互联网世界中,搜索引擎的爬虫(也称为蜘蛛)对于网站的索引和排名起着至关重要的作用。当涉及到JS(JavaScript)跳转时,一个常见的担忧是这可能会影响搜索引擎的抓取,导致某些页面无法被正确索引。本文将深入...
网站搜索引擎蜘蛛爬虫日志分析是一项关键的SEO(搜索引擎优化)技术,它涉及到对网站访问记录的深入理解和解析,以了解搜索引擎如何与你的网站互动。本文将深入探讨这个主题,帮助你理解爬虫的工作原理、如何分析...
蜘蛛日志在线分析工具是一款开源的工具,可用于快速分析网站访问日志中搜索引擎网络爬虫的抓取记录。如果你的服务器运行在linux宝塔面板环境下,你只需要登录宝塔面板的linux控制面板,在左侧导航栏中点击”文件”,...
"IVBD『限制百度蜘蛛抓取txt代码』"这个主题涉及到如何通过编写`robots.txt`文件来管理搜索引擎爬虫的访问权限。`robots.txt`是一种简单的文本文件,它告诉搜索引擎哪些页面可以抓取,哪些应避免抓取。在这个场景中...
在IT领域,蜘蛛爬虫是一种自动化程序,用于在网络上抓取信息。它们模拟了人类用户的行为,遍历网页并收集数据,这对于数据分析、搜索引擎优化(SEO)以及网站内容监控等应用至关重要。源码是指编程过程中编写的原始...
标题中的“C#蜘蛛、网络爬虫源代码”是指使用C#编程语言编写的网络爬虫程序的源代码。网络爬虫,也称为网页抓取器或数据抓取工具,是一种自动化程序,它能遍历互联网上的网页,收集所需信息。在C#中实现爬虫,通常会...
Java网络爬虫,也被称为“蜘蛛”,是一种自动化程序,用于从互联网上抓取大量信息。在Java编程语言中实现网络爬虫,可以利用其强大的面向对象特性、稳定性和跨平台能力,来高效地抓取、解析和存储网页数据。这款开源...
在标题提到的“蜘蛛抓取网页数据”中,我们主要关注的是使用编程语言,如C#,实现这一过程。.NET框架提供了一个强大的环境来构建这样的应用程序,而C#作为.NET平台的主要开发语言,拥有丰富的库和工具支持网页抓取。...
网站日志蜘蛛在线分析工具源码 日志可视化管理工具源码 快速分析搜索引擎网络爬虫抓取记录 如果是 linux 宝塔面板 的服务器自然环境,大家登陆宝塔面板linux控制面板后,点一下左边“文件”,在www下的wwwlogs文件...
在这个场景中,我们讨论的是使用C#实现的一个蜘蛛爬虫(Web Crawler)的源代码。蜘蛛爬虫是互联网上的一个自动化程序,用于抓取网页内容并进行索引,通常被搜索引擎用来更新其搜索结果。 在"Program.cs"这个文件中...