网络爬虫 apache HttpClient

leiwuluan

浏览: 713891 次
性别:
来自: 北京

最近访客更多访客>>

思朝阳念落日

bigpotato9999

icesane

wzl_show

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

网络爬虫

什么是网络爬虫

网络爬虫
（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。

网络爬虫
是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性

就是捉取和搜集网络数据。
它可以模拟客户端请求，登录权限的模拟，然后捉取数据。-->进行分析!

简单爬虫

public static String getContentByUrl(String url) throws Exception{
	HttpClient client = new HttpClient();
	GetMethod get = new GetMethod(url);
	
	setHead(get);
	
	int state = client.executeMethod(get);
	if (200 == state) {
		return (new String(get.getResponseBodyAsString().getBytes("iso-8859-1"),"utf-8"));
	}else{
		return null;
	}
}

public static HttpMethodBase setHead(HttpMethodBase get){
	get.addRequestHeader("Host", "www.baidu.com");
	get.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:8.0) Gecko/20100101 Firefox/8.0");
	get.addRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");
	get.addRequestHeader("Accept-Language", "zh-cn,zh;q=0.5");
//		get.addRequestHeader("Accept-Encoding", "gzip, deflate");
	get.addRequestHeader("Accept-Charset", "GB2312,utf-8;q=0.7,*;q=0.7");
	get.addRequestHeader("Connection", "keep-alive");
	get.addRequestHeader("Referer", "http://www.baidu.com/member/login");
	get.addRequestHeader("Cookie", "PHPSESSID=195cb3ecdf2eb2e5ef694a922bb478e3; Hm_lvt_bc97aabf99434efa3940a5886150c7e7=1323657227055; Hm_lpvt_bc97aabf99434efa3940a5886150c7e7=1323657251442; local[ip]=61.148.82.174; local[uid]=294; local[is]=y");
	
	return get;
}

public static void main(String[] args) throws Exception {
	getContentByUrl("http://www.baidu.com/member/login");
}

project.rar (418.8 KB)
下载次数: 55

分享到：

HtmlCleaner | Android TTS(Text To Speech)

2011-12-12 17:11
浏览 2136
评论(4)
分类:编程语言
查看更多

4 楼 1664796794 2013-12-03

高手啊很多文章对我来说有很大的帮组啊 0.0

3 楼 1664796794 2013-12-03

[list]
[*][list]
[*][*][list]
[*][*][*][list]
[*][*][*][*][list]
[*][*][*][*][*][list]
[*][*][*][*][*][*][list]
[*][*][*][*][*][*][*][list]
[*][*][*][*][*][*][*][*][list]
[*][*][*][*][*][*][*][*][*][list]
[*][*][*][*][*][*][*][*][*][*][list]
[*][*][*][*][*][*][*][*][*][*][*][list]
[*][*][*][*][*][*][*][*][*][*][*][*][list]
[*][*][*][*][*][*][*][*][*][*][*][*][*][list]
[*][*][*][*][*][*][*][*][*][*][*][*][*][*]
[*][*][*][*][*][*][*][*][*][*][*][*][*]

[*][*][*][*][*][*][*][*][*][*][*][*][/list]

[*][*][*][*][*][*][*][*][*][*][*][/list]

[*][*][*][*][*][*][*][*][*][*][/list]

[*][*][*][*][*][*][*][*][*][/list]

[*][*][*][*][*][*][*][*][/list]

[*][*][*][*][*][*][*][/list]

[*][*][*][*][*][*][/list]

[*][*][*][*][*][/list]

[*][*][*][*][/list]

[*][*][*][/list]

[*][*][/list]

[*][/list]

[/list]

2 楼 spring_look 2011-12-30

1 楼 w123456h19 2011-12-28

有点不相信你是女滴？编码有一定的深度，肯定下了功夫的！

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论