jsoup网页内容抓取分析(2)

cjp1989

浏览: 163405 次
性别:
来自: 武汉

最近访客更多访客>>

猫狸粽子

picking

lzylin

csnd_one

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java爬虫搜索

jsoup java搜索爬虫 java数据抓取

针对上一篇写的内容很简单，只是给大家抛出了有一个工具可以用来分析网页的内容，做java搜索爬虫使用，实际的使用并没有怎么介绍，现在这篇文章就来介绍一下用法，可能分析的不是很全面，欢迎批评。经过我的测试使用，jsoup分析网页结构和内容的功能远远强大于HtmlParser,无论是获取整个页面的文本，还是分析特定内容的网页结构，都是十分的方便。

附上链接：jsoup官网：http://jsoup.org/ ，中文jsoup：http://www.open-open.com/jsoup/

下面写些我的使用记录，希望大家如果能从我的方法中得到启发，鉴于本人从事开发工作不久，内容可能写的不是很好。

jsoup数据获取有两大方法：1.通过分析dom模型的网页标签和元素，2.select元素选择器，类似jquery方式（功能很强大，还支持正则表达式）。网页tag标签有body，div，table，tr，td，a，等等。元素的属性有，href，title，width，height，color等等，元素属性的值就是，例如：href=“www.baidu.com”, 值就是www.baidu.com 。width=“98%” 值就是98%

下面就以分析http://www.iteye.com首页的每日资讯为例，抓取每日资讯的标题和url地址，详细写出分析步骤：

1.用chrome浏览器的元素审查，分析页面的结构，得到每日资讯是div class=<main_left>层里面

2.写程序分析，首先根据url获取div文本，再来根据文本对内容进行分析

	/**
	 * 根据jsoup方法获取htmlContent
         * 加入简单的时间记录
	 * @throws IOException 
	 */
	public static String getContentByJsoup(String url){
		String content="";
		try {
			System.out.println("time=====start");
			Date startdate=new Date();
			Document doc=Jsoup.connect(url)
			.data("jquery", "java")
			.userAgent("Mozilla")
			.cookie("auth", "token")
			.timeout(50000)
			.get();
			Date enddate=new Date();
			Long time=enddate.getTime()-startdate.getTime();
			System.out.println("使用Jsoup耗时=="+time);
			System.out.println("time=====end");
			content=doc.toString();//获取iteye网站的源码html内容
			System.out.println(doc.title());//获取iteye网站的标题
		} catch (IOException e) {
			e.printStackTrace();
		}
		System.out.println(content); 
		return content;
	}

3. 根据整个每日资讯所在的div层，获取那段内容（精确获取）

        /**
	 * 使用jsoup来对文档分析
         * 获取目标内容所在的目标层
         * 这个目标层可以是div，table，tr等等
	 */
	public static String getDivContentByJsoup(String content){
		String divContent="";
		Document doc=Jsoup.parse(content);
		Elements divs=doc.getElementsByClass("main_left");
		divContent=divs.toString();
	      //System.out.println("div==="+divContent);
		return divContent;
	}

4.根据获取的目标层得到你所要的内容（title，url地址...等等）

/**
	 * 使用jsoup分析divContent
	 * 1.获取链接 2.获取url地址（绝对路径）
	 */
	public static void getLinksByJsoup(String divContent){
		String abs="http://www.iteye.com/";
		Document doc=Jsoup.parse(divContent,abs);
		Elements linkStrs=doc.getElementsByTag("li");
		System.out.println("链接==="+linkStrs.size());
		for(Element linkStr:linkStrs){
		    String url=linkStr.getElementsByTag("a").attr("abs:href");
		    String title=linkStr.getElementsByTag("a").text();
		    System.out.println("标题:"+title+" url:"+url);
		}
	}

5.加入main方法里面执行测试

/**
	 * @method 测试获取内容程序
	 */
	public static void main(String[] args) throws IOException {
		
		/**
		 * 执行分析程序
		 */
		String url="http://www.iteye.com/";
		String HtmlContent=getContentByJsoup(url);
		String divContent=getDivContentByJsoup(HtmlContent);
		getLinksByJsoup(divContent);
	}

6.附上结束语：jsoup功能很好很强大，附上的只是简单的使用方法，还有很多需要完善的内容，我其实使用也不到几天的时间。还有就是select功能还是很好用的，具体参考官方文档，写的非常的通俗易懂！附上程序源码和jsoup的jar包

jsoup-1.7.2.jar (286.8 KB)
下载次数: 150

测试程序源码.zip (1011 Bytes)
下载次数: 263

查看图片附件

8
顶

2
踩

分享到：

FusionCharts中文乱码 | Jsoup网页内容抓取分析(1)

2013-02-22 10:18
浏览 20374
评论(14)
分类:开源软件
查看更多

14 楼 cjp1989 2013-02-26

shantouyyt 写道

请问下，是不是有些网站会被屏蔽掉我访问的时候出现“您的访问请求被拒绝 - ITeye技术社区”

Document doc = Jsoup.connect("http://www.iteye.com/").post();

还有 data，userAgent，cookie 等是什么意思，为了做什么。。。
Document doc=Jsoup.connect(url)
        .data("jquery", "java")
        .userAgent("Mozilla")
        .cookie("auth", "token")
        .timeout(50000)
        .get();

谢谢。。。。。

因为有些网站的后台接收是用get方法的进行数据传输，你就不能使用post了。当然这个个别情况，可以看我的第一篇文章！

13 楼 shantouyyt 2013-02-25

12 楼 cjp1989 2013-02-23

hadoopforcloud 写道

建议博主试试htmlcleaner+xpath的组合，比这个更方便

谢谢，我要试试!

11 楼 cjp1989 2013-02-23

eppen 写道

加上
.data("jquery", "java")
好像没用吧？

确实是没有什么用处

10 楼 hadoopforcloud 2013-02-23

建议博主试试htmlcleaner+xpath的组合，比这个更方便

9 楼 eppen 2013-02-23

加上
.data("jquery", "java")
好像没用吧？

8 楼 cjp1989 2013-02-22

jianghenet 写道

能不能开发一套工具，再开发一套Chrome插件配合使用。Chrome插件用于选取抓取内容的DOM元素，然后生成参数，用jsoup来抓取。

想法是好的，呵呵！

7 楼 jianghenet 2013-02-22

能不能开发一套工具，再开发一套Chrome插件配合使用。Chrome插件用于选取抓取内容的DOM元素，然后生成参数，用jsoup来抓取。

6 楼 cjp1989 2013-02-22

simple1024 写道

最近一直在用jsoup抓一些资源

select很好很强大哦，我就直接用select定位了，省去了很多繁琐。

jsoup上手也容易。

jsoup的功能远远不止这些，还有模拟提交，下载图片，下载歌曲等等功能！

5 楼 cjp1989 2013-02-22

simple1024 写道

我在想，能不能写一套通用的程序，去爬取一些信息呢？

但是每个网站结构不同，我目前都针对网站写相应的程序，有什么好的办法么？

采用select选择器，针对你要的内容，元素的标签分类，存入数据库。直接从数据库读取参数，当然这个只能对于80%的网站。还有就是正则匹配你要的内容

4 楼 simple1024 2013-02-22

我在想，能不能写一套通用的程序，去爬取一些信息呢？

但是每个网站结构不同，我目前都针对网站写相应的程序，有什么好的办法么？

3 楼 simple1024 2013-02-22

最近一直在用jsoup抓一些资源

select很好很强大哦，我就直接用select定位了，省去了很多繁琐。

jsoup上手也容易。

2 楼 cjp1989 2013-02-22

closer13 写道

看贴出来的代码还在想，怎么不用selec啊，可以直接定位到li元素了。会jquery的，上手jsoup非常快，尤其是选择器那块几乎一样。

给大家更多的自己修改，呵呵！

1 楼 closer13 2013-02-22

看贴出来的代码还在想，怎么不用selec啊，可以直接定位到li元素了。会jquery的，上手jsoup非常快，尤其是选择器那块几乎一样。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论